法院正在探討并決定生成式人工智能是否侵犯版權。本文中,讓我們來談談這到底意味著什么。
美國的版權法是一件復雜的事情。我們這些不是律師的人很難弄清楚它的真正含義,以及它能保護什么和不能保護什么,這是可以理解的。數據科學家不會花很多時間考慮版權問題,除非我們為開源項目選擇許可證。即便如此,有時我們只是跳過這一點,并沒有真正處理它,盡管我們知道我們應該這樣做。
但法律界開始密切關注生成式人工智能領域對于版權的影響,這可能會對我們的工作產生真正的影響。在我們具體討論版權如何影響生成式人工智能領域之前,讓我們首先來回顧一下版權相關的事實問題。
版權
美國版權法與所謂的“原創作品”有關。這些作品包括這樣一些相關內容:文學;音樂的戲劇性的啞劇和舞蹈作品;繪畫、圖形和雕塑作品;音像作品;錄音;衍生作品;編著;建筑工程。
內容必須是書面的或文檔化的,才能具有版權。“想法是不可版權保護的,只有有形的表達形式(如書籍、戲劇、繪畫、電影或照片等)才可實行版權保護。一旦你以固定的形式表達你的想法——比如數字繪畫、錄制的歌曲,甚至在餐巾紙上涂鴉——如果它是原創作品,它就會自動受到版權保護。”——電子前沿基金會。
受到保護意味著,只有版權持有人(作者或創作者、繼承權利的后代或權利的購買者)才能做這些事情,例如制作和銷售作品的副本,從原作中創作衍生作品,以及公開表演或展示作品等。
版權并不是永恒的,它會在一定時間后結束。通常,這是作者去世后70年或內容發布后95年。(1929年之前的任何東西在美國通常都屬于“公共領域”,這意味著它不再受版權保護。)
為什么存在版權呢?最新的法律解釋認為,重點不僅僅是讓創作者致富,而是鼓勵創作,讓我們擁有一個包含藝術和文化創造力的社會。基本上,我們與創作者交換金錢,這樣他們就有動力為我們創造偉大的作品。這意味著,許多法院在審理版權案件時會問,“這種復制品是否有助于一個創造性的、藝術性的和富有創新的社會?”在做出判決時也會考慮到這一點。
合理使用
此外,“合理使用”并不是無視版權的免費通行證。有四項測試可以決定內容的使用是否為“合理使用”:
第二次使用的目的和特征:你是在做一些創新和不同的內容,還是只在復制原作?你的新作本身有創新性嗎?如果是這樣,它更有可能是合理使用。此外,如果你的用途是為了賺錢,那就不太可能是合理使用。
原創的本質:如果原創是有創意的,那么很難在合理使用的情況下侵犯版權。如果只是事實,那么你更有可能合理使用(這方面的例子包括:引用研究文章或百科全書等)。
使用量:你在復制整個內容嗎?或者只是復制一段或一小段?盡可能少地使用對于合理使用來說是很重要的,盡管有時你可能需要在衍生作品中大量使用。
效果:你是在從原作中竊取客戶信息嗎?人們會購買或使用你的副本而不是購買原件嗎?創作者會因為你的復制而賠錢或失去市場份額嗎?如果是這樣的話,這很可能就是不合理的使用。(即使你沒有賺到錢,也是不合理的使用。)
你必須滿足所有上述這些測試才能得到公平使用,而不僅僅是一兩項測試。當然,所有這些都要接受法律解釋。(顯然,本篇文章不是法律建議相關的!)但現在,有了這些事實,讓我們想想生成式人工智能的作用,以及為什么上面的概念會沖擊生成式人工智能。
生成式人工智能綜述
對我寫的專欄非常熟悉的讀者會非常清楚地了解生成式人工智能是如何訓練的。盡管如此,還是先讓我們來快速回顧一下有關內容。
大量的數據被收集起來,模型通過分析數據中存在的模式來學習。(正如我之前所寫的:“一些報告表明,GPT-4的訓練數據中有大約1萬億個單詞。這些單詞中的每一個都是一個人出于自己的創作能力而寫的。就上下文而言,《權力的游戲》系列的第1本書約為292727個單詞。因此,GPT-4的訓練數據約為該書的3416152個拷貝。”)
當模型學習了數據中的模式時(對于LLM,它學習了所有關于語言語義、語法、詞匯和習語的知識),它將被人類微調,以便在人們與它交互時表現出所需的行為。數據中的這些模式可能非常具體,以至于一些學者認為模型可以“記住”訓練數據。
然后,該模型就能夠回答用戶的提示,反映出它所學習的模式(對于LLM,用聽起來很有說服力的人類語言回答問題)。
這些模型的輸入(訓練數據)和輸出對版權法都有重要影響;所以,接下來讓我們作進一步的分析。
訓練數據和模型輸出
訓練數據對于創建生成性人工智能模型至關重要。其目的是教一個模型復制人類的創造力,因此該模型需要看到大量人類創造力的作品,才能了解其外觀/聲音。但是,正如我們之前所了解到的,人類創作的作品屬于創作作品的這些人(即使它們被記在餐巾紙上)。對于我們訓練哪怕是一個小的生成式人工智能模型所需的數據量,向每一位創作者支付他們作品的版權從財務角度上看都是不可行的。那么,我們將他人的工作輸入訓練數據集并創建生成式人工智能模型是否合理呢?現在,不妨讓我們再復習一下公平使用的測試,來看看我們在哪里能找到立足點。
1.第二次使用的目的和特點
我們可以爭辯說,使用數據來訓練模型并不能真正算作創造衍生作品。例如,這與教孩子用書或音樂不同嗎?相反的論點是,首先,教一個孩子并不等同于使用數百萬本書來生成一個產品牟利;其次,生成性人工智能能夠敏銳地復制它所訓練的內容,因此它基本上是一個幾乎逐字逐句復制作品的大工具。生成式人工智能的結果有時是創新的,與輸入完全不同嗎?如果是的話,那可能是因為非常有創意的提示工程,但這是否意味著底層工具是合法的呢?
然而,從哲學上講,機器學習正試圖盡可能準確地再現它從訓練數據中學習到的模式。它從原作中學習到的模式是否與原作的“核心”相同呢?
2.原作的性質
這一方面在現有的不同類型的生成式人工智能中差異很大,但由于訓練任何模型都需要大量的數據,因此似乎至少有一部分符合創造力的法律標準。在許多情況下,使用人工內容作為訓練數據的全部原因是試圖將創新(高度多樣化)的輸入輸入到模型中。除非有人要仔細閱讀GPT-4的全部1萬億個單詞,并決定哪些單詞有創意或沒有創意;否則,我認為這一標準不屬于合理使用。
3.使用金額
這是一個類似于#2的問題。因為,幾乎從定義上講,生成式人工智能訓練數據集使用了他們所能掌握的一切,而且數量需要龐大而全面;實際上并不存在“最低限度的必需的”內容數量。
4.效果
最后,效果問題是生成式人工智能的一大癥結。我想,我們都知道有人會不時使用ChatGPT或類似工具,而不是在百科全書或報紙上搜索問題的答案。有強有力的證據表明,盡管這些服務機構做出了一些明顯的努力來阻止這種情況,但人們使用Dall-E等服務來請求“以[此處藝術家姓名]的風格”的視覺作品。如果問題是人們是否會使用生成式人工智能,而不是支付原始創作者的費用,那么在某些領域似乎肯定會發生這種情況。我們可以看到,像微軟、谷歌、Meta和OpenAI這樣的公司正在從生成式人工智能中獲得數十億的估值和收入,所以他們肯定不會輕易通過這一點。
復制作為計算中的一個概念
我想稍停一下來談談一個有一定相關性但是很重要的問題。版權法并不能很好地處理一般的計算,特別是軟件和數字制品。版權法主要是在早期世界制定的,在那個時代復制黑膠唱片或重新出版一本書是一項專業且昂貴的任務。但今天,當任何計算機上的任何東西基本上只需點擊鼠標就可以在幾秒鐘內復制時,復制東西的整個想法與過去不同了。
此外,請記住,安裝任何軟件都算作復制。數字拷貝在我們的文化中意味著與計算機之前的拷貝不同。關于版權在數字時代應該如何運作,人們有很多疑問,因為其中很多似乎不再那么重要。你有沒有從GitHub或StackOverflow復制過一些代碼?我當然有!您是否仔細審查了內容許可證,以確保其可用于您的場景中?你應該這樣做,但你做了嗎?
《紐約時報》控訴OpenAI的案子
通過上面介紹,我們已經對人工智能版權困境形式有了大致的了解;那么,創作者和法律是如何處理這些問題的呢?我認為最有趣的此類案件(有很多)是《紐約時報》提出的案件,因為其中一部分正好涉及復制的含義,而其他案件可能沒有做到這一點。
正如我上面提到的,復制數字文件的行為是如此普遍和正常,以至于很難想象強制復制數字文件(至少,在沒有違反其他合理使用測試向全球公眾分發確切文件的意圖的情況下)是侵犯版權。我認為這就是我們需要關注生成式人工智能問題的地方?—?不僅僅是復制,還有對文化和市場的影響。
生成式人工智能真的在復制內容嗎?例如訓練數據輸入,訓練數據輸出?《紐約時報》在其文件中顯示,你可以從ChatGPT中獲得《紐約時報》文章的逐字文本,并有非常具體的提示。因為《紐約時報》有付費墻(譯者注:一種阻止非付費用戶瀏覽網頁內容的屏蔽系統),所以如果這種情況是真實的,那么這似乎明顯違反了公平使用的效果測試。到目前為止,OpenAI的回應是“是的,因為你對ChatGPT使用了許多復雜的提示,就可以獲得這樣的逐字逐句的結果”。這讓我感到詫異:他們的論點就是生成式人工智能有時會生成其訓練內容的逐字副本。但是,這就不違法嗎?(環球音樂集團(Universal Music Group)也提起過與音樂相關的類似案件,認為生成式人工智能模型Claude可以幾乎逐字逐句地復制受版權保護的歌曲的歌詞。)
我們要求法院決定受版權保護的材料的確切使用量和使用方式,在這種情況下,這將是一個挑戰!?我傾向于認為,使用數據進行訓練不應該是固有的問題,但重要的問題是如何使用模型以及它會產生什么影響。
我們傾向于將合理使用視為一個步驟,就像引用你文章中的一段話。我們的系統有一套法律思想,為這種情況做好了充分準備。但在生成式人工智能中,這更像是兩個步驟。要說版權受到侵犯,在我看來,如果內容被用于訓練,那么,這些內容也必須應該以篡奪原始材料市場的方式從最終模型中檢索出來。我認為人工智能系統還不能夠將使用的輸入內容的數量與可以逐字提取作為輸出的數量區分開來。然而,ChatGPT真的是這樣嗎?我們很想看看法院對這些問題是怎么想的。
DMCA
上述這些問題還有另一個有趣的角度,那就是DMCA(數字千年版權法)是否與此相關。你可能熟悉這項法律,因為幾十年來,它一直被用來迫使社交媒體平臺刪除未經版權持有人授權發布的音樂和電影文件。這項法律是基于這樣一種想法,即你可以對侵犯版權的人進行“打擊”,一次刪除一條內容。然而,當涉及到訓練數據集時,這顯然是行不通的——你需要重新訓練整個模型,在大多數生成式人工智能的情況下,這需要付出高昂的代價,從訓練數據中刪除一個或多個有問題的文件。理論上,你仍然可以使用DMCA來強制從網站上刪除有問題的模型的輸出,但證明是哪個模型產生了這個項目將是一個挑戰。但是,另一方面這并沒有像我所描述的那樣,將輸入+輸出視為侵權的關鍵。
權力問題
如果上述這些行為實際上侵犯了版權,法院仍然必須決定該怎么辦。從某種意義上說,很多人認為生成式人工智能“太大了,不能失敗”——他們不能廢除讓我們走到這一步的做法,因為每個人都喜歡ChatGPT,對吧?生成式人工智能(我們被告知)將徹底改變幾乎所有行業!
雖然版權是否受到侵犯的問題仍有待決定,但我確實覺得如果受到侵犯,應該會有后果。假設請求原諒比許可更容易,我們在什么時候才能停止原諒那些繞過法律或公然違反法律的有權勢的人和機構呢?這并不完全顯而易見。如果沒有一些人以這種方式行事,我們今天就不會有很多創新,但這并不一定意味著這是值得的。另一方面,讓這些情況過去會導致法治貶值嗎?
像現在網站99percentinvisible的許多聽眾一樣,我正在讀羅伯特·卡羅的《權力經紀人。聽到羅伯特·摩西(Robert Moses)在20世紀之交如何處理紐約的法律問題令人著迷,因為他處理分區法的風格似乎讓人想起了2010年初舊金山優步(Uber)處理快遞司機相關法律的方式,以及構建生成式人工智能的大公司現在處理版權的方式。他們沒有遵守法律,而是采取了法律限制不適用于他們的態度,因為他們正在建造的規則是如此重要和有價值。
然而,我只是不相信這是真的。當然,每種情況在某些方面都是不同的,但一個有權勢的人可以決定他認為什么是好主意,這一概念不可避免地比其他人認為的更重要,這讓我感到困惑。生成式人工智能可能有用,但認為它比擁有一個文化上充滿活力和創造力的社會更重要似乎是虛偽的。法院仍需決定生成性人工智能是否對藝術家和創作者產生了寒蟬效應。但是,這些創作者提起的法庭案件認為確實如此。
未來
美國版權局并沒有忽視這些具有挑戰性的問題,盡管他們可能對這些問題反應稍遲一些。最近,他們發布了一篇博客文章,談論他們對生成式人工智能相關內容的計劃。然而,這篇文章非常缺乏具體的內容,只是告訴我們未來會有相關報告。該部門的工作重點有三個方面:
“數字復制品”:大致是對人進行Deepfakes和數字孿生處理(想想特技替身和演員在工作中必須接受掃描才能被數字模仿)
“包含人工智能生成材料的作品的版權”
“在受版權保護的作品上訓練人工智能模型”
這些都是重要的話題,我希望結果會是經過深思熟慮的。(一旦這些報告出來,我會寫下這些報告。)我希望從事這項工作的政策制定者了解情況,技術嫻熟,因為官僚主義者很容易用不明智的新規則使整個情況變得更糟。
未來的另一種可能性是,將開發和訓練合乎職業道德標準的數據集。這是HuggingFace的一些人已經以名為the Stack的代碼數據集的形式完成的。我們能為其他形式的內容做這樣的事情嗎?
結論
不管政府或行業提出了什么,法院都正在著手解決上述問題。如果法庭上的一個案件中生成式人工智能方敗訴,會發生什么呢?
這可能至少意味著,生成式人工智能產生的部分資金將返還給創作者。我不太相信生成式人工智能的整個想法會消失,盡管我們確實看到了Napster音頻共享時代許多公司的終結。法院可能會讓生產生成性人工智能的公司破產,或者禁止生產生成性的人工智能模型——這并非不可能!然而,我不認為這是最有可能的結果——相反,我認為我們會看到一些懲罰和圍繞這一點的法律碎片化(這種模式可以,那種模式不可以,等等),這可能會也可能不會使情況在法律上變得更清楚。
我真的很希望法院能處理生成式人工智能模型何時以及如何被視為侵權的問題,不將輸入和輸出問題分開,而是將它們作為一個整體進行審查,因為我認為這是理解情況的關鍵。
如果他們這樣做了,我們也許能夠為我們正在處理的新技術提出有意義的法律框架。如果不這樣做,我擔心我們最終會進一步陷入法律的泥潭,而法律對指導我們的數字創新毫無準備。我們需要在我們的數字世界中更有意義的版權法。但是,我們也需要智能地保護各種形式的人類藝術、科學和創造力,我認為人工智能生成的內容不值得用它來交換。