一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

實錘!村上春樹、史蒂芬·金盜版書成訓(xùn)練數(shù)據(jù),AI 巨頭無一幸免

 湯康康律師 2023-08-22 發(fā)布于安徽
圖片
AI 的狂飆突進,背后站著「數(shù)據(jù)原罪」的幽靈。


作者 | 芯芯
編輯 | 靖宇

為了訓(xùn)練大型語言模型,OpenAI、Meta、谷歌、微軟等公司未經(jīng)許可,從互聯(lián)網(wǎng)上收割了數(shù)百萬受版權(quán)保護的作品,在版權(quán)法的灰色地帶中游弋。

如今,OpenAI 目前正面臨大量的官司,原告稱該公司訓(xùn)練數(shù)據(jù)集中的大多數(shù)書籍來自盜版來源和非授權(quán)網(wǎng)站。一旦被判侵權(quán),公司有可能將面臨巨額罰款或重構(gòu)算法的局面。這也導(dǎo)致,如今 AI 公司越來越不愿意分享 AI 訓(xùn)練數(shù)據(jù)的詳細信息。
但一些公開的盜版語料庫已經(jīng)被盯上。
近日,有人發(fā)現(xiàn)一個叫 Book3 的數(shù)據(jù)集,包含近 20 萬本書籍,囊括村上春樹、史蒂芬·金等暢銷書作家的著作,這個數(shù)據(jù)集被用在了訓(xùn)練 AI 模型上,最近遭到反盜版組織的反復(fù)攻擊。
版權(quán)問題這把利刃,正懸在 AI 公司們的頭上,有搖搖欲墜之勢。

01

Books3,

AI 公司的秘密

一直以來,對于 AI 模型的訓(xùn)練數(shù)據(jù)并不完全透明。今年,多名美國作家針對 OpenAI 提起了集體訴訟,指控其使用盜版書籍來訓(xùn)練其語言模型,侵犯版權(quán)并違反了多項法律。
這些作家主張的證據(jù)很簡單,因為些他們從未同意 OpenAI 使用他們的作品,然而 ChatGPT 卻能提供他們作品的準確摘要,這讓他們認為這些信息肯定是從某個地方獲取的。
根據(jù)早期 GPT 版本的研究論文,訓(xùn)練數(shù)據(jù)集有部分來自于「兩個基于互聯(lián)網(wǎng)的書籍語料庫」,它們被簡單地稱為「Books1」和「Books2」,這些數(shù)據(jù)集具體包含哪些作品比較含糊。Books1 似乎是 bookcorpus,里面有數(shù)百本書明確聲明「不得以商業(yè)或非商業(yè)目的復(fù)制和分發(fā)」。Book2 則成為一個謎團,大多人猜測它們來自于「臭名昭著的影子圖書館網(wǎng)站」,如 、Z-Library、Sci-Hub 和 Bibliotik。
其中,Z-Library 成立于 2008 年,是互聯(lián)網(wǎng)最大的盜版電子書庫之一。2022 年 11 月,美國政府起訴兩名運營該網(wǎng)站的俄羅斯公民,這兩人在阿根廷被逮捕。
至于 GPT-4 的 45TB 訓(xùn)練數(shù)據(jù),其中包含什么內(nèi)容的信息更加有限,OpenAI 多年來逐漸減少了其訓(xùn)練數(shù)據(jù)的披露。
盡管目前沒有直接證據(jù)表明 OpenAI 使用盜版網(wǎng)站來培訓(xùn) ChatGPT,但一些 AI 模型此前已經(jīng)明確在盜版書籍上進行了訓(xùn)練,包括使用「Books3」數(shù)據(jù)集的 AI 模型。
EleutherAI 的 Pythia 研究論文中提到,Pythia 是使用 Pile 數(shù)據(jù)集進行訓(xùn)練的,而 Pile 數(shù)據(jù)集包含多個英語文本集,其中之一就是名為「Books3」的數(shù)據(jù)集。
Books3 是用于訓(xùn)練 AI 的最著名的盜版書籍庫之一,最初是由 AI 開發(fā)人員和知名開源 AI 支持者 Shawn Presser 于 2020 年上傳。它包含 37 GB 的文本,包括 196640 本純文本格式的書籍,并在盜版網(wǎng)站 bibliotik 上托管。
「假設(shè)你想訓(xùn)練一個世界級的 GPT 模型,就像 OpenAI 一樣。怎么做?你沒有數(shù)據(jù)?,F(xiàn)在你可以做到,現(xiàn)在每個人都這樣做。為你呈現(xiàn)「books3」,又名「all of bibliotik」。」Shawn Presser 最早在社交平臺上寫道。
圖片開源 AI 支持者 Shawn Presser 于 2020 年上傳「books3」| X
然而,反盜版組織也在采取行動,代表相關(guān)利益群體,試圖限制未經(jīng)授權(quán)的 AI 訓(xùn)練數(shù)據(jù)的使用。
這段時間,反盜版組織 Rights Alliance 向相關(guān)站點發(fā)送刪除通知后,相關(guān)站點已將 Books3 數(shù)據(jù)集下線,導(dǎo)致嘗試訪問該數(shù)據(jù)集的用戶會看到 404 錯誤。Rights Alliance 還聯(lián)系了 AI 模型托管平臺 Hugging Face(該站點托管了 Books3 下載鏈接)以及 EleutherAI。然而,盡管一些鏈接被下架,該數(shù)據(jù)集的副本并未消失,仍然在其他地方出現(xiàn)。
遭到針對后,Shawn Presser 繼續(xù)發(fā)布新的下載鏈接,他稱,除非反對者打算讓 ChatGPT 下線,或者通過訴訟將其告到滅亡,否則,他希望每個人都能夠制作自己的 ChatGPT,他還稱自己「很樂意入獄 10 個月(海盜灣創(chuàng)始人服過的最高刑期),因為我推動了科學(xué)進步并賦予了你們復(fù)制 ChatGPT 的能力?!?/span>
復(fù)制ChatGPT這樣的模型的唯一方法,是創(chuàng)建像 Books3 這樣的數(shù)據(jù)集。」Shawn Presser 稱:「每個營利性公司都會秘密地這樣做,不會將數(shù)據(jù)集發(fā)布給公眾。」「沒有 Books3,我們就生活在一個只有 OpenAI 和其他億萬美元公司才能訪問這些書籍的世界中,這意味著你不能制作自己的 ChatGPT。沒有人能。只有億萬美元的公司才有資源做到這一點?!?/span>
包括 Meta 在內(nèi)的一些公司曾經(jīng)使用過 Book3,另外,Meta、谷歌都使用過的 C4 訓(xùn)練數(shù)據(jù)集也被詬病過,現(xiàn)在這些公司對其語言模型中的內(nèi)容更為保密。
Meta 的 Llama 2 增加了 40% 的數(shù)據(jù),但在其白皮書中,該公司對其最新的 大語言模型使用了什么數(shù)據(jù)更為猶豫,唯一提到的是「一個新的混合的公開可用在線數(shù)據(jù)」。隨著 AI 和版權(quán)之間的摩擦升溫,公司越來越不愿意分享 AI 訓(xùn)練數(shù)據(jù)的詳細信息。

02

萬名作家聯(lián)名反對

超一萬名作家已經(jīng)在敦促 AI 公司停止未經(jīng)許可使用其作品,他們不希望 AI 模仿其作品并學(xué)會寫作,除非科技公司為此付費。
美國的作家協(xié)會已經(jīng)向巨頭們發(fā)了一封公開信,包括 OpenAI、谷歌、Meta、Stability AI、IBM 和微軟公司的各大 CEO,要求他們停止未經(jīng)許可使用他們的作品,或?qū)κ褂米髌愤M行補償
其中包括《達芬奇密碼》作者丹·布朗、《饑餓游戲》作者蘇珊·柯林斯、《使女的故事》作者瑪格麗特·阿特伍德、《自由》作者喬納森·弗蘭岑等人都簽署了這封公開信,簽署的作家名單長達 100 多頁。
圖片一萬名作家簽署公開信 |美國作家協(xié)會
目前,該作家協(xié)會正嘗試先在不提起訴訟的情況下解決爭端,因為「訴訟需要大量的資金,而且需要很長時間?!?/span>
但也有一些文學(xué)界人士愿意直接在法庭上與科技公司對抗,控訴 Meta 或 OpenAI 等使用盜版來訓(xùn)練他們的 AI。此外,文學(xué)經(jīng)紀人們正在與出版商商討,要更新出版合同條款,禁止未經(jīng)授權(quán)的 AI 訓(xùn)練用途,大部分出版商都愿意限制 AI 使用他們的出版物。
根據(jù)美國作家協(xié)會的調(diào)查,90% 的作家認為,作家應(yīng)該獲得對其作品用于訓(xùn)練生成式人工智能的補償,65% 的作家支持建立一個集體授權(quán)制度,以補償作者的作品被用于訓(xùn)練生成式 AI。
此外,69% 的作家認為他們的職業(yè)受到生成式 AI 的威脅,70% 的作家認為出版商將開始使用 AI 來完全或部分生成書籍,取代人類作者。
除了發(fā)公開信、打官司、完善合同,出版業(yè)還在進一步尋求立法。
美國作家協(xié)會的人正在游說制定相關(guān)法律、法規(guī)和政策:在同意方面,要求在生成式人工智能中使用作家作品時獲得許可;在補償方面,為那些希望允許其作品用于生成式人工智能培訓(xùn)的作家提供補償;在透明度方面,要求人工智能開發(fā)者透明披露他們用于培訓(xùn)其人工智能的作品
他們也期望,生成式 AI 的輸出使用到作家的作品時,要獲得許可并建立相應(yīng)的補償機制,或者當在提示中使用作家的姓名、身份或作品標題時,也應(yīng)獲得許可。此外,他們要求作者、出版商、平臺和市場標明 AI 生成的作品,并在作品很大一部分(例如超過 10-20%)由 AI 生成時進行標識。
「我們需要確保人類創(chuàng)作者得到補償,這不僅是為了創(chuàng)作者本身,而是為了確保我們的書籍和藝術(shù)繼續(xù)反映出我們的真實和想象的經(jīng)驗,開拓我們的思維方式,教導(dǎo)我們新的思維方式,并推動我們社會的發(fā)展,而不是重復(fù)舊觀念?!乖撟骷覅f(xié)會在官方聲明中稱。

03

NYT VS OpenAI


除了作家和藝術(shù)家,其他類型的內(nèi)容創(chuàng)作者,也紛紛加入起訴 AI 公司的行列,一些新聞機構(gòu)批評科技公司未經(jīng)授權(quán)或補償就使用他們的內(nèi)容。
比如,紐約時報正在考慮對 OpenAI 提起訴訟,稱 OpenAI 的 ChatGPT 使用了該報的數(shù)據(jù)進行訓(xùn)練,而未經(jīng)紐約時報許可。在過去的幾個月里,OpenAI 和紐約時報一直在試圖達成一項有關(guān)紐約時報內(nèi)容的許可協(xié)議。但談判還未有結(jié)果,存在破裂的可能。
圖片紐約時報大樓 | The New York Times
在最近對其服務(wù)條款政策的更改中,紐約時報明確禁止將其龐大的媒體檔案用于訓(xùn)練「任何軟件程序,包括但不限于訓(xùn)練機器學(xué)習(xí)或人工智能(AI)系統(tǒng)」的目的。該政策適用于紐約時報的文本內(nèi)容、照片、視頻和元數(shù)據(jù),并明確禁止網(wǎng)絡(luò)爬蟲訪問這些數(shù)據(jù)來訓(xùn)練專有產(chǎn)品。
這里做一個假設(shè),如果法院判定 OpenAI 等 AI 公司的訓(xùn)練行為屬于侵權(quán),OpenAI 可能會被迫停止使用受版權(quán)保護的數(shù)據(jù),并在不使用受版權(quán)保護的數(shù)據(jù)的前提下,重新構(gòu)建其算法,這會引發(fā)多大的麻煩?
科技公司也試圖與新聞媒體建立關(guān)系。谷歌曾試圖爭取像紐約時報、華盛頓郵報等新聞機構(gòu)的支持,試圖向他們推銷 AI 工具。還有 AI 公司向新聞非營利機構(gòu)提供微薄的慈善捐款。
期間,也有新聞機構(gòu)不那么強硬。美聯(lián)社今年就與 OpenAI 達成了一項為期兩年的許可協(xié)議,同意將美聯(lián)社的內(nèi)容授權(quán)給 OpenAI 使用訓(xùn)練。作為回報,OpenAI 提供了美聯(lián)社訪問「OpenAI 的技術(shù)和產(chǎn)品專業(yè)知識」的權(quán)利。

04

懸在 AI 公司頭上的劍


AI 公司抓取海量互聯(lián)網(wǎng)數(shù)據(jù),已經(jīng)導(dǎo)致法律問題的出現(xiàn),起訴 AI 公司的人正在變得越來越多。
今年,美國一律所相繼對 OpenAI、Meta 等巨頭提起訴訟,指控他們未經(jīng)同意、未經(jīng)授權(quán)或未經(jīng)補償?shù)卣加贸汕先f名作家的作品,來訓(xùn)練他們的大語言模型。行業(yè)預(yù)計訴訟規(guī)模將很龐大,因為其他內(nèi)容創(chuàng)作者也有可能受此啟發(fā)采取法律行動。
其他生成 AI 公司,如 AI 圖像生成工具 Stable Diffusion 背后的 Stability AI,也惹上版權(quán)官司。Stable Diffusion 是在 LAION-5B 數(shù)據(jù)集上進行訓(xùn)練的,數(shù)據(jù)集包含 58.5 億個圖像文本對,大多數(shù)都受版權(quán)保護。Getty Images 正在起訴 Stability AI,指控其未經(jīng)授權(quán)在超過 1200 萬張 Getty Images 上訓(xùn)練 AI 圖像生成模型。
許多藝術(shù)家和利益相關(guān)者也表示不滿,對 Stability AI、DeviantArt 和 Midjourney 等公司提起訴訟,指控他們侵犯版權(quán)、侵犯肖像權(quán)、不正當競爭和不正當獲利,尋求賠償和禁令。
微軟推出的編程工具 Copilot 也面臨集體訴訟。Copilot 是 GitHub 與 OpenAI 合作開發(fā)的基于人工智能的自動編程產(chǎn)品,主要利用 GitHub 上的公共代碼庫,在數(shù)十億行公開可用的代碼上進行了訓(xùn)練,能通過簡單提示替用戶編寫代碼。開源程序員和律師指控他們從事開源軟件盜版,被告包括 GitHub、微軟及其人工智能技術(shù)合作伙伴 OpenAI。
如果要打官司,AI公司可能會援引所謂的「公平使用原則」來為其辯護,該原則允許在某些情況下無需許可即可使用作品,包括教學(xué)、批評、研究和新聞報道。問題是,AI 訓(xùn)練是否適用「公平使用原則」。
幾年前,美國作家協(xié)會也曾起訴谷歌,理由是谷歌未購買其圖書館項目中收錄的書籍,當時,聯(lián)邦上訴法院判決認為,谷歌為其圖書館項目掃描了數(shù)百萬本書的數(shù)字副本是合法的「公平使用」,而非侵犯版權(quán)。關(guān)鍵在于,谷歌的數(shù)字圖書館并沒有為這些書創(chuàng)造出「重大市場替代品」,這意味著它與原作并無競爭關(guān)系。
目前,各國政府正努力將生成式 AI 納入立法范疇。歐盟也在制定一項 AI 法案,該法案將迫使公司將訓(xùn)練模型信息透明化。上半年,美國作家協(xié)會已兩次訪問國會山,討論生成式 AI 和作家保護措施的問題,涉及的問題包括集體授權(quán)和版權(quán)保護、反壟斷豁免權(quán)以及 AI 標簽和透明度要求。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲乱码av中文一区二区三区| 中文字幕精品一区二区年下载| 亚洲国产综合久久天堂| 二区久久久国产av色| 国产精品一区二区香蕉视频 | 最近最新中文字幕免费| 欧美成人免费一级特黄| 又黄又硬又爽又色的视频| 日本东京热视频一区二区三区| 国产麻豆一线二线三线| 日韩精品在线观看一区| 欧洲日本亚洲一区二区| 久久这里只有精品中文字幕| 草草视频福利在线观看| 亚洲av秘片一区二区三区| 91精品欧美综合在ⅹ| 欧美午夜一区二区福利视频| 人妻少妇系列中文字幕| 国产99久久精品果冻传媒| 中文字幕有码视频熟女| av免费视屏在线观看| 爱在午夜降临前在线观看| 日本不卡在线视频中文国产| 人妻巨大乳一二三区麻豆| 又黄又色又爽又免费的视频| 亚洲欧美日本国产不卡| 日本东京热加勒比一区二区| 国产精品免费自拍视频| 亚洲欧美国产网爆精品| 亚洲精品中文字幕在线视频| 国产一区二区三区草莓av| 在线日韩欧美国产自拍| 69久久精品亚洲一区二区| 国产成人亚洲综合色就色| 久草精品视频精品视频精品| 日韩成人动画在线观看| 午夜免费精品视频在线看| 麻豆一区二区三区在线免费| 国内精品偷拍视频久久| 国产精品免费自拍视频| 国产精品福利精品福利|