av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 打造更公平的AI訓(xùn)練:Mozilla和EleutherAI聯(lián)手制定開放數(shù)據(jù)集最佳實(shí)踐指南

打造更公平的AI訓(xùn)練:Mozilla和EleutherAI聯(lián)手制定開放數(shù)據(jù)集最佳實(shí)踐指南

2025-09-17 13:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-17 13:32 ? 科技行者

當(dāng)我們使用ChatGPT、Claude這樣的AI助手時(shí),可能很少有人會(huì)想到一個(gè)關(guān)鍵問題:這些智能系統(tǒng)究竟是從哪里學(xué)來的知識(shí)?答案是海量的文本數(shù)據(jù),就像人類通過閱讀書籍和文章來學(xué)習(xí)一樣。然而,近年來AI訓(xùn)練數(shù)據(jù)的獲取卻變成了一個(gè)充滿爭(zhēng)議的話題,特別是在版權(quán)和透明度方面。

為了解決這個(gè)日益嚴(yán)重的問題,Mozilla和EleutherAI在2024年6月召集了30位學(xué)者和實(shí)踐者,共同制定了一套關(guān)于創(chuàng)建開放授權(quán)大語言模型訓(xùn)練數(shù)據(jù)集的規(guī)范原則和技術(shù)最佳實(shí)踐。這項(xiàng)研究的成果發(fā)表于2024年,由Stefan Baack、Stella Biderman、Kasia Odrozek等眾多專家共同完成,研究報(bào)告的完整版本可以通過相關(guān)學(xué)術(shù)渠道獲取。

這項(xiàng)工作的意義遠(yuǎn)超技術(shù)本身。如果說AI是數(shù)字時(shí)代的新引擎,那么訓(xùn)練數(shù)據(jù)就是這臺(tái)引擎的燃料。目前,許多AI公司在沒有版權(quán)所有者許可的情況下使用大量數(shù)據(jù)來訓(xùn)練模型,這種做法在法律和道德層面都引發(fā)了激烈爭(zhēng)議。研究團(tuán)隊(duì)認(rèn)為,建立一個(gè)真正開放、透明且負(fù)責(zé)任的AI生態(tài)系統(tǒng),關(guān)鍵在于創(chuàng)建可以公開訪問、明確授權(quán)且社區(qū)驅(qū)動(dòng)的訓(xùn)練數(shù)據(jù)集。

一、AI訓(xùn)練數(shù)據(jù)的版權(quán)困境:數(shù)字時(shí)代的新挑戰(zhàn)

當(dāng)前AI訓(xùn)練面臨的最大挑戰(zhàn)之一,可以用一個(gè)簡(jiǎn)單的比喻來理解:想象你是一位廚師,想要學(xué)習(xí)制作世界各地的美食。你收集了成千上萬本食譜書,但其中很多都有版權(quán)保護(hù)。如果你直接使用這些食譜來開餐廳賺錢,食譜的作者們可能會(huì)起訴你侵權(quán)。這正是當(dāng)前AI公司面臨的處境。

在不同的國(guó)家和地區(qū),對(duì)于AI訓(xùn)練使用版權(quán)材料的法律規(guī)定差異很大。在歐盟和日本,在某些限制條件下,這種做法是被允許的。但在美國(guó),法律環(huán)境更加模糊不清,就像在一片法律的迷霧中摸索前進(jìn)。無論法律地位如何,創(chuàng)作者社區(qū)的強(qiáng)烈反對(duì)已經(jīng)導(dǎo)致了多起備受關(guān)注的版權(quán)訴訟案件。

更重要的是,訴訟威脅正在產(chǎn)生一種寒蟬效應(yīng)。許多AI公司,包括那些最初相對(duì)開放的組織,現(xiàn)在都開始對(duì)他們的訓(xùn)練數(shù)據(jù)遮遮掩掩。這就像原本愿意分享烹飪心得的廚師們,現(xiàn)在都把食譜鎖進(jìn)了保險(xiǎn)柜。這種透明度的倒退對(duì)整個(gè)AI生態(tài)系統(tǒng)造成了巨大傷害,它阻礙了研究人員、審計(jì)員和受影響個(gè)人獲取理解AI模型所需的關(guān)鍵信息。

研究團(tuán)隊(duì)指出,理論上可以通過專門使用開放獲取和公有領(lǐng)域的數(shù)據(jù)來訓(xùn)練語言模型來緩解這個(gè)問題。然而,在撰寫報(bào)告時(shí),還沒有這樣的模型在有意義的規(guī)模上得到訓(xùn)練。這主要是因?yàn)樵谘杆僮兓沫h(huán)境中組裝必要的數(shù)據(jù)庫(kù)面臨著巨大的技術(shù)和社會(huì)學(xué)挑戰(zhàn),包括不完整和不可靠的元數(shù)據(jù)、數(shù)字化物理記錄的成本和復(fù)雜性,以及確保相關(guān)性和責(zé)任性所需的多樣化法律和技術(shù)技能。

二、開放數(shù)據(jù)集的定義:構(gòu)建透明AI的基石

為了解決這些挑戰(zhàn),研究團(tuán)隊(duì)首先需要明確什么是真正的"開放"。他們將數(shù)據(jù)集的開放性分為三個(gè)層次,就像建筑物的不同樓層,每一層都有更高的透明度和可獲取性。

最高層是"開放授權(quán)數(shù)據(jù)集",這意味著數(shù)據(jù)集及其所有組成部分都可以被任何人出于任何目的自由使用、修改和分享。這就像一個(gè)完全免費(fèi)的圖書館,任何人都可以進(jìn)入、閱讀、復(fù)制甚至重新編輯書籍。這種開放性遵循開放知識(shí)基金會(huì)針對(duì)數(shù)據(jù)和內(nèi)容制定的開放定義標(biāo)準(zhǔn)。

中間層是"可下載/開放獲取數(shù)據(jù)集",數(shù)據(jù)可以免費(fèi)下載,但對(duì)許可證合規(guī)性沒有明確聲明。這就像一個(gè)免費(fèi)的書店,你可以拿走書籍,但可能需要遵守某些未明確說明的使用條件。

最底層是"可復(fù)制數(shù)據(jù)集",這意味著數(shù)據(jù)來源和處理步驟都是公開的,獨(dú)立方可以制作出基本相似的數(shù)據(jù)集。這就像公開了烹飪食譜和制作過程,其他人可以按照相同方法制作出類似的菜肴,盡管不會(huì)完全相同。

這種分層定義的一個(gè)重要細(xì)節(jié)是區(qū)分?jǐn)?shù)據(jù)集本身的許可和構(gòu)成部分的許可。在某些司法管轄區(qū),收集、處理和整理現(xiàn)有數(shù)據(jù)的行為會(huì)賦予整理者對(duì)這種安排的知識(shí)產(chǎn)權(quán)。然而,這并不賦予編譯者改變基礎(chǔ)數(shù)據(jù)許可的權(quán)利。這種區(qū)分至關(guān)重要,但并不廣為人知,當(dāng)數(shù)據(jù)集的許可證比單個(gè)組件的許可證更加寬松時(shí),可能會(huì)造成混亂和不兼容性。

三、七大指導(dǎo)原則:構(gòu)建負(fù)責(zé)任AI生態(tài)系統(tǒng)的路線圖

經(jīng)過深入討論和分析,研究團(tuán)隊(duì)確定了七個(gè)核心原則來指導(dǎo)開放數(shù)據(jù)集的創(chuàng)建。這些原則就像建造房屋時(shí)的建筑規(guī)范,確保最終的結(jié)果既安全又實(shí)用。

第一個(gè)原則是"促進(jìn)競(jìng)爭(zhēng)性的大語言模型生態(tài)系統(tǒng)"。目前,少數(shù)幾家科技巨頭在LLM研究和開發(fā)方面擁有過度的控制權(quán)。為了避免這種情況,數(shù)據(jù)集構(gòu)建者應(yīng)該提供競(jìng)爭(zhēng)性的替代方案和基礎(chǔ)層,供其他開發(fā)者在此基礎(chǔ)上構(gòu)建。創(chuàng)建透明的開放數(shù)據(jù)集可以更廣泛地接受審計(jì),有助于減輕開源AI模型訓(xùn)練和應(yīng)用的法律風(fēng)險(xiǎn),并幫助這些模型與封閉的AI模型競(jìng)爭(zhēng)。這促進(jìn)了競(jìng)爭(zhēng),因?yàn)檩^小的參與者通常擔(dān)心法律風(fēng)險(xiǎn)。

第二個(gè)原則強(qiáng)調(diào)"通過可重現(xiàn)性實(shí)現(xiàn)問責(zé)制和透明度"。大語言模型訓(xùn)練數(shù)據(jù)集需要有更透明的生產(chǎn)流程。開發(fā)者應(yīng)該努力為數(shù)據(jù)收集和過濾過程中的所有步驟提供理由,并提供工具和源代碼供他人復(fù)制他們的過程。這對(duì)于審計(jì)模型開發(fā)過程和提高模型開發(fā)者的問責(zé)制至關(guān)重要,也是研究的基礎(chǔ),因?yàn)槿绻恢雷罴烟幚碓O(shè)置,就無法改進(jìn)它們。

第三個(gè)原則關(guān)注"最小化傷害并啟用偏好信號(hào)"。研究團(tuán)隊(duì)認(rèn)為,目標(biāo)不應(yīng)該是創(chuàng)建"完美"的數(shù)據(jù)集,而是開發(fā)可互操作的數(shù)據(jù)治理標(biāo)準(zhǔn),以便為數(shù)據(jù)主體和權(quán)利持有者提供簡(jiǎn)便的方式在模型訓(xùn)練之前聲明他們的偏好,并在之后報(bào)告問題。認(rèn)識(shí)到人們或組織可能想要退出,數(shù)據(jù)集構(gòu)建者應(yīng)該制定如何從數(shù)據(jù)集中刪除內(nèi)容的計(jì)劃。

第四個(gè)原則是"支持和改善多樣性"。不同語言和代表多樣化文化的訓(xùn)練數(shù)據(jù)的質(zhì)量和覆蓋范圍往往差異很大。支持AI的語音和文本數(shù)據(jù)集嚴(yán)重缺乏99%以上的全球語言、變體和方言的代表性,以及黑人、土著居民、有色人種和性別多樣化社區(qū)的代表性。為了支持能夠成為世界各地開放應(yīng)用基礎(chǔ)的大語言模型,數(shù)據(jù)集中必須代表多樣化的語言和觀點(diǎn)。

第五個(gè)原則強(qiáng)調(diào)"努力實(shí)現(xiàn)互惠性"。數(shù)據(jù)收集應(yīng)該是互利和互惠的。目前,數(shù)據(jù)主體、數(shù)據(jù)貢獻(xiàn)者、組織和權(quán)利持有者并沒有從他們的數(shù)據(jù)被納入LLM訓(xùn)練數(shù)據(jù)集中獲得直接好處。更好的過程應(yīng)該超越機(jī)器人協(xié)議等簡(jiǎn)單的是/否機(jī)制,找到方法賦權(quán)社區(qū)、創(chuàng)作者和其他對(duì)數(shù)據(jù)有合法利益的人,防止他們被剝削。

第六個(gè)原則是"與該領(lǐng)域志同道合的參與者合作"。維基百科、創(chuàng)意共享、開放科學(xué)項(xiàng)目、開放數(shù)據(jù)倡議、圖書館等組織擁有相關(guān)專業(yè)知識(shí),可以幫助解決LLM訓(xùn)練數(shù)據(jù)集的問題。

最后一個(gè)原則強(qiáng)調(diào)"長(zhǎng)期保存數(shù)據(jù)"。AI訓(xùn)練數(shù)據(jù)集應(yīng)確保數(shù)據(jù)是可互操作的,數(shù)據(jù)集中包含的信息將被保存并在長(zhǎng)期內(nèi)保持可訪問性。

四、構(gòu)建開放數(shù)據(jù)集面臨的挑戰(zhàn):在復(fù)雜環(huán)境中導(dǎo)航

構(gòu)建和發(fā)布開放獲取數(shù)據(jù)集是一個(gè)復(fù)雜的技術(shù)和法律問題,需要協(xié)作和專業(yè)知識(shí)。收集、識(shí)別和驗(yàn)證大規(guī)模開放授權(quán)數(shù)據(jù)集可能需要大量的手工工作、與法律專家的咨詢以及技術(shù)技能,盡管在語言和圖像建模創(chuàng)新的基礎(chǔ)上有了改進(jìn)。

首先是法律環(huán)境的復(fù)雜性。法律在不同司法管轄區(qū)和時(shí)間上都有所不同。LLM的開發(fā)者遍布全球,說著許多種語言,版權(quán)法因司法管轄區(qū)而異。確定特定文檔是否屬于公有領(lǐng)域可能需要特定國(guó)家的分析,可能需要許多律師來審查在多個(gè)國(guó)家發(fā)表的作品。法律也可能隨時(shí)間變化,導(dǎo)致更復(fù)雜的相互關(guān)聯(lián)要求網(wǎng)絡(luò)。

元數(shù)據(jù)不完整的問題也相當(dāng)嚴(yán)重。在版權(quán)法下構(gòu)成"作品"的內(nèi)容不一定對(duì)應(yīng)于一個(gè)數(shù)據(jù)集文檔、電子文件或HTML標(biāo)簽。這可能會(huì)顯著限制現(xiàn)有許可證信息的有用性。例如,在過濾Common Crawl時(shí),很容易確定網(wǎng)站鏈接到CC-BY 4.0許可證,因此包含某種CC-BY 4.0聲明。然而,目前沒有自動(dòng)化方法確定網(wǎng)站上的哪個(gè)資產(chǎn)受該許可證保護(hù)。如果第三方在其非CC文章中使用CC-BY 4.0照片,這會(huì)導(dǎo)致誤報(bào)。元數(shù)據(jù)挑戰(zhàn)也適用于確定作品是否屬于公有領(lǐng)域。

不幸的是,沒有這種信息的官方數(shù)據(jù)庫(kù):第三方已經(jīng)在很大程度上將原始的美國(guó)版權(quán)續(xù)期表格轉(zhuǎn)換為數(shù)字文本,但由于數(shù)據(jù)質(zhì)量問題和表格差異,將續(xù)期提交與原始申請(qǐng)匹配可能具有挑戰(zhàn)性。雖然美國(guó)版權(quán)局確實(shí)為受版權(quán)保護(hù)的作品分配數(shù)字ID,但該ID不一定是唯一的,因?yàn)榫幪?hào)系統(tǒng)在過去的一個(gè)世紀(jì)中已經(jīng)多次更改。紐約公共圖書館估計(jì),1929年至1989年間發(fā)表的大約48萬本書因?yàn)榘鏅?quán)狀態(tài)未續(xù)期而屬于公有領(lǐng)域,但這些書的具體標(biāo)題尚未確定。

即使文檔屬于公有領(lǐng)域,也不意味著可以獲得副本。許多公有領(lǐng)域的書籍從未被數(shù)字化。對(duì)于那些已經(jīng)數(shù)字化的書籍,通常很難獲得訪問權(quán)限。世界上很大一部分?jǐn)?shù)字化書籍是由谷歌與圖書館合作掃描的,作為谷歌圖書項(xiàng)目的一部分。雖然可以通過谷歌圖書平臺(tái)訪問這些數(shù)字化書籍,但無法無限制地批量訪問谷歌認(rèn)為屬于公有領(lǐng)域的所有書籍。即使授予訪問權(quán)限,組織通常需要簽署限制其使用內(nèi)容能力的協(xié)議。這反映了獲得文化遺產(chǎn)機(jī)構(gòu)物理?yè)碛械渲R(shí)產(chǎn)權(quán)已進(jìn)入公有領(lǐng)域的文本或藝術(shù)品照片的無限公共訪問權(quán)限的斗爭(zhēng)。

在志愿者驅(qū)動(dòng)、去中心化的貢獻(xiàn)者群體中管理法律風(fēng)險(xiǎn)也是一個(gè)挑戰(zhàn)。許多開源項(xiàng)目以協(xié)作但非結(jié)構(gòu)化的方式組織:來自世界各地的志愿者貢獻(xiàn)他們想要工作的內(nèi)容,關(guān)于項(xiàng)目方向和標(biāo)準(zhǔn)的決策沒有正式流程。此外,許多開源項(xiàng)目沒有最終負(fù)責(zé)項(xiàng)目輸出的法律實(shí)體。當(dāng)存在嚴(yán)重訴訟風(fēng)險(xiǎn)時(shí),這是具有挑戰(zhàn)性的,通常需要由受律師-客戶特權(quán)約束的專門律師指導(dǎo)的自上而下決策。擁有項(xiàng)目所有權(quán)和責(zé)任的法律實(shí)體也可以限制貢獻(xiàn)者的個(gè)人責(zé)任。

最后一個(gè)挑戰(zhàn)是在不進(jìn)一步鞏固現(xiàn)有企業(yè)市場(chǎng)優(yōu)勢(shì)的情況下防止數(shù)據(jù)圈地。正如谷歌圖書的例子所示,即使是公有領(lǐng)域數(shù)據(jù)一旦數(shù)字化也可能無法用于開放數(shù)據(jù)集構(gòu)建。這表明需要對(duì)開放數(shù)據(jù)共享提供嚴(yán)肅的公共支持,我們不能期望數(shù)據(jù)僅僅因?yàn)椴皇馨鏅?quán)保護(hù)就可用。創(chuàng)建這種支持本身就是一個(gè)政策挑戰(zhàn),但必須與投資新的數(shù)字基礎(chǔ)設(shè)施并行進(jìn)行,以傳達(dá)選擇退出的信息。

五、最佳實(shí)踐:從理論到實(shí)踐的轉(zhuǎn)化

基于深入的案例研究和專家討論,研究團(tuán)隊(duì)提出了一系列具體的最佳實(shí)踐建議,這些建議涵蓋了從數(shù)據(jù)獲取到最終發(fā)布的整個(gè)流程。

在元數(shù)據(jù)中編碼偏好方面,研究團(tuán)隊(duì)強(qiáng)調(diào)了開發(fā)機(jī)器可讀標(biāo)準(zhǔn)的重要性。找到在不同司法管轄區(qū)開放授權(quán)或公有領(lǐng)域的內(nèi)容是困難的,通常需要"手工"手動(dòng)勞動(dòng)。雖然這不是數(shù)據(jù)集生產(chǎn)管道的固有部分,但研究團(tuán)隊(duì)認(rèn)識(shí)到需要開發(fā)標(biāo)準(zhǔn),使數(shù)據(jù)處理管道更有可能提供準(zhǔn)確和完整的元數(shù)據(jù),特別是在可能有多個(gè)許可證和分層條款的復(fù)雜在線環(huán)境中。

實(shí)施機(jī)器可讀偏好信號(hào)和通過處理保存元數(shù)據(jù)的優(yōu)勢(shì)在于它能夠?qū)崿F(xiàn)下游數(shù)據(jù)治理。它作為許多現(xiàn)有和擬議機(jī)制的必要構(gòu)建塊,例如版權(quán)持有者選擇退出。可用的元數(shù)據(jù)是實(shí)現(xiàn)本文件中概述的許多目標(biāo)的關(guān)鍵第一步。

研究團(tuán)隊(duì)建議識(shí)別和保存相關(guān)元數(shù)據(jù),例如與給定內(nèi)容相關(guān)的URL和許可證。為了互操作性,他們推薦使用現(xiàn)有工具,如SPDX許可證標(biāo)識(shí)符。這是為了實(shí)現(xiàn)與目前正在開發(fā)和采用的偏好信號(hào)工具的未來兼容性。他們還建議開發(fā)和采用內(nèi)容識(shí)別和偏好信號(hào)的機(jī)器可讀標(biāo)準(zhǔn)。這對(duì)于為互聯(lián)網(wǎng)構(gòu)建數(shù)據(jù)治理和同意基礎(chǔ)設(shè)施是必要的。

在數(shù)據(jù)獲取方面,研究團(tuán)隊(duì)提出了幾個(gè)關(guān)鍵建議。他們強(qiáng)調(diào)應(yīng)該優(yōu)先考慮社區(qū)資源,在可能的情況下,依賴社區(qū)驅(qū)動(dòng)的工具和資源來識(shí)別和收集數(shù)據(jù),并公開提供在過程中開發(fā)的定制工具。提供有用的文檔對(duì)于適當(dāng)?shù)臄?shù)據(jù)記錄和幫助審計(jì)數(shù)據(jù)集至關(guān)重要,應(yīng)該易于完全復(fù)制數(shù)據(jù)獲取過程。這涉及描述為什么選擇來源、如何從中獲取數(shù)據(jù),以及分享過程中使用的工具的源代碼。

研究團(tuán)隊(duì)還強(qiáng)調(diào)了跟蹤和記錄偏好信號(hào)的重要性。對(duì)于每個(gè)數(shù)據(jù)點(diǎn),應(yīng)記錄相關(guān)權(quán)限和確定它們所需的元數(shù)據(jù),如URL、爬取日期、HTTP頭和HTML元數(shù)據(jù),如果可用的話,以及用于確定它們的方法。這指的是尊重機(jī)器人協(xié)議等信號(hào)以及與代碼庫(kù)和內(nèi)容相關(guān)的許可證,以及任何未來數(shù)據(jù)治理信號(hào)的實(shí)施。

在增加多樣性和涉及當(dāng)?shù)厣鐓^(qū)識(shí)別相關(guān)數(shù)據(jù)來源方面,研究團(tuán)隊(duì)指出,語言和地區(qū)覆蓋范圍不應(yīng)僅以數(shù)量衡量,來源的質(zhì)量和背景很重要。對(duì)于通用數(shù)據(jù)集,應(yīng)采用數(shù)據(jù)來源的混合來捕獲廣泛的內(nèi)容范圍,并確保評(píng)估每個(gè)來源在多樣性和質(zhì)量方面的具體好處和挑戰(zhàn)。

研究團(tuán)隊(duì)強(qiáng)烈建議不要嚴(yán)重依賴自動(dòng)翻譯來包含更多語言。許多LLM訓(xùn)練數(shù)據(jù)集主要是英文的。然而,試圖通過自動(dòng)翻譯來對(duì)抗這種代表性不足往往適得其反,因?yàn)樗鼈兊馁|(zhì)量很差,忽略了文化特定方面,特別是對(duì)于邊緣化語言和低資源語言。

六、數(shù)據(jù)處理與治理:確保質(zhì)量與責(zé)任

數(shù)據(jù)處理階段同樣關(guān)鍵,就像原材料需要精心加工才能制成優(yōu)質(zhì)產(chǎn)品一樣。研究團(tuán)隊(duì)強(qiáng)調(diào),仔細(xì)關(guān)注數(shù)據(jù)處理和清理對(duì)于確保數(shù)據(jù)集符合許可證要求并在技術(shù)上穩(wěn)健至關(guān)重要。方法因數(shù)據(jù)來源而顯著不同,例如,Common Crawl和網(wǎng)絡(luò)數(shù)據(jù)需要與目標(biāo)數(shù)據(jù)收集不同的處理。準(zhǔn)確了解每個(gè)來源是如何預(yù)處理的至關(guān)重要。

研究團(tuán)隊(duì)建議清楚明確地說明塑造數(shù)據(jù)過濾或標(biāo)注方式的價(jià)值觀和期望屬性。"高質(zhì)量數(shù)據(jù)"是一個(gè)經(jīng)常使用的術(shù)語,但它不是一個(gè)正確定義的概念。它需要與正在策劃的數(shù)據(jù)集相關(guān)來定義。這也意味著承認(rèn)不是所有潛在的傷害和風(fēng)險(xiǎn)都可以通過數(shù)據(jù)集中的干預(yù)直接減輕,因?yàn)樗赡茉谠S多不同的環(huán)境中使用。過濾和處理目標(biāo)也會(huì)根據(jù)AI系統(tǒng)的預(yù)期用途而有所不同,例如是否設(shè)計(jì)用于開放生成或限制于特定任務(wù),或者最終用戶對(duì)系統(tǒng)潛在問題的了解程度。因此,數(shù)據(jù)處理中的價(jià)值觀和"高質(zhì)量數(shù)據(jù)"的定義需要根據(jù)特定應(yīng)用和用戶群體進(jìn)行定制。

研究團(tuán)隊(duì)強(qiáng)調(diào)努力實(shí)現(xiàn)可重現(xiàn)性的重要性。應(yīng)提供概述過濾過程中所有步驟理由的文檔,分享用于過濾數(shù)據(jù)的工具和代碼。如果雇用了數(shù)據(jù)工作者,應(yīng)描述招聘過程、工作條件和他們必須遵循的指導(dǎo)原則。這使審計(jì)變得更容易,有助于傳播文檔最佳實(shí)踐,并可以幫助支持?jǐn)?shù)據(jù)工作者的更好就業(yè)條件。

試圖識(shí)別與既定價(jià)值觀不一致的內(nèi)容也很重要。這不僅包括有害內(nèi)容,還包括在下游應(yīng)用中促進(jìn)有害結(jié)果的內(nèi)容。根據(jù)上下文,這些數(shù)據(jù)可以被過濾掉,或者為了數(shù)據(jù)來源原因進(jìn)行標(biāo)注,允許下游用戶根據(jù)他們的具體用例決定如何使用它。

研究團(tuán)隊(duì)還提醒要考慮過濾方法的潛在意外后果。過濾會(huì)引入自己的偏見,如果不小心使用可能會(huì)造成傷害。例如,基于簡(jiǎn)單詞匯阻止列表的過濾技術(shù)可能會(huì)過濾掉非有毒內(nèi)容,如討論解剖學(xué)的醫(yī)學(xué)研究文章。他們建議至少要堅(jiān)持既定的透明度最佳實(shí)踐,如數(shù)據(jù)表或數(shù)據(jù)卡。

七、數(shù)據(jù)治理與發(fā)布:建立可持續(xù)的生態(tài)系統(tǒng)

數(shù)據(jù)治理涉及數(shù)據(jù)如何被收集、訪問、控制、使用或共享的規(guī)則和過程。理想情況下,LLM的訓(xùn)練數(shù)據(jù)應(yīng)該以包容性、賦權(quán)和減輕傷害的方式進(jìn)行治理。

研究團(tuán)隊(duì)建議將數(shù)據(jù)治理機(jī)制定制為數(shù)據(jù)主體和用例。不是每個(gè)數(shù)據(jù)集都需要開放訪問。例如,研討會(huì)參與者描述了他們應(yīng)數(shù)據(jù)主體的要求為其開發(fā)數(shù)據(jù)集門控機(jī)制的項(xiàng)目。開放訪問數(shù)據(jù)集可以與更多訪問限制的數(shù)據(jù)集共存,因?yàn)樗鼈兺ǔI婕安煌愋偷臄?shù)據(jù)。Common Pile專注于公有領(lǐng)域或托管在開放獲取存儲(chǔ)庫(kù)中的文本;另一方面,具有更有針對(duì)性訪問特權(quán)的數(shù)據(jù)集往往規(guī)模更小、更個(gè)人化,如由在世聲樂家制作的錄音集合,或?yàn)樘囟ㄉ鐓^(qū)的利益而創(chuàng)建。

與受影響的社區(qū)合作也至關(guān)重要。受AI數(shù)據(jù)集開發(fā)影響的社區(qū)和組織應(yīng)作為利益相關(guān)者有意義地參與,例如語言社區(qū)的數(shù)據(jù)信托、代表作家或藝術(shù)家的工會(huì)。

研究團(tuán)隊(duì)強(qiáng)調(diào)了發(fā)布后移除的重要性。如果發(fā)現(xiàn)問題,應(yīng)創(chuàng)建糾正和從數(shù)據(jù)集中移除的模式。例如,從一開始就為人們提供請(qǐng)求移除其數(shù)據(jù)的機(jī)制,并鼓勵(lì)數(shù)據(jù)集的下游用戶只使用更新版本。請(qǐng)注意,這只有在有足夠的內(nèi)容標(biāo)識(shí)符可用時(shí)才可能。重要的是要承認(rèn)選擇退出和開放數(shù)據(jù)集競(jìng)爭(zhēng)力之間的緊張關(guān)系。當(dāng)前機(jī)制側(cè)重于誰被允許爬取網(wǎng)站,而不是如何使用其數(shù)據(jù),這導(dǎo)致許多網(wǎng)站所有者完全阻止被研究人員和非營(yíng)利組織用于非商業(yè)目的的非營(yíng)利檔案,如Common Crawl。

努力實(shí)現(xiàn)可訪問的透明度也很重要。應(yīng)該讓沒有技術(shù)背景的人員易于檢查他們的數(shù)據(jù)是否在數(shù)據(jù)集中。研究團(tuán)隊(duì)建議努力實(shí)現(xiàn)社會(huì)有益的用途,思考鼓勵(lì)數(shù)據(jù)集積極用途的方法,例如通過促進(jìn)良好的用例并在數(shù)據(jù)卡中指定預(yù)期用途。

最后,控制版本控制也很關(guān)鍵。數(shù)據(jù)集構(gòu)建者經(jīng)常在HuggingFace和他們自己的網(wǎng)站等多個(gè)平臺(tái)上發(fā)布他們的數(shù)據(jù)集。應(yīng)考慮在哪里發(fā)布數(shù)據(jù)集以及它如何影響跨平臺(tái)一致地控制、維護(hù)和更新它們的能力。

八、技術(shù)和政策建議:構(gòu)建可持續(xù)的未來

研究團(tuán)隊(duì)在深入分析當(dāng)前挑戰(zhàn)后,提出了一系列針對(duì)技術(shù)社區(qū)和政策制定者的具體建議。這些建議就像構(gòu)建一座橋梁,連接當(dāng)前的困難處境和理想的未來狀態(tài)。

在開放數(shù)據(jù)可獲得性方面,研究團(tuán)隊(duì)指出,跨司法管轄區(qū)識(shí)別許可狀態(tài)和元數(shù)據(jù)的過程可能令人不知所措,導(dǎo)致有價(jià)值的數(shù)據(jù)仍然無法獲得。許多開放數(shù)據(jù)被鎖定在無法訪問或門控的存儲(chǔ)庫(kù)或格式中,可訪問的數(shù)據(jù)通常是非結(jié)構(gòu)化的。許多公司或機(jī)構(gòu)甚至不知道他們是否以及如何可以將其數(shù)據(jù)發(fā)布到開放環(huán)境中。最后,AI爬蟲的大規(guī)模選擇退出威脅著顯著減少開放數(shù)據(jù)的可獲得性。

為了解決這些問題,研究團(tuán)隊(duì)建議簡(jiǎn)化國(guó)際公有領(lǐng)域數(shù)據(jù)的識(shí)別將減少?gòu)?fù)雜性和勞動(dòng)力,從而能夠更好地利用開放數(shù)據(jù)和數(shù)據(jù)集。歐盟和公共圖書館等機(jī)構(gòu)可以通過認(rèn)證公有領(lǐng)域內(nèi)容、簡(jiǎn)化數(shù)據(jù)可獲得性來發(fā)揮關(guān)鍵作用。要求某些機(jī)構(gòu)或商業(yè)實(shí)體在特定期間后以開放許可證的形式發(fā)布經(jīng)過清理、結(jié)構(gòu)化的數(shù)據(jù),將鼓勵(lì)更廣泛的數(shù)據(jù)訪問。

在技術(shù)投資方面,使用開放許可或公有領(lǐng)域內(nèi)容作為訓(xùn)練數(shù)據(jù)的挑戰(zhàn)之一仍然是從PDF中提取它。投資更好的工具來從PDF等困難格式中提取開放許可內(nèi)容,并將這些工具作為開源軟件提供,將加速AI系統(tǒng)獲得優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)。開發(fā)細(xì)致入微的同意機(jī)制,而不是在數(shù)據(jù)收集前的全面選擇退出,以及發(fā)布后移除,可以使數(shù)據(jù)權(quán)利持有者區(qū)分其數(shù)據(jù)的各種用途,可能會(huì)減緩開放數(shù)據(jù)可獲得性的下降。

在澄清數(shù)據(jù)法律狀態(tài)方面,圍繞數(shù)據(jù)使用的法律不確定性,特別是對(duì)于沒有實(shí)質(zhì)性法律支持的志愿者驅(qū)動(dòng)組織,仍然是一個(gè)重大障礙和對(duì)生態(tài)系統(tǒng)的寒蟬效應(yīng)。研究團(tuán)隊(duì)建議,跨司法管轄區(qū)的"安全港"條款可以通過允許組織在沒有立即法律后果威脅的情況下糾正許可錯(cuò)誤來提供幫助。在技術(shù)投資方面,為網(wǎng)絡(luò)上的元數(shù)據(jù)開發(fā)機(jī)器可讀標(biāo)準(zhǔn)將有助于大規(guī)模澄清許可和同意,減少數(shù)據(jù)用戶的法律風(fēng)險(xiǎn)。

在負(fù)責(zé)任的AI治理方面,數(shù)據(jù)集的開放性本身并不能保證積極的社會(huì)影響或防止可能的傷害。負(fù)責(zé)任的治理仍然是值得信賴的AI的關(guān)鍵方面。研究團(tuán)隊(duì)建議,非英語內(nèi)容在LLM訓(xùn)練數(shù)據(jù)中代表不足,更多構(gòu)建者應(yīng)該聯(lián)系當(dāng)?shù)厣鐓^(qū),幫助構(gòu)建更多高質(zhì)量的非英語數(shù)據(jù)。使用條款通常難以理解、冗長(zhǎng)且不標(biāo)準(zhǔn)化。向前發(fā)展,使它們更容易解釋和機(jī)器可讀,例如通過創(chuàng)建可以組合以適應(yīng)創(chuàng)作者需求的標(biāo)準(zhǔn)化"模塊",將使尊重和執(zhí)行使用條款變得更容易。

最后,在可持續(xù)資金方面,開放數(shù)據(jù)集本質(zhì)上是免費(fèi)提供的,這阻止了它們的構(gòu)建者依賴傳統(tǒng)商業(yè)模式。如何在不損害開放精神的情況下使生態(tài)系統(tǒng)在財(cái)務(wù)上更具彈性和可持續(xù)性?研究團(tuán)隊(duì)認(rèn)為,要將開放LLM數(shù)據(jù)集和模型轉(zhuǎn)變?yōu)楣伯a(chǎn)品,它們理想情況下也應(yīng)該作為這樣的產(chǎn)品得到資助,至少部分確保長(zhǎng)期可持續(xù)性。政策制定者也可以幫助使開放LLM更具競(jìng)爭(zhēng)力,例如,通過要求某些用例或強(qiáng)制公共機(jī)構(gòu)僅使用開放LLM來要求訓(xùn)練數(shù)據(jù)、模型參數(shù)和其他元素的開放性。

九、實(shí)際案例:從理論到實(shí)踐

為了展示這些原則和最佳實(shí)踐如何在現(xiàn)實(shí)世界中應(yīng)用,研究團(tuán)隊(duì)詳細(xì)分析了三個(gè)具體的案例研究:EleutherAI的Common Pile、Pleias的Common Corpus和YouTube-Commons。

EleutherAI的Common Pile項(xiàng)目代表了一種雄心勃勃的嘗試,旨在創(chuàng)建一個(gè)完全透明的數(shù)據(jù)集,專門用于訓(xùn)練LLM,該數(shù)據(jù)集完全由公有領(lǐng)域和開放獲取數(shù)據(jù)組成。EleutherAI的主要興趣是通過創(chuàng)建多年來持續(xù)重復(fù)使用的標(biāo)準(zhǔn)化"默認(rèn)"數(shù)據(jù)集來提高LLM的透明度和可解釋性。在不同模型中使用相同的訓(xùn)練數(shù)據(jù)有助于對(duì)其性能進(jìn)行嚴(yán)格評(píng)估,因?yàn)樗拗屏藢?dǎo)致它們之間變化的因素?cái)?shù)量。

Common Pile的開發(fā)主要出于兩個(gè)原因:首先,自2020年The Pile發(fā)布以來,EleutherAI在模型訓(xùn)練方面獲得了大量經(jīng)驗(yàn),包括如何更好地格式化數(shù)據(jù)。隨著時(shí)間的推移,對(duì)第一個(gè)Pile的更大更新變得更加可取。其次,EleutherAI收到了一些組織的反饋,這些組織對(duì)使用The Pile感興趣,但由于法律、倫理或其他原因無法使用。隨著公眾對(duì)AI訓(xùn)練數(shù)據(jù)中版權(quán)問題的關(guān)注日益增加,EleutherAI得出結(jié)論,一個(gè)被廣泛使用的標(biāo)準(zhǔn)化默認(rèn)數(shù)據(jù)集需要僅包含開放許可內(nèi)容,以確保最廣泛的采用。

EleutherAI還將Common Pile視為對(duì)一些領(lǐng)先AI公司聲稱在沒有版權(quán)材料的情況下訓(xùn)練高性能LLM是不可能的說法的聲明。這種說法對(duì)那些能夠承擔(dān)法律不確定性風(fēng)險(xiǎn)以及為其專有數(shù)據(jù)集達(dá)成價(jià)值數(shù)億美元的獨(dú)家內(nèi)容許可協(xié)議的大公司來說是自我服務(wù)的。與此同時(shí),較小的企業(yè)參與者、研究人員和公共機(jī)構(gòu)依賴開放數(shù)據(jù)集來競(jìng)爭(zhēng)。通過這種方式,Common Pile可以有助于使LLM生態(tài)系統(tǒng)更具競(jìng)爭(zhēng)性和多樣化。

Common Pile由一系列子集組成,類似于The Pile,但這些子集在大小上相似,與其前身相比??傮w而言,Common Pile被策劃為具有更高比例的內(nèi)容,這些內(nèi)容已知與模型性能高度相關(guān)。具體來說,它包括更大的代碼子集,因?yàn)門he Pile開創(chuàng)了在訓(xùn)練數(shù)據(jù)中結(jié)合代碼和自然語言,自那時(shí)以來的研究表明,更高比例的代碼與更好的性能相關(guān)。

創(chuàng)建大量公有領(lǐng)域圖書子集是Common Pile開發(fā)中最具挑戰(zhàn)性和耗時(shí)的任務(wù)之一。確定一本書是否屬于公有領(lǐng)域?qū)τ趩我凰痉ü茌爡^(qū)來說是一個(gè)復(fù)雜的過程,在國(guó)際層面上變得更加困難。作為一個(gè)總部位于美國(guó)的組織,EleutherAI因此專注于根據(jù)美國(guó)版權(quán)法版權(quán)已過期的書籍,就像1929年之前在美國(guó)出版的所有書籍一樣。

然而,由于歷史文本可能包含可能被認(rèn)為不適合LLM訓(xùn)練的語言、道德和偏見,EleutherAI還致力于識(shí)別和獲取1929年至1978年間未續(xù)期版權(quán)的較新書籍。雖然第一批大量公有領(lǐng)域書籍將從一開始就包含在Common Pile中,但識(shí)別和收集更多書籍將需要額外努力來合并和協(xié)調(diào)來自各種圖書館目錄的書目元數(shù)據(jù)。下一個(gè)大挑戰(zhàn)是以合適的格式收集書籍文本。許多書籍只以PDF形式提供,并且不是所有這些PDF都具有高質(zhì)量的光學(xué)字符識(shí)別,因此大規(guī)模提取純文本在技術(shù)上具有挑戰(zhàn)性。

Pleias的方法略有不同但同樣重要。與EleutherAI的Common Pile中的書籍子集不同,Pleias在Common Corpus的第一個(gè)版本中故意僅包含較舊的公有領(lǐng)域內(nèi)容。Pleias面臨著與EleutherAI類似的問題:澄清內(nèi)容是否在不同司法管轄區(qū)的公有領(lǐng)域下是耗時(shí)的,需要逐案調(diào)查,因?yàn)槊绹?guó)和歐洲適用不同的內(nèi)容進(jìn)入公有領(lǐng)域的法規(guī),這是他們初始發(fā)布關(guān)注的兩個(gè)地區(qū)。該公司主要將自己限制在1884年之前發(fā)布的內(nèi)容上作為預(yù)防措施。

YouTube-Commons旨在補(bǔ)充包含許多正式文本的Common Corpus,提供對(duì)話數(shù)據(jù)。這個(gè)過程相對(duì)簡(jiǎn)單:意識(shí)到Y(jié)ouTube包含大量在Creative Commons的CC-BY許可下的視頻,Pleias創(chuàng)建了一個(gè)數(shù)據(jù)集,包括視頻轉(zhuǎn)錄本和YouTube提供的元數(shù)據(jù)。雖然這種方法不被認(rèn)為是理想的,因?yàn)檗D(zhuǎn)錄本的質(zhì)量,特別是自動(dòng)翻譯的質(zhì)量各不相同,但它被視為社區(qū)可以幫助改進(jìn)和擴(kuò)展的第一步。包含有關(guān)視頻的元數(shù)據(jù)是出于許可原因,并使YouTube-Commons在將來創(chuàng)建開放許可的多模態(tài)訓(xùn)練數(shù)據(jù)集時(shí)有用。

十、未來展望:構(gòu)建真正開放的AI生態(tài)系統(tǒng)

通過這項(xiàng)綜合性研究,我們可以看到構(gòu)建開放、負(fù)責(zé)任的AI訓(xùn)練數(shù)據(jù)集既是技術(shù)挑戰(zhàn),也是社會(huì)和政策挑戰(zhàn)。研究團(tuán)隊(duì)的工作不僅提供了具體的指導(dǎo)原則和最佳實(shí)踐,更重要的是為整個(gè)AI社區(qū)指出了一條可行的前進(jìn)道路。

這項(xiàng)研究的價(jià)值遠(yuǎn)超技術(shù)層面。它實(shí)際上是在為AI的未來繪制藍(lán)圖,一個(gè)真正民主化、透明化且對(duì)所有人開放的AI未來。當(dāng)前AI發(fā)展的一個(gè)主要問題是資源和權(quán)力的集中化,少數(shù)大公司控制著最強(qiáng)大的模型和最豐富的數(shù)據(jù)資源。而開放數(shù)據(jù)集的建設(shè)為打破這種壟斷提供了可能性。

從長(zhǎng)遠(yuǎn)來看,這種開放方法的好處是多方面的。首先,它促進(jìn)了創(chuàng)新的民主化。當(dāng)高質(zhì)量的訓(xùn)練數(shù)據(jù)對(duì)所有人開放時(shí),不僅是大公司,小型初創(chuàng)企業(yè)、學(xué)術(shù)機(jī)構(gòu)、甚至個(gè)人開發(fā)者都有機(jī)會(huì)訓(xùn)練出高質(zhì)量的AI模型。這種競(jìng)爭(zhēng)環(huán)境的多樣化必然會(huì)帶來更多創(chuàng)新和更好的解決方案。

其次,透明度和可審計(jì)性得到了根本性提升。當(dāng)訓(xùn)練數(shù)據(jù)公開透明時(shí),研究人員可以更好地理解AI模型的行為,發(fā)現(xiàn)潛在的偏見和問題,并提出改進(jìn)方案。這種透明度對(duì)于構(gòu)建值得信賴的AI系統(tǒng)至關(guān)重要。

第三,這種方法更好地保護(hù)了創(chuàng)作者和數(shù)據(jù)提供者的權(quán)利。通過建立明確的許可框架和選擇退出機(jī)制,內(nèi)容創(chuàng)作者可以更好地控制他們的作品如何被使用。這種尊重知識(shí)產(chǎn)權(quán)的方法有助于建立AI技術(shù)與創(chuàng)意社區(qū)之間的信任關(guān)系。

然而,實(shí)現(xiàn)這個(gè)愿景還需要克服許多挑戰(zhàn)。技術(shù)方面,需要繼續(xù)投資于更好的數(shù)據(jù)提取和處理工具,特別是處理PDF和其他復(fù)雜格式的工具。政策方面,需要更清晰的法律框架來指導(dǎo)AI訓(xùn)練數(shù)據(jù)的使用。社會(huì)方面,需要建立更強(qiáng)大的社區(qū)參與機(jī)制,確保多樣化的聲音能夠被聽到和代表。

說到底,這項(xiàng)研究提醒我們,AI的發(fā)展不應(yīng)該是少數(shù)公司的專利,而應(yīng)該是整個(gè)人類社會(huì)的共同事業(yè)。通過構(gòu)建開放、透明、負(fù)責(zé)任的訓(xùn)練數(shù)據(jù)集,我們正在為一個(gè)更加公平和包容的AI未來奠定基礎(chǔ)。這不僅僅是技術(shù)問題,更是關(guān)乎我們想要什么樣的未來社會(huì)的根本問題。在這個(gè)數(shù)字化轉(zhuǎn)型的關(guān)鍵時(shí)刻,每個(gè)人都有責(zé)任參與到這個(gè)過程中來,確保AI技術(shù)真正為全人類服務(wù)。

Q&A

Q1:什么是開放授權(quán)LLM訓(xùn)練數(shù)據(jù)集?為什么它們很重要?

A:開放授權(quán)LLM訓(xùn)練數(shù)據(jù)集是指可以被任何人自由使用、修改和分享的AI訓(xùn)練數(shù)據(jù),就像完全免費(fèi)的圖書館一樣。它們很重要是因?yàn)榭梢源蚱拼蠊緦?duì)AI訓(xùn)練資源的壟斷,讓更多開發(fā)者能夠訓(xùn)練高質(zhì)量的AI模型,同時(shí)提高AI系統(tǒng)的透明度和可信度。

Q2:Mozilla和EleutherAI提出的七個(gè)指導(dǎo)原則具體是什么?

A:七個(gè)原則包括:促進(jìn)競(jìng)爭(zhēng)性的LLM生態(tài)系統(tǒng)、通過可重現(xiàn)性實(shí)現(xiàn)問責(zé)制和透明度、最小化傷害并啟用偏好信號(hào)、支持和改善多樣性、努力實(shí)現(xiàn)互惠性、與志同道合的參與者合作、以及長(zhǎng)期保存數(shù)據(jù)。這些原則旨在確保AI訓(xùn)練數(shù)據(jù)集既開放又負(fù)責(zé)任。

Q3:構(gòu)建開放數(shù)據(jù)集面臨的最大挑戰(zhàn)是什么?

A:主要挑戰(zhàn)包括:不同國(guó)家法律環(huán)境的復(fù)雜性和差異、元數(shù)據(jù)不完整導(dǎo)致難以確定版權(quán)狀態(tài)、許多公有領(lǐng)域內(nèi)容仍被鎖定在無法訪問的格式中、在志愿者驅(qū)動(dòng)的項(xiàng)目中管理法律風(fēng)險(xiǎn)困難,以及如何防止開放數(shù)據(jù)被大公司獨(dú)占而進(jìn)一步鞏固市場(chǎng)壟斷地位。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-