av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) AI評(píng)估進(jìn)入危機(jī)時(shí)代:Kaggle等競(jìng)賽平臺(tái)為何成為GenAI評(píng)估的黃金標(biāo)準(zhǔn)

AI評(píng)估進(jìn)入危機(jī)時(shí)代:Kaggle等競(jìng)賽平臺(tái)為何成為GenAI評(píng)估的黃金標(biāo)準(zhǔn)

2025-07-09 09:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-07-09 09:43 ? 科技行者

生成式人工智能(GenAI)正在以前所未有的速度改變我們的世界,從ChatGPT到各種AI繪畫工具,這些技術(shù)已經(jīng)深入到我們?nèi)粘I畹姆椒矫婷?。然而,一個(gè)看似技術(shù)性但實(shí)際上關(guān)乎整個(gè)AI發(fā)展方向的重要問(wèn)題正在困擾著研究者們:我們?nèi)绾螠?zhǔn)確評(píng)估這些AI系統(tǒng)的真實(shí)能力?

這項(xiàng)由Kaggle公司的D. Sculley領(lǐng)導(dǎo)的研究團(tuán)隊(duì)發(fā)表于2025年5月的第42屆國(guó)際機(jī)器學(xué)習(xí)會(huì)議(ICML 2025),為我們揭示了當(dāng)前GenAI評(píng)估面臨的嚴(yán)重危機(jī),并提出了一個(gè)令人意外的解決方案。有興趣深入了解的讀者可以通過(guò)arXiv:2505.00612v2訪問(wèn)完整論文。研究團(tuán)隊(duì)包括來(lái)自Kaggle的Will Cukierski、Phil Culliton、Sohier Dane等多位專家,他們從十多年的AI競(jìng)賽經(jīng)驗(yàn)中總結(jié)出了這些寶貴見解。

要理解這個(gè)問(wèn)題的重要性,我們可以把AI評(píng)估比作給學(xué)生考試。傳統(tǒng)的機(jī)器學(xué)習(xí)評(píng)估就像是老師準(zhǔn)備了一套固定的試卷,先讓學(xué)生用一部分題目練習(xí),然后用另一部分題目考試。這種方法在過(guò)去幾十年里運(yùn)作良好,推動(dòng)了計(jì)算機(jī)視覺、自然語(yǔ)言處理等領(lǐng)域的巨大進(jìn)步。

然而,GenAI的出現(xiàn)徹底打破了這種評(píng)估模式。這就好比學(xué)生不再是普通的小學(xué)生,而是變成了記憶力超強(qiáng)、能夠閱讀整個(gè)圖書館的"超級(jí)學(xué)生"。當(dāng)你給這樣的學(xué)生出題時(shí),你會(huì)發(fā)現(xiàn)一個(gè)嚴(yán)重問(wèn)題:他們很可能已經(jīng)在海量的閱讀中見過(guò)類似的題目,甚至是完全相同的題目。這樣的考試還能真實(shí)反映他們的能力嗎?

研究團(tuán)隊(duì)指出,當(dāng)前GenAI評(píng)估面臨的最大問(wèn)題就是"數(shù)據(jù)泄露"和"污染"。想象一下,如果一個(gè)學(xué)生在考試前偷看了答案,那么他的高分并不能證明他真正掌握了知識(shí)。同樣,如果一個(gè)AI模型在訓(xùn)練過(guò)程中"見過(guò)"了測(cè)試數(shù)據(jù),那么它在這些測(cè)試中的優(yōu)異表現(xiàn)就失去了意義。

這個(gè)問(wèn)題在GenAI領(lǐng)域尤為嚴(yán)重?,F(xiàn)代大語(yǔ)言模型通常在互聯(lián)網(wǎng)上幾乎所有可獲得的文本上進(jìn)行訓(xùn)練,這意味著許多傳統(tǒng)的測(cè)試數(shù)據(jù)集很可能已經(jīng)被包含在訓(xùn)練數(shù)據(jù)中。研究團(tuán)隊(duì)發(fā)現(xiàn),他們測(cè)試的每一個(gè)主要大語(yǔ)言模型都顯示出對(duì)Kaggle標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集內(nèi)容的詳細(xì)了解,這表明數(shù)據(jù)泄露問(wèn)題已經(jīng)變得普遍而嚴(yán)重。

傳統(tǒng)的解決方案包括創(chuàng)建私有數(shù)據(jù)集、動(dòng)態(tài)更新測(cè)試內(nèi)容、依賴社區(qū)評(píng)估等方法。私有數(shù)據(jù)集就像是把試卷鎖在保險(xiǎn)箱里,只有考試時(shí)才拿出來(lái)。動(dòng)態(tài)測(cè)試則像是每周都出新題目,確保學(xué)生無(wú)法提前準(zhǔn)備。社區(qū)評(píng)估類似于讓公眾投票決定哪個(gè)學(xué)生表現(xiàn)更好。

但這些方法都有各自的局限性。私有數(shù)據(jù)集需要絕對(duì)的信任和保密,一旦泄露就前功盡棄。動(dòng)態(tài)測(cè)試需要持續(xù)的資源投入,而且很難確保新數(shù)據(jù)真的沒有被AI模型接觸過(guò)。社區(qū)評(píng)估雖然能提供新鮮的評(píng)估內(nèi)容,但組織大規(guī)模的評(píng)估活動(dòng)成本高昂,而且難以控制質(zhì)量。

正是在這種背景下,研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的觀點(diǎn):AI競(jìng)賽平臺(tái),特別是像Kaggle這樣的平臺(tái),實(shí)際上為GenAI評(píng)估提供了一個(gè)理想的解決方案。

AI競(jìng)賽就像是組織一場(chǎng)大型考試,但與傳統(tǒng)考試不同的是,這場(chǎng)考試有著獨(dú)特的優(yōu)勢(shì)。首先,成千上萬(wàn)的參賽團(tuán)隊(duì)同時(shí)參與,這意味著每個(gè)新任務(wù)都能得到大規(guī)模的并行評(píng)估。這就好比同時(shí)讓一千個(gè)不同的學(xué)生用不同的方法解決同一個(gè)問(wèn)題,然后比較他們的表現(xiàn)。

更重要的是,AI競(jìng)賽在防止作弊方面積累了豐富的經(jīng)驗(yàn)。畢竟,在真正的競(jìng)賽中,參賽者有強(qiáng)烈的動(dòng)機(jī)去尋找任何可能的優(yōu)勢(shì),包括不當(dāng)?shù)氖侄巍R虼?,?jìng)賽組織者必須設(shè)計(jì)出極其嚴(yán)密的防作弊機(jī)制。

研究團(tuán)隊(duì)通過(guò)多年的Kaggle競(jìng)賽經(jīng)驗(yàn),總結(jié)出了數(shù)據(jù)泄露可能出現(xiàn)的各種形式。有時(shí)候,泄露來(lái)源令人意想不到。比如在一次地震預(yù)測(cè)競(jìng)賽中,數(shù)據(jù)按照類別標(biāo)簽的順序進(jìn)行處理,文件時(shí)間戳沒有重置,參賽者可以輕松地根據(jù)文件元數(shù)據(jù)進(jìn)行預(yù)測(cè)。在另一次廣告追蹤競(jìng)賽中,數(shù)據(jù)被錯(cuò)誤地排序,使得同一時(shí)間戳內(nèi)的正標(biāo)簽總是出現(xiàn)在負(fù)標(biāo)簽之后。

甚至隨機(jī)化也可能成為泄露源。在一次AI模型運(yùn)行時(shí)間預(yù)測(cè)競(jìng)賽中,兩個(gè)不同的數(shù)據(jù)桶使用了相同的隨機(jī)種子,參賽者發(fā)現(xiàn)了這個(gè)模式并利用它來(lái)提高分?jǐn)?shù)。合成數(shù)據(jù)更容易產(chǎn)生泄露問(wèn)題。在SETI突破聆聽競(jìng)賽中,合成的"外星信號(hào)"使用FP16精度,而背景信號(hào)使用FP32精度,這種微小的精度差異就足以讓參賽者區(qū)分兩類信號(hào)。

這些例子說(shuō)明,即使是經(jīng)驗(yàn)豐富、小心謹(jǐn)慎的團(tuán)隊(duì)也很難完全避免數(shù)據(jù)泄露。每一個(gè)AI競(jìng)賽都比成功的情況更容易出錯(cuò),這需要組織者保持高度的警惕和偏執(zhí)。

面對(duì)這種現(xiàn)實(shí),研究團(tuán)隊(duì)提出了一個(gè)頗具爭(zhēng)議但實(shí)用的建議:我們應(yīng)該認(rèn)為評(píng)估數(shù)據(jù)一旦在線分享或通過(guò)網(wǎng)絡(luò)傳輸就已經(jīng)泄露了。這個(gè)原則雖然嚴(yán)格,但能顯著提高我們對(duì)評(píng)估結(jié)果的信任度,大大增強(qiáng)結(jié)果的穩(wěn)健性。

這種做法確實(shí)會(huì)削弱可重現(xiàn)性,但研究團(tuán)隊(duì)認(rèn)為這是一個(gè)根本性的權(quán)衡,類似于量子物理學(xué)中的海森堡不確定性原理。我們無(wú)法同時(shí)擁有一個(gè)已發(fā)布的靜態(tài)基準(zhǔn)測(cè)試和對(duì)泄露的穩(wěn)健性。無(wú)論研究者的初衷多么良好,要避免污染并廣泛信任這樣的基準(zhǔn)測(cè)試結(jié)果都太困難了。

因此,我們必須尋求替代策略和結(jié)構(gòu)來(lái)創(chuàng)建防泄露的評(píng)估。這正是AI競(jìng)賽的價(jià)值所在。

AI競(jìng)賽為GenAI評(píng)估提供了一種"令人尷尬的并行"結(jié)構(gòu),這讓人想起并行計(jì)算中的經(jīng)典MapReduce架構(gòu)。在這種結(jié)構(gòu)中,獨(dú)立的研究團(tuán)隊(duì)(通常數(shù)以千計(jì))各自競(jìng)爭(zhēng)解決給定問(wèn)題,在這個(gè)過(guò)程中創(chuàng)造了對(duì)許多不同方法的大規(guī)模并行評(píng)估。

這種并行化結(jié)構(gòu)顯著提高了穩(wěn)健性。數(shù)據(jù)泄露和污染的風(fēng)險(xiǎn)從評(píng)估公開分享或通過(guò)網(wǎng)絡(luò)傳輸評(píng)估數(shù)據(jù)的那一刻就開始了。這導(dǎo)致了一個(gè)問(wèn)題:我們?nèi)绾我杂行У姆绞焦奖容^不同的模型和系統(tǒng),確保穩(wěn)健性并避免泄露和污染導(dǎo)致的結(jié)果無(wú)效?

AI競(jìng)賽的并行化結(jié)構(gòu)為這個(gè)問(wèn)題提供了有用的解決方案。以新穎性為中心的評(píng)估可以同時(shí)并行進(jìn)行,確保每個(gè)新任務(wù)在測(cè)試時(shí)對(duì)成千上萬(wàn)個(gè)模型來(lái)說(shuō)確實(shí)是新穎的。由于獨(dú)立團(tuán)隊(duì)各自追求不同的模型、想法和方法,這種結(jié)構(gòu)產(chǎn)生了直接的同類比較和結(jié)果的實(shí)時(shí)重現(xiàn)形式。

此外,像Kaggle這樣的競(jìng)賽平臺(tái)可以通過(guò)運(yùn)行隔離的代碼競(jìng)賽來(lái)充當(dāng)隱藏測(cè)試數(shù)據(jù)的可信保管者,參賽者提交他們的模型在沒有網(wǎng)絡(luò)訪問(wèn)的隔離安全后端上運(yùn)行。通過(guò)安全地離線評(píng)估所有模型,競(jìng)賽平臺(tái)可以保證沒有隱藏的測(cè)試數(shù)據(jù)泄露。

研究團(tuán)隊(duì)還強(qiáng)調(diào)了AI競(jìng)賽在防止泄露方面采用的幾種有效策略。前瞻性真實(shí)標(biāo)注是一種策略,測(cè)試集標(biāo)簽在競(jìng)賽的活躍訓(xùn)練階段對(duì)世界完全未知。蛋白質(zhì)功能標(biāo)注關(guān)鍵評(píng)估(CAFA)5挑戰(zhàn)賽就是使用前瞻性真實(shí)標(biāo)注來(lái)減輕泄露的競(jìng)賽例子。該競(jìng)賽將已知序列但尚未在濕實(shí)驗(yàn)室中確定功能標(biāo)注的蛋白質(zhì)作為測(cè)試集。

新穎任務(wù)生成是設(shè)計(jì)防泄露競(jìng)賽的另一種方法,即生成全新的任務(wù),其中測(cè)試數(shù)據(jù)不類似于訓(xùn)練數(shù)據(jù),因此需要有意義的泛化。AI數(shù)學(xué)奧林匹克(AIMO)挑戰(zhàn)賽使用了這種方法,參賽者被要求解決國(guó)家級(jí)數(shù)學(xué)挑戰(zhàn)題。由于許多(如果不是全部)參賽者使用的AI模型都在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上訓(xùn)練,測(cè)試-訓(xùn)練泄露在評(píng)估它們的數(shù)學(xué)推理能力時(shí)構(gòu)成了重大挑戰(zhàn)。因此,國(guó)際數(shù)學(xué)家團(tuán)隊(duì)專門為競(jìng)賽創(chuàng)建了新的數(shù)學(xué)問(wèn)題集,使數(shù)據(jù)泄露或污染極不可能發(fā)生。

截止日期后數(shù)據(jù)收集是另一種泄露緩解策略,類似于前瞻性真實(shí)標(biāo)注競(jìng)賽,只是不是在新可用標(biāo)簽上評(píng)估,而是在完全新生成的數(shù)據(jù)上評(píng)估解決方案。WSDM杯多語(yǔ)言聊天機(jī)器人競(jìng)技場(chǎng)競(jìng)賽采用了這種設(shè)計(jì),參賽者被要求基于來(lái)自LM Arena的多語(yǔ)言對(duì)話和評(píng)分?jǐn)?shù)據(jù)構(gòu)建預(yù)測(cè)人類對(duì)大語(yǔ)言模型頭對(duì)頭匹配偏好的解決方案。

AI競(jìng)賽還具有額外的非結(jié)構(gòu)性特征,代表了行業(yè)應(yīng)該采用的最佳實(shí)踐,以進(jìn)一步提高實(shí)證嚴(yán)謹(jǐn)性。競(jìng)賽鼓勵(lì)或經(jīng)常要求開放分享代碼、數(shù)據(jù)和實(shí)驗(yàn)細(xì)節(jié),包括成功和失敗。參賽者通常更多地被分享有價(jià)值和富有洞察力的資源和想法所獲得的地位和認(rèn)可激勵(lì),而不是贏得獎(jiǎng)品。事實(shí)上,去年Kaggle特色競(jìng)賽的論壇消息中位數(shù)為1400條。這種透明度促進(jìn)了結(jié)果的重現(xiàn),培養(yǎng)了對(duì)新基線的信任,并加速了研究和從業(yè)者社區(qū)內(nèi)知識(shí)的傳播。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)為整個(gè)領(lǐng)域提出了幾項(xiàng)建議。首先,應(yīng)該從靜態(tài)基準(zhǔn)測(cè)試轉(zhuǎn)向常青的可重復(fù)過(guò)程。由于泄露和污染的風(fēng)險(xiǎn),他們認(rèn)為靜態(tài)基準(zhǔn)測(cè)試在GenAI評(píng)估中的重要性應(yīng)該被降低。相反,我們需要一個(gè)穩(wěn)定的可再生的新任務(wù)和問(wèn)題管道,我們需要在每個(gè)任務(wù)上并行評(píng)估數(shù)百或數(shù)千個(gè)模型,以便結(jié)果直接可比并避免后續(xù)污染和泄露的風(fēng)險(xiǎn)。

其次,應(yīng)該將AI競(jìng)賽的穩(wěn)定流看作是該領(lǐng)域的資源。使用像Kaggle這樣平臺(tái)上托管的高質(zhì)量AI競(jìng)賽管道是創(chuàng)建可再生管道的一種方式。這些結(jié)構(gòu)已經(jīng)存在并且已經(jīng)在某種程度上以這種方式使用。然而,作為一個(gè)領(lǐng)域,我們可以通過(guò)元分析來(lái)做更多的工作來(lái)提取、分析和分享這些競(jìng)賽的發(fā)現(xiàn)。

第三,應(yīng)該采用并改進(jìn)AI競(jìng)賽的反作弊結(jié)構(gòu)來(lái)改善GenAI評(píng)估的標(biāo)準(zhǔn)實(shí)踐。作為一個(gè)領(lǐng)域,我們可以從AI競(jìng)賽開發(fā)的最佳實(shí)踐中學(xué)習(xí)。為對(duì)抗故意作弊而創(chuàng)建的技術(shù)和實(shí)踐同樣有價(jià)值,可以創(chuàng)建對(duì)抗可能使實(shí)證結(jié)果無(wú)效的無(wú)意問(wèn)題(如泄露和污染)的評(píng)估結(jié)構(gòu)。

研究團(tuán)隊(duì)還討論了幾種可能的反對(duì)觀點(diǎn)。一種合理的替代觀點(diǎn)是,當(dāng)前的基準(zhǔn)測(cè)試狀態(tài)在無(wú)需額外干預(yù)的情況下進(jìn)展良好。每天在Hugging Face、OpenML和Kaggle等平臺(tái)上出現(xiàn)的許多新靜態(tài)基準(zhǔn)測(cè)試可能作為他們描述的領(lǐng)域必需的新任務(wù)穩(wěn)定流。雖然他們贊揚(yáng)所有創(chuàng)建新基準(zhǔn)測(cè)試的努力,但他們確實(shí)從根本上認(rèn)為靜態(tài)基準(zhǔn)測(cè)試應(yīng)該被認(rèn)為在發(fā)布后已經(jīng)有效無(wú)效,因此AI競(jìng)賽的時(shí)間組件提供了獨(dú)特的附加價(jià)值。

另一個(gè)可能的批評(píng)是,與"常青"靜態(tài)基準(zhǔn)測(cè)試相比,AI競(jìng)賽的人為截止日期可能會(huì)阻止有價(jià)值的提交。他們發(fā)現(xiàn),每次我們集成提交時(shí),我們對(duì)排名靠前的解決方案幾乎沒有改善。換句話說(shuō),至少在Kaggle上的競(jìng)賽從數(shù)據(jù)中提取了(接近)最大信號(hào)。

此外,AI競(jìng)賽主辦方強(qiáng)烈激勵(lì)設(shè)計(jì)良好的評(píng)估指標(biāo),我們觀察到與現(xiàn)實(shí)世界表現(xiàn)相關(guān)的解決方案結(jié)果更有可能出現(xiàn)。例如,在OpenVaccine挑戰(zhàn)賽中,參賽者在短短4周內(nèi)將mRNA疫苗降解率預(yù)測(cè)的最先進(jìn)水平提高了25%,主辦方進(jìn)一步驗(yàn)證了解決方案能夠泛化到作為競(jìng)賽數(shù)據(jù)集一部分未見過(guò)的更長(zhǎng)RNA序列。

另一個(gè)合理的觀點(diǎn)是,當(dāng)前試圖防泄露的現(xiàn)有基準(zhǔn)測(cè)試是足夠的。最值得考慮的是通過(guò)LMSYS.org的LMArena由人類評(píng)分者產(chǎn)生的基于Elo的并排排名。為社區(qū)提供一個(gè)開放循環(huán)來(lái)提供無(wú)限的新輸入流和判斷確實(shí)很有吸引力,是解決許多這些問(wèn)題的強(qiáng)有力步驟。然而,他們認(rèn)為在新穎性和嚴(yán)謹(jǐn)性方面,匿名眾包任務(wù)和問(wèn)題來(lái)源能夠?qū)崿F(xiàn)的存在限制,AI競(jìng)賽允許注入特定領(lǐng)域?qū)I(yè)知識(shí)和精心制作的測(cè)試案例,這些將充分壓力測(cè)試下一代GenAI模型。

第三個(gè)合理的觀點(diǎn)是,GenAI模型學(xué)術(shù)評(píng)估價(jià)值的比喻之船已經(jīng)啟航。在這種范式中,在生產(chǎn)部署中對(duì)字面真實(shí)世界任務(wù)的表現(xiàn)可能為GenAI能力提供最有效的測(cè)試。在這種替代觀點(diǎn)中,獨(dú)立評(píng)估幾乎沒有價(jià)值,每個(gè)從業(yè)者或團(tuán)體都應(yīng)該完全按照自己的條件進(jìn)行評(píng)估。雖然這種方法對(duì)于高度專業(yè)化的領(lǐng)域和應(yīng)用是不可避免的,但他們確實(shí)認(rèn)為有令人信服的理由繼續(xù)對(duì)模型進(jìn)行獨(dú)立評(píng)估,因?yàn)樵擃I(lǐng)域的歷史表明,這些形式的評(píng)估以最廣泛和最快速的方式推動(dòng)進(jìn)展。沒有受控的實(shí)證研究,我們作為一個(gè)領(lǐng)域有失去對(duì)為什么模型在某些任務(wù)上表現(xiàn)良好或糟糕的廣泛共享知識(shí)的風(fēng)險(xiǎn)。公開分享這種理解對(duì)于在這個(gè)快速發(fā)展的領(lǐng)域中解鎖進(jìn)一步進(jìn)展的途徑至關(guān)重要。

說(shuō)到底,這項(xiàng)研究為我們揭示了一個(gè)重要真理:隨著AI技術(shù)變得越來(lái)越強(qiáng)大,評(píng)估這些技術(shù)的方法也必須相應(yīng)進(jìn)化。傳統(tǒng)的"出題-練習(xí)-考試"模式在面對(duì)能夠"讀完整個(gè)圖書館"的AI系統(tǒng)時(shí)顯得力不從心。研究團(tuán)隊(duì)提出的AI競(jìng)賽解決方案并非完美,但它提供了一個(gè)實(shí)際可行的路徑,讓我們能夠在快速變化的AI領(lǐng)域中保持評(píng)估的科學(xué)性和可信度。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)層面。在AI技術(shù)日益影響我們生活的今天,如何準(zhǔn)確評(píng)估AI能力直接關(guān)系到我們對(duì)這些技術(shù)的信任和依賴程度。一個(gè)無(wú)法被準(zhǔn)確評(píng)估的AI系統(tǒng),就像一個(gè)沒有準(zhǔn)確體檢報(bào)告的病人一樣,我們無(wú)法知道它的真實(shí)狀況,也就無(wú)法做出明智的決策。

歸根結(jié)底,這項(xiàng)研究為整個(gè)AI領(lǐng)域敲響了警鐘,同時(shí)也指明了前進(jìn)的方向。當(dāng)我們站在通用人工智能的門檻前時(shí),確保我們有可靠的方法來(lái)評(píng)估這些強(qiáng)大技術(shù)的能力,不僅是科學(xué)進(jìn)步的需要,更是社會(huì)責(zé)任的體現(xiàn)。有興趣深入了解這項(xiàng)重要研究的讀者,可以通過(guò)arXiv:2505.00612v2查閱完整的論文內(nèi)容。

Q&A

Q1:什么是數(shù)據(jù)泄露和污染問(wèn)題?為什么這對(duì)AI評(píng)估這么重要? A:數(shù)據(jù)泄露就像學(xué)生考試前偷看了答案。現(xiàn)在的大語(yǔ)言模型在訓(xùn)練時(shí)會(huì)"讀取"互聯(lián)網(wǎng)上的海量數(shù)據(jù),如果測(cè)試題目也在這些數(shù)據(jù)中,那么AI的高分就不能證明它真正理解了問(wèn)題,而只是"記住"了答案。這讓我們無(wú)法判斷AI的真實(shí)能力。

Q2:為什么AI競(jìng)賽平臺(tái)能夠解決評(píng)估危機(jī)? A:AI競(jìng)賽就像同時(shí)讓上千個(gè)學(xué)生用不同方法解決全新問(wèn)題。競(jìng)賽平臺(tái)有豐富的防作弊經(jīng)驗(yàn),能創(chuàng)造真正新穎的任務(wù),并且確保測(cè)試數(shù)據(jù)不會(huì)泄露。同時(shí),大規(guī)模并行評(píng)估讓結(jié)果更可信,就像多個(gè)裁判同時(shí)打分一樣。

Q3:普通人需要關(guān)心這個(gè)問(wèn)題嗎?這會(huì)影響我們的日常生活嗎? A:絕對(duì)需要關(guān)心。我們?nèi)粘J褂玫腁I工具,從聊天機(jī)器人到推薦系統(tǒng),其可靠性都依賴于準(zhǔn)確的評(píng)估。如果評(píng)估方法有問(wèn)題,我們可能會(huì)過(guò)度信任不夠可靠的AI系統(tǒng),或者錯(cuò)過(guò)真正優(yōu)秀的技術(shù)。這直接關(guān)系到我們對(duì)AI技術(shù)的信任和使用安全。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-