av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 浙大聯(lián)合螞蟻集團(tuán)揭秘:為什么開(kāi)源AI在數(shù)據(jù)分析上總是敗給商業(yè)模型?

浙大聯(lián)合螞蟻集團(tuán)揭秘:為什么開(kāi)源AI在數(shù)據(jù)分析上總是敗給商業(yè)模型?

2025-06-27 11:44
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-27 11:44 ? 科技行者

這項(xiàng)由浙江大學(xué)和螞蟻集團(tuán)聯(lián)合實(shí)驗(yàn)室的朱雨琪、張寧宇等研究人員開(kāi)展的研究,發(fā)表于2025年6月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2506.19794v1)。有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv網(wǎng)站上訪問(wèn)完整論文。

當(dāng)我們談到人工智能分析數(shù)據(jù)時(shí),經(jīng)常會(huì)發(fā)現(xiàn)一個(gè)令人困惑的現(xiàn)象:那些免費(fèi)開(kāi)源的AI模型在處理數(shù)據(jù)分析任務(wù)時(shí),表現(xiàn)總是遠(yuǎn)不如GPT-4、DeepSeek這樣的商業(yè)模型。這就像是同樣的食材,為什么有些廚師能做出米其林級(jí)別的料理,而有些廚師卻只能做出勉強(qiáng)能吃的家常菜?

這個(gè)問(wèn)題不僅困擾著普通用戶,也讓研究人員感到好奇。畢竟,開(kāi)源模型在很多其他任務(wù)上表現(xiàn)都不錯(cuò),為什么偏偏在數(shù)據(jù)分析這件事上就不行了呢?浙江大學(xué)和螞蟻集團(tuán)的研究團(tuán)隊(duì)決定深入探索這個(gè)問(wèn)題的根源。

他們發(fā)現(xiàn),數(shù)據(jù)分析其實(shí)是一項(xiàng)非常復(fù)雜的"腦力活動(dòng)"。不同于簡(jiǎn)單的問(wèn)答或翻譯,數(shù)據(jù)分析需要AI具備三種核心能力:理解數(shù)據(jù)(就像讀懂一張復(fù)雜的地圖)、編寫(xiě)代碼(相當(dāng)于制定詳細(xì)的行動(dòng)計(jì)劃)、以及戰(zhàn)略規(guī)劃(類似于下棋時(shí)的整體布局思維)。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)了三個(gè)關(guān)鍵發(fā)現(xiàn)。

首先,在這三種能力中,戰(zhàn)略規(guī)劃能力是最關(guān)鍵的決定因素。這就好比做菜時(shí),知道食材的特性和掌握刀工技巧固然重要,但最終決定菜品質(zhì)量的往往是廚師的整體烹飪思路和火候把控。其次,任務(wù)的復(fù)雜程度和交互方式的設(shè)計(jì)會(huì)顯著影響AI的推理能力,就像游戲的難度設(shè)置會(huì)直接影響玩家的表現(xiàn)一樣。最后,他們發(fā)現(xiàn)高質(zhì)量的訓(xùn)練數(shù)據(jù)比數(shù)據(jù)的多樣性更重要,這類似于培養(yǎng)一個(gè)學(xué)生時(shí),精心挑選的優(yōu)質(zhì)教材比海量的普通資料更有效。

基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了一套數(shù)據(jù)合成方法,成功提升了開(kāi)源模型的數(shù)據(jù)分析能力。他們的7B參數(shù)模型經(jīng)過(guò)優(yōu)化后,性能大幅提升,14B參數(shù)模型甚至能夠媲美或超越GPT-4的表現(xiàn)。這個(gè)結(jié)果證明了通過(guò)科學(xué)的方法,開(kāi)源模型完全有可能在數(shù)據(jù)分析領(lǐng)域追上甚至超越商業(yè)模型。

一、數(shù)據(jù)分析為什么這么難?就像組裝一臺(tái)復(fù)雜機(jī)器

要理解為什么AI在數(shù)據(jù)分析上表現(xiàn)不佳,我們首先需要明白數(shù)據(jù)分析到底是一項(xiàng)什么樣的任務(wù)。研究團(tuán)隊(duì)將其比作組裝一臺(tái)復(fù)雜的機(jī)器,這個(gè)過(guò)程需要多個(gè)步驟的緊密配合。

數(shù)據(jù)分析不像簡(jiǎn)單的問(wèn)答,它需要AI同時(shí)具備多種技能。以一個(gè)實(shí)際例子來(lái)說(shuō)明:假設(shè)你想知道"奧巴馬實(shí)際獲得的選舉人票數(shù)和民調(diào)預(yù)測(cè)的差距是多少",AI需要先理解這個(gè)問(wèn)題涉及哪些數(shù)據(jù)文件,然后找到相關(guān)的CSV文件,接著編寫(xiě)代碼來(lái)讀取數(shù)據(jù)、篩選最新民調(diào)、計(jì)算平均值,最后比較實(shí)際結(jié)果和預(yù)測(cè)結(jié)果。

這個(gè)過(guò)程就像一個(gè)偵探破案:首先要理解案情(數(shù)據(jù)理解),然后制定調(diào)查計(jì)劃(戰(zhàn)略規(guī)劃),最后執(zhí)行具體的調(diào)查步驟(代碼生成)。每一個(gè)環(huán)節(jié)都不能出錯(cuò),否則就會(huì)得出錯(cuò)誤的結(jié)論。

研究團(tuán)隊(duì)通過(guò)形式化的數(shù)學(xué)表達(dá)來(lái)描述這個(gè)過(guò)程。他們將數(shù)據(jù)分析定義為一個(gè)函數(shù),輸入是結(jié)構(gòu)化數(shù)據(jù)D、分析目標(biāo)Q和可用工具T,輸出是分析過(guò)程S和最終報(bào)告R。這就像一個(gè)廚師(AI)需要根據(jù)食材(數(shù)據(jù))、顧客需求(目標(biāo))和廚具(工具)來(lái)制作一道菜(分析結(jié)果)。

為了深入研究這個(gè)問(wèn)題,團(tuán)隊(duì)收集了一個(gè)專門的數(shù)據(jù)集。他們從多個(gè)來(lái)源收集了6443個(gè)不同的分析樣本,涵蓋了各種復(fù)雜程度的分析任務(wù)。這些樣本就像是不同難度的考試題目,用來(lái)測(cè)試AI的各項(xiàng)能力。

在數(shù)據(jù)收集過(guò)程中,研究團(tuán)隊(duì)非常注重質(zhì)量控制。他們建立了兩階段的篩選機(jī)制:首先自動(dòng)識(shí)別和刪除低質(zhì)量的樣本,比如那些代碼有錯(cuò)誤、無(wú)法運(yùn)行或者格式不規(guī)范的樣本;然后通過(guò)人工抽樣驗(yàn)證的方式進(jìn)一步優(yōu)化數(shù)據(jù)質(zhì)量。這就像是制作一本教科書(shū),既要確保內(nèi)容的正確性,也要保證知識(shí)點(diǎn)的完整性和系統(tǒng)性。

通過(guò)這種嚴(yán)格的篩選過(guò)程,他們最終得到了5613個(gè)高質(zhì)量的樣本,為后續(xù)的實(shí)驗(yàn)分析奠定了堅(jiān)實(shí)基礎(chǔ)。這些樣本覆蓋了從簡(jiǎn)單的數(shù)據(jù)查詢到復(fù)雜的統(tǒng)計(jì)分析等各種場(chǎng)景,能夠全面測(cè)試AI模型在數(shù)據(jù)分析方面的各項(xiàng)能力。

二、三大核心能力大解密:哪個(gè)最重要?

研究團(tuán)隊(duì)將數(shù)據(jù)分析能力分解為三個(gè)核心組成部分,就像拆解一臺(tái)精密儀器來(lái)理解每個(gè)部件的作用。他們想要弄清楚:到底是哪個(gè)部分最影響AI的整體表現(xiàn)?

第一個(gè)能力是數(shù)據(jù)理解能力,相當(dāng)于AI的"閱讀理解"水平。研究團(tuán)隊(duì)設(shè)計(jì)了巧妙的實(shí)驗(yàn)來(lái)測(cè)試這個(gè)能力。他們讓AI處理同樣的問(wèn)題,但有時(shí)提供詳細(xì)的表格信息,有時(shí)不提供,看看這種差異會(huì)如何影響AI的表現(xiàn)。

結(jié)果令人意外:在簡(jiǎn)單任務(wù)中,提供額外的表格信息確實(shí)能稍微提升AI的表現(xiàn),但改善幅度很有限。這說(shuō)明AI已經(jīng)能夠從問(wèn)題描述中獲得足夠的信息來(lái)進(jìn)行推理。更有趣的是,在復(fù)雜任務(wù)中,額外的表格信息有時(shí)甚至?xí)屝阅芟陆?。這就像給一個(gè)人太多資料反而會(huì)分散注意力一樣。

為了進(jìn)一步測(cè)試AI處理復(fù)雜數(shù)據(jù)的能力,研究團(tuán)隊(duì)還故意加入了一些"干擾項(xiàng)"——與任務(wù)無(wú)關(guān)的額外數(shù)據(jù)表。這就像在一堆重要文件中混入一些無(wú)關(guān)緊要的紙張,看看AI能否準(zhǔn)確識(shí)別和篩選有用信息。結(jié)果顯示,大部分AI模型都能夠相對(duì)穩(wěn)定地處理這種干擾,說(shuō)明它們的數(shù)據(jù)篩選能力還算不錯(cuò)。

第二個(gè)能力是代碼生成能力,這相當(dāng)于AI的"動(dòng)手實(shí)踐"水平。研究團(tuán)隊(duì)比較了不同類型的模型:有些是專門針對(duì)編程任務(wù)優(yōu)化的"代碼專家",有些是通用型的"全才"模型。

令人驚訝的是,那些專門的代碼模型并沒(méi)有表現(xiàn)出明顯優(yōu)勢(shì)。這就像是專業(yè)廚師和家庭主婦在做同一道菜時(shí),專業(yè)廚師并不一定做得更好。通過(guò)深入分析錯(cuò)誤類型,研究團(tuán)隊(duì)發(fā)現(xiàn)只有很小一部分錯(cuò)誤是由代碼編寫(xiě)問(wèn)題造成的,大部分錯(cuò)誤其實(shí)源于規(guī)劃和推理方面的不足。

這個(gè)發(fā)現(xiàn)很重要,因?yàn)樗沂玖艘粋€(gè)被忽視的真相:在數(shù)據(jù)分析任務(wù)中,能夠?qū)懗稣_的代碼并不是最大的障礙,真正的挑戰(zhàn)在于知道應(yīng)該寫(xiě)什么樣的代碼,以及如何組織整個(gè)分析流程。

第三個(gè)能力是戰(zhàn)略規(guī)劃能力,這是AI的"大局觀"和"統(tǒng)籌能力"。研究團(tuán)隊(duì)發(fā)現(xiàn)這個(gè)能力最為關(guān)鍵,它決定了AI能否成功完成復(fù)雜的數(shù)據(jù)分析任務(wù)。

他們通過(guò)多個(gè)維度來(lái)研究這個(gè)能力。首先是交互輪次的影響。就像下棋一樣,有些棋手喜歡快速?zèng)Q戰(zhàn),有些則偏好慢慢布局。研究發(fā)現(xiàn),中等長(zhǎng)度的交互(4-5輪對(duì)話)通常效果最好,既不會(huì)因?yàn)檫^(guò)于倉(cāng)促而出錯(cuò),也不會(huì)因?yàn)檫^(guò)度復(fù)雜而迷失方向。

接著是推理鏈長(zhǎng)度的影響。他們測(cè)試了不同長(zhǎng)度的"思考過(guò)程"對(duì)AI表現(xiàn)的影響。結(jié)果發(fā)現(xiàn),過(guò)長(zhǎng)的推理鏈并不總是更好,有時(shí)候簡(jiǎn)潔明了的思考過(guò)程反而更有效。這就像解決問(wèn)題時(shí),冗長(zhǎng)的分析可能會(huì)讓人陷入細(xì)節(jié)而忽略核心要點(diǎn)。

任務(wù)復(fù)雜度也是一個(gè)重要因素。研究團(tuán)隊(duì)將任務(wù)按難度分為簡(jiǎn)單、中等和困難三類,發(fā)現(xiàn)AI在中等難度的任務(wù)上訓(xùn)練后,整體表現(xiàn)最好。這證明了"適度挑戰(zhàn)"的訓(xùn)練原則:任務(wù)太簡(jiǎn)單學(xué)不到東西,太難則容易挫敗學(xué)習(xí)積極性。

最后,他們還研究了問(wèn)題多樣性的影響。通過(guò)對(duì)比不同領(lǐng)域問(wèn)題的訓(xùn)練效果,他們發(fā)現(xiàn)問(wèn)題的質(zhì)量比多樣性更重要。這就像培養(yǎng)一個(gè)學(xué)生,與其讓他接觸各種類型的題目,不如精心挑選一些高質(zhì)量的典型題目進(jìn)行深入練習(xí)。

通過(guò)這些全方位的測(cè)試,研究團(tuán)隊(duì)得出了一個(gè)重要結(jié)論:戰(zhàn)略規(guī)劃能力是決定AI數(shù)據(jù)分析表現(xiàn)的最關(guān)鍵因素。這個(gè)發(fā)現(xiàn)為改進(jìn)AI模型指明了方向——與其花大力氣提升數(shù)據(jù)理解或代碼生成能力,不如重點(diǎn)強(qiáng)化AI的整體規(guī)劃和推理能力。

三、破解之道:高質(zhì)量數(shù)據(jù)勝過(guò)海量數(shù)據(jù)

基于前面的發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了一套系統(tǒng)性的改進(jìn)方案。他們的核心理念很簡(jiǎn)單:與其用海量的普通數(shù)據(jù)"喂飽"AI,不如精心準(zhǔn)備一份"營(yíng)養(yǎng)均衡的精品餐"。

這個(gè)改進(jìn)方案包含三個(gè)關(guān)鍵步驟,就像制作一道精美料理的完整流程。

第一步是"多樣化答案生成"。研究團(tuán)隊(duì)不滿足于為每個(gè)問(wèn)題找到一個(gè)標(biāo)準(zhǔn)答案,而是讓AI生成多種不同的解決方案。這就像同一道菜可以有多種做法,每種做法都有其獨(dú)特的優(yōu)勢(shì)。通過(guò)這種方式,他們收集到了豐富多樣的問(wèn)題解決思路,為后續(xù)的優(yōu)化提供了充足的原材料。

第二步是"精準(zhǔn)篩選"。他們重點(diǎn)選擇那些中等長(zhǎng)度的對(duì)話和中高難度的問(wèn)題。這個(gè)選擇標(biāo)準(zhǔn)基于之前的實(shí)驗(yàn)發(fā)現(xiàn):這類問(wèn)題最有利于AI學(xué)習(xí)和提升。就像健身時(shí)選擇適當(dāng)重量的器械一樣,既要有挑戰(zhàn)性,又不能超出承受范圍。

第三步是"推理增強(qiáng)"。這是最關(guān)鍵的一步。研究團(tuán)隊(duì)為每個(gè)選中的樣本添加了簡(jiǎn)潔的推理總結(jié),這些總結(jié)捕捉了解決問(wèn)題的核心思路和關(guān)鍵步驟。這就像為每道菜配上精心編寫(xiě)的制作要點(diǎn),幫助學(xué)習(xí)者更好地理解和掌握烹飪技巧。

通過(guò)這套三步法,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含2800個(gè)高質(zhì)量實(shí)例的精品數(shù)據(jù)集。雖然數(shù)量不算多,但每個(gè)實(shí)例都經(jīng)過(guò)精心設(shè)計(jì)和優(yōu)化,質(zhì)量遠(yuǎn)超普通的訓(xùn)練數(shù)據(jù)。

為了驗(yàn)證這套方法的效果,研究團(tuán)隊(duì)進(jìn)行了全面的測(cè)試。他們使用兩個(gè)權(quán)威的評(píng)測(cè)基準(zhǔn):DiscoveryBench和QRData。前者包含264個(gè)來(lái)自不同領(lǐng)域的真實(shí)分析任務(wù),后者專門針對(duì)統(tǒng)計(jì)和因果分析,包含411個(gè)問(wèn)題。

測(cè)試結(jié)果令人振奮。經(jīng)過(guò)優(yōu)化的7B參數(shù)模型表現(xiàn)大幅提升:在QRData數(shù)據(jù)集上,準(zhǔn)確率從39.71%躍升至53.77%;在DiscoveryBench上,準(zhǔn)確率從14.64%提升到22.59%。這種提升幅度相當(dāng)顯著,證明了方法的有效性。

更令人驚喜的是14B參數(shù)模型的表現(xiàn)。經(jīng)過(guò)優(yōu)化后,它在QRData上達(dá)到了58.15%的準(zhǔn)確率,在DiscoveryBench上達(dá)到了36.82%的準(zhǔn)確率,這個(gè)成績(jī)已經(jīng)能夠媲美甚至超越GPT-4等頂級(jí)商業(yè)模型。

這些結(jié)果證明了一個(gè)重要觀點(diǎn):開(kāi)源模型完全有潛力在數(shù)據(jù)分析領(lǐng)域達(dá)到世界一流水平,關(guān)鍵在于采用正確的訓(xùn)練策略和高質(zhì)量的數(shù)據(jù)。

不過(guò),研究團(tuán)隊(duì)也誠(chéng)實(shí)地指出了當(dāng)前方法的局限性。他們發(fā)現(xiàn)性能提升在模型規(guī)模增大時(shí)會(huì)出現(xiàn)遞減效應(yīng),這可能是因?yàn)樗麄兊暮Y選策略主要基于較小模型的特點(diǎn)設(shè)計(jì)的。另外,雖然數(shù)據(jù)集質(zhì)量很高,但在處理更復(fù)雜、更多樣化的現(xiàn)實(shí)世界任務(wù)時(shí),仍然存在覆蓋不足的問(wèn)題。

為了解決這些限制,研究團(tuán)隊(duì)提出了未來(lái)的改進(jìn)方向:構(gòu)建更大規(guī)模、更多樣化的合成數(shù)據(jù)集,并引入強(qiáng)化學(xué)習(xí)等先進(jìn)技術(shù)來(lái)進(jìn)一步優(yōu)化數(shù)據(jù)質(zhì)量和模型性能。他們相信,通過(guò)持續(xù)的努力和改進(jìn),開(kāi)源模型在數(shù)據(jù)分析領(lǐng)域的表現(xiàn)還有很大的提升空間。

這項(xiàng)研究的意義不僅在于技術(shù)層面的突破,更在于它為整個(gè)AI社區(qū)指明了一個(gè)重要方向:在追求模型規(guī)模和數(shù)據(jù)量的同時(shí),我們不應(yīng)該忽視數(shù)據(jù)質(zhì)量和訓(xùn)練策略的重要性。有時(shí)候,精心設(shè)計(jì)的小而美的解決方案比盲目追求大而全的方案更有效。

說(shuō)到底,這項(xiàng)研究告訴我們一個(gè)樸素而深刻的道理:在AI的世界里,就像在現(xiàn)實(shí)生活中一樣,質(zhì)量往往比數(shù)量更重要。一個(gè)經(jīng)過(guò)精心訓(xùn)練、具備良好規(guī)劃能力的AI模型,完全可以在復(fù)雜任務(wù)中表現(xiàn)出色,甚至超越那些規(guī)模更大但訓(xùn)練方式粗放的模型。

這個(gè)發(fā)現(xiàn)對(duì)普通用戶來(lái)說(shuō)也是個(gè)好消息。它意味著我們不必完全依賴昂貴的商業(yè)AI服務(wù),開(kāi)源模型同樣可以成為強(qiáng)大的數(shù)據(jù)分析助手。隨著這類研究的深入和方法的普及,我們有理由期待一個(gè)更加開(kāi)放、更加普惠的AI時(shí)代的到來(lái)。

對(duì)于那些對(duì)技術(shù)細(xì)節(jié)感興趣的讀者,建議直接查閱原論文以獲得更深入的理解。這項(xiàng)研究不僅在技術(shù)方法上有所創(chuàng)新,在實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析方面也展現(xiàn)了嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,值得進(jìn)一步學(xué)習(xí)和探討。

Q&A

Q1:開(kāi)源AI模型在數(shù)據(jù)分析上為什么表現(xiàn)不如商業(yè)模型? A:主要原因是缺乏強(qiáng)大的戰(zhàn)略規(guī)劃能力。數(shù)據(jù)分析需要AI同時(shí)具備數(shù)據(jù)理解、代碼生成和戰(zhàn)略規(guī)劃三種能力,其中戰(zhàn)略規(guī)劃是最關(guān)鍵的,它決定了AI能否有效組織整個(gè)分析流程,而開(kāi)源模型在這方面相對(duì)薄弱。

Q2:這個(gè)研究發(fā)現(xiàn)的改進(jìn)方法真的有效嗎? A:非常有效。研究團(tuán)隊(duì)通過(guò)精心設(shè)計(jì)的三步法優(yōu)化訓(xùn)練數(shù)據(jù),讓7B參數(shù)的開(kāi)源模型性能大幅提升,14B模型甚至能夠媲美GPT-4。關(guān)鍵在于使用高質(zhì)量的訓(xùn)練數(shù)據(jù)和合適的交互策略,而不是簡(jiǎn)單地增加數(shù)據(jù)量。

Q3:普通用戶能從這個(gè)研究中獲得什么好處? A:這意味著將來(lái)我們可能不需要完全依賴昂貴的商業(yè)AI服務(wù)來(lái)進(jìn)行數(shù)據(jù)分析。經(jīng)過(guò)優(yōu)化的開(kāi)源模型可以成為強(qiáng)大且免費(fèi)的分析工具,讓更多人能夠享受到高質(zhì)量的AI數(shù)據(jù)分析服務(wù),推動(dòng)AI技術(shù)的普及和民主化。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-