av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 材料科學(xué)也有"翻譯問題"?韓國科學(xué)家發(fā)明智能分詞法讓AI更懂材料學(xué)

材料科學(xué)也有"翻譯問題"?韓國科學(xué)家發(fā)明智能分詞法讓AI更懂材料學(xué)

2025-06-20 11:04
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-20 11:04 ? 科技行者

這項(xiàng)由韓國科學(xué)院人工智能系的吳咽琳(Yerim Oh)團(tuán)隊(duì)領(lǐng)導(dǎo)的研究發(fā)表于2025年6月9日的計(jì)算語言學(xué)會議(EMNLP),論文題目為《Incorporating Domain Knowledge into Materials Tokenization》。有興趣深入了解的讀者可以通過arXiv:2506.11115v1訪問完整論文。

想象一下,你正在學(xué)習(xí)一門外語,但老師總是把重要的單詞拆得七零八落。比如"germanium"(鍺元素)被拆成了"german"(德國的)和"-ium"(后綴),這樣你怎么可能理解這個(gè)詞的真正含義?這正是目前人工智能在處理材料科學(xué)文獻(xiàn)時(shí)面臨的尷尬問題。

當(dāng)我們讓AI閱讀材料科學(xué)論文時(shí),就像讓一個(gè)外國人用錯(cuò)誤的字典來理解中文一樣。AI需要先把文字切分成小塊(就像把句子拆成詞語),這個(gè)過程叫做"分詞"。但現(xiàn)有的分詞方法原本是為普通文章設(shè)計(jì)的,它們只認(rèn)識高頻常見詞,對材料科學(xué)中那些專業(yè)而重要的術(shù)語卻視而不見。結(jié)果就是,"鍺"這個(gè)重要的化學(xué)元素被AI理解成了"德國的某種東西",完全南轅北轍。

韓國科學(xué)院的研究團(tuán)隊(duì)注意到了這個(gè)讓人頭疼的問題。他們發(fā)現(xiàn),在材料科學(xué)文獻(xiàn)中,真正重要的材料概念—比如化學(xué)元素名稱、分子式、材料名稱—往往出現(xiàn)頻率很低,而一些無關(guān)緊要的常用詞卻占據(jù)了AI詞匯表的大部分位置。這就像一本專業(yè)詞典里,"的"、"了"、"嗎"占了一半篇幅,而"硅"、"鈦"、"碳納米管"這些關(guān)鍵詞卻被擠到了角落里。

為了解決這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一套名為MATTER的智能分詞系統(tǒng)。這套系統(tǒng)就像一個(gè)既懂語言學(xué)又懂材料學(xué)的專業(yè)翻譯,它能夠識別出哪些詞匯對材料科學(xué)真正重要,然后在分詞時(shí)特別保護(hù)這些詞匯,確保它們不被胡亂拆解。

MATTER系統(tǒng)的工作原理可以用"智能圖書管理員"來比喻。普通的圖書管理員只會按照書的厚薄來分類,厚書放一邊,薄書放另一邊。但MATTER就像一個(gè)既懂圖書分類學(xué)又是各學(xué)科專家的超級管理員,它能識別出哪些書雖然薄但很重要(比如愛因斯坦的相對論),哪些書雖然厚但只是充數(shù)(比如某些冗長的小說),然后給重要的書更好的位置和保護(hù)。

這個(gè)系統(tǒng)的核心是一個(gè)叫做MatDetector的"材料概念偵探"。研究團(tuán)隊(duì)訓(xùn)練了這個(gè)偵探,讓它能夠從浩如煙海的科學(xué)文獻(xiàn)中精準(zhǔn)識別出材料科學(xué)相關(guān)的概念。他們首先從PubChem數(shù)據(jù)庫(一個(gè)巨大的化學(xué)物質(zhì)信息庫)中提取了8萬個(gè)材料相關(guān)概念,包括化學(xué)名稱、IUPAC標(biāo)準(zhǔn)名稱、同義詞和分子式。然后,他們用這些概念作為關(guān)鍵詞,從學(xué)術(shù)搜索引擎Semantic Scholar中收集了大約4.2萬篇科學(xué)論文。

但收集數(shù)據(jù)只是第一步,更重要的是要訓(xùn)練MatDetector學(xué)會識別這些概念。研究團(tuán)隊(duì)深知現(xiàn)實(shí)世界的材料文獻(xiàn)往往充滿了各種錯(cuò)誤和不規(guī)范—OCR掃描錯(cuò)誤、格式不一致、特殊符號問題等等。為了讓MatDetector更加健壯,他們特意制造了各種"噪音"數(shù)據(jù)來訓(xùn)練它,就像讓一個(gè)偵探在嘈雜的環(huán)境中練習(xí)辨音一樣。

經(jīng)過訓(xùn)練的MatDetector不僅能識別材料概念,還能給每個(gè)概念打分,表示它與材料科學(xué)的相關(guān)程度。分?jǐn)?shù)越高,說明這個(gè)概念對材料科學(xué)越重要。比如"germanium"會得到很高的分?jǐn)?shù),而"german"則會得到很低的分?jǐn)?shù)。

有了這個(gè)評分系統(tǒng),MATTER就能在分詞時(shí)做出明智的決策。傳統(tǒng)的分詞方法就像一個(gè)只會數(shù)錢的商人,哪個(gè)詞出現(xiàn)次數(shù)多就優(yōu)先保護(hù)哪個(gè)。但MATTER更像一個(gè)既會數(shù)錢又懂行情的投資專家,它會綜合考慮詞匯的出現(xiàn)頻率和專業(yè)重要性。即使某個(gè)材料概念出現(xiàn)次數(shù)不多,但只要它對材料科學(xué)很重要,MATTER就會想辦法保護(hù)它不被拆散。

具體來說,MATTER使用了一個(gè)巧妙的重新排序策略。它會根據(jù)MatDetector的評分來調(diào)整詞匯的"虛擬頻率"。對于重要的材料概念,即使它們在文章中出現(xiàn)次數(shù)不多,MATTER也會人為地提高它們的重要性權(quán)重,確保在構(gòu)建詞匯表時(shí)這些概念能夠獲得完整保留。這個(gè)過程就像給重要但不太知名的演員分配更好的戲份和更顯眼的位置一樣。

為了驗(yàn)證MATTER的效果,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)。他們比較了MATTER與其他幾種主流分詞方法的表現(xiàn),包括廣泛使用的BPE(字節(jié)對編碼)、WordPiece、以及較新的SAGE和PickyBPE方法。實(shí)驗(yàn)覆蓋了材料科學(xué)領(lǐng)域的多種任務(wù),既有文本生成任務(wù),也有分類任務(wù)。

在文本生成任務(wù)中,MATTER表現(xiàn)出了明顯的優(yōu)勢。這些任務(wù)包括命名實(shí)體識別(識別文本中的材料名稱)、關(guān)系分類(理解不同材料概念之間的關(guān)系)、事件論元抽?。ㄌ崛〔牧虾铣蛇^程中的關(guān)鍵信息)等等。平均而言,MATTER在這些任務(wù)上比其他方法提高了4%的性能。雖然4%聽起來不多,但在AI領(lǐng)域,這已經(jīng)是相當(dāng)可觀的提升了,就像百米賽跑中提高0.1秒一樣珍貴。

在分類任務(wù)中,MATTER同樣表現(xiàn)不俗,平均提升了2%的性能。這些任務(wù)包括對材料科學(xué)論文段落的分類、對具體材料屬性的識別等等。更重要的是,研究團(tuán)隊(duì)通過嚴(yán)格的統(tǒng)計(jì)檢驗(yàn)證實(shí),這些提升不是偶然現(xiàn)象,而是MATTER方法帶來的真實(shí)改進(jìn)。

研究團(tuán)隊(duì)還進(jìn)行了一個(gè)特別有趣的實(shí)驗(yàn)—材料概念的形態(tài)學(xué)分割。簡單來說,就是測試MATTER是否真的能把材料概念切分得更合理。他們使用了SIGMORPHON 2022形態(tài)學(xué)分割數(shù)據(jù)集中的材料相關(guān)部分,發(fā)現(xiàn)MATTER的分割準(zhǔn)確率比其他方法平均提高了18.6%。這意味著MATTER確實(shí)學(xué)會了以更符合材料科學(xué)邏輯的方式來理解和分割概念。

除了性能提升,研究團(tuán)隊(duì)還分析了MATTER構(gòu)建的詞匯表的質(zhì)量。他們發(fā)現(xiàn),MATTER的詞匯表中包含了更多完整的材料概念,而且這些概念在詞匯表中占據(jù)了更重要的位置。通過詞嵌入分析(一種衡量詞匯語義相似性的技術(shù)),他們發(fā)現(xiàn)MATTER學(xué)到的材料概念表示更加準(zhǔn)確和合理。比如,"germanium"的最相似詞匯不再是無關(guān)的"german"或"segregation",而是化學(xué)上相關(guān)的"dithiocarbamate"(二硫代氨基甲酸鹽)和"ammonium"(銨)等概念。

更令人印象深刻的是,研究團(tuán)隊(duì)發(fā)現(xiàn)MATTER學(xué)到的詞嵌入捕捉了豐富的化學(xué)知識。比如,PbI2(碘化鉛)和PbF2(氟化鉛)在MATTER的表示中非常相似,這是合理的,因?yàn)樗鼈兌紝儆阢U鹵化物家族。類似地,LFP(磷酸鐵鋰)和ZrF7(氟化鋯)也表現(xiàn)出相似性,因?yàn)樗鼈冊谀茉磧Υ婧蛡鞲袘?yīng)用中都有重要作用。這表明MATTER不僅僅是在表面上保護(hù)材料概念,而是真正理解了它們的化學(xué)含義和關(guān)系。

研究團(tuán)隊(duì)還驗(yàn)證了MatDetector相對于現(xiàn)有工具的優(yōu)勢。他們將MatDetector與廣泛使用的ChemDataExtractor進(jìn)行了比較。ChemDataExtractor是材料科學(xué)界常用的概念提取工具,但它最初是為生物醫(yī)學(xué)文獻(xiàn)訓(xùn)練的,在材料科學(xué)文獻(xiàn)上的表現(xiàn)不夠理想。實(shí)驗(yàn)結(jié)果顯示,MatDetector的準(zhǔn)確率、召回率和F1分?jǐn)?shù)都明顯優(yōu)于ChemDataExtractor。具體來說,MatDetector的F1分?jǐn)?shù)達(dá)到了63%,而ChemDataExtractor只有27%,提升幅度超過一倍。

為了進(jìn)一步驗(yàn)證MATTER的通用性,研究團(tuán)隊(duì)還在材料科學(xué)問答任務(wù)上進(jìn)行了測試。他們使用了MaScQA數(shù)據(jù)集,這是一個(gè)專門針對材料科學(xué)知識問答的基準(zhǔn)。無論是使用解碼器模型(如Llama)還是編碼器-解碼器模型(如基于BERT的架構(gòu)),MATTER都取得了最佳性能。這說明MATTER的改進(jìn)不局限于特定的模型架構(gòu)或任務(wù)類型。

在深入分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)MATTER的成功主要來源于三個(gè)方面。首先,MatDetector的準(zhǔn)確性至關(guān)重要。當(dāng)他們用性能較差的ChemDataExtractor替代MatDetector時(shí),雖然仍有改進(jìn),但幅度明顯減小。這說明準(zhǔn)確識別材料概念是整個(gè)系統(tǒng)的基礎(chǔ)。其次,權(quán)重參數(shù)λ的選擇也很重要。研究團(tuán)隊(duì)發(fā)現(xiàn)λ=1是最優(yōu)選擇,這時(shí)能夠在保護(hù)材料概念和維持語言模型整體性能之間取得最佳平衡。最后,材料領(lǐng)域知識的引入本身就是關(guān)鍵創(chuàng)新,即使用較簡單的方法引入這種知識,也能帶來顯著改進(jìn)。

研究團(tuán)隊(duì)對MATTER方法也有誠實(shí)的反思。他們指出,這種方法仍需要手動調(diào)節(jié)超參數(shù)λ,雖然在實(shí)驗(yàn)中λ=1表現(xiàn)最佳,但對于不同的語料庫或子領(lǐng)域,最優(yōu)值可能有所不同。此外,MATTER依賴于監(jiān)督學(xué)習(xí)的信號(即需要標(biāo)注數(shù)據(jù)來訓(xùn)練MatDetector),這在擴(kuò)展到更大規(guī)?;蚋鄻踊恼Z料庫時(shí)可能帶來挑戰(zhàn)。

盡管存在這些限制,MATTER代表了一個(gè)重要的研究方向。它首次系統(tǒng)性地將領(lǐng)域知識引入到分詞過程中,為科學(xué)文本處理開辟了新的道路。研究結(jié)果表明,簡單地將通用NLP方法應(yīng)用到科學(xué)領(lǐng)域是不夠的,需要針對特定領(lǐng)域的特點(diǎn)進(jìn)行定制和優(yōu)化。

從更廣闊的視角來看,這項(xiàng)研究揭示了一個(gè)重要問題:隨著AI在各個(gè)專業(yè)領(lǐng)域的應(yīng)用越來越深入,我們需要更多領(lǐng)域特定的技術(shù)和方法。材料科學(xué)只是一個(gè)開始,類似的問題可能也存在于化學(xué)、物理、生物學(xué)、醫(yī)學(xué)等其他科學(xué)領(lǐng)域。每個(gè)領(lǐng)域都有自己獨(dú)特的詞匯體系和概念結(jié)構(gòu),都需要專門的處理方法。

MATTER的成功也為未來的研究指明了方向。研究團(tuán)隊(duì)建議,未來可以探索自動化的超參數(shù)選擇方法,減少人工調(diào)節(jié)的需要。同時(shí),可以研究如何將這種領(lǐng)域知識引入方法擴(kuò)展到其他科學(xué)領(lǐng)域,或者開發(fā)更通用的框架來處理不同領(lǐng)域的特殊需求。

此外,隨著大型語言模型在科學(xué)研究中應(yīng)用的不斷擴(kuò)展,如何讓這些模型更好地理解和處理科學(xué)概念將變得越來越重要。MATTER提供的思路—結(jié)合領(lǐng)域?qū)I(yè)知識來改進(jìn)基礎(chǔ)NLP技術(shù)—很可能會成為一個(gè)重要的研究范式。

說到底,MATTER解決的不僅僅是一個(gè)技術(shù)問題,更是如何讓AI真正理解人類專業(yè)知識的問題。就像培養(yǎng)一個(gè)優(yōu)秀的學(xué)生,不能只教他們通用的學(xué)習(xí)方法,還要針對不同學(xué)科的特點(diǎn)進(jìn)行專門指導(dǎo)。MATTER為材料科學(xué)領(lǐng)域的AI應(yīng)用提供了這樣的專門指導(dǎo),讓AI能夠更準(zhǔn)確地理解和處理材料科學(xué)文獻(xiàn)。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。它為加速材料發(fā)現(xiàn)和開發(fā)提供了新的工具。在當(dāng)今快速發(fā)展的科技時(shí)代,新材料的研發(fā)對于解決能源、環(huán)境、健康等全球性挑戰(zhàn)至關(guān)重要。MATTER這樣的工具能夠幫助研究人員更高效地從海量文獻(xiàn)中提取有用信息,發(fā)現(xiàn)新的研究機(jī)會,加速科學(xué)發(fā)現(xiàn)的進(jìn)程。

歸根結(jié)底,這項(xiàng)研究告訴我們,讓AI真正服務(wù)于科學(xué)研究,需要的不僅僅是更強(qiáng)大的計(jì)算能力或更大的數(shù)據(jù)集,更需要深入理解不同學(xué)科的特點(diǎn)和需求。只有將技術(shù)創(chuàng)新與領(lǐng)域?qū)I(yè)知識有機(jī)結(jié)合,我們才能讓AI成為科學(xué)研究的真正助手。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過論文編號arXiv:2506.11115v1查閱完整的研究論文。

Q&A

Q1:MATTER是什么?它能做什么? A:MATTER是韓國科學(xué)院開發(fā)的智能分詞系統(tǒng),專門用于處理材料科學(xué)文獻(xiàn)。它的核心能力是識別和保護(hù)材料科學(xué)中的重要概念(如化學(xué)元素、分子式等),防止AI在理解文本時(shí)把這些重要概念錯(cuò)誤拆分。就像給AI配了一副專業(yè)眼鏡,讓它能正確識別材料科學(xué)術(shù)語。

Q2:為什么需要專門的材料科學(xué)分詞方法? A:因?yàn)閭鹘y(tǒng)的AI分詞方法只認(rèn)識常用詞匯,對材料科學(xué)中重要但不常見的專業(yè)術(shù)語視而不見。比如把"germanium"(鍺元素)錯(cuò)誤拆分成"german"(德國的)和"-ium",完全曲解了原意。這就像用普通字典去理解專業(yè)術(shù)語,必然會出錯(cuò)。

Q3:MATTER的效果如何?有什么實(shí)際應(yīng)用價(jià)值? A:實(shí)驗(yàn)顯示MATTER比現(xiàn)有方法平均提升4%的文本生成性能和2%的分類性能。雖然數(shù)字看起來不大,但在AI領(lǐng)域這已經(jīng)是顯著改進(jìn)。實(shí)際應(yīng)用中,它能幫助研究人員更準(zhǔn)確地從材料科學(xué)文獻(xiàn)中提取信息,加速新材料的發(fā)現(xiàn)和開發(fā)過程。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-