av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 LLM情境調(diào)節(jié)與持續(xù)工作流程提示:革新化學(xué)分子式的多模態(tài)驗證技術(shù)

LLM情境調(diào)節(jié)與持續(xù)工作流程提示:革新化學(xué)分子式的多模態(tài)驗證技術(shù)

2025-05-21 14:36
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-05-21 14:36 ? 科技行者

在科技和學(xué)術(shù)文檔中發(fā)現(xiàn)細(xì)微的技術(shù)錯誤一直是個難題,尤其是那些需要多模態(tài)解讀的內(nèi)容(如圖像中的化學(xué)分子式)。2025年5月18日,來自下諾夫哥羅德洛巴切夫斯基國立大學(xué)的葉夫根尼·馬爾哈辛(Evgeny Markhasin)在他的最新研究中,探索了一種令人振奮的解決方案。這項概念驗證研究發(fā)表在個人學(xué)術(shù)論文中,讀者可通過其ORCID(0000-0002-7419-3605)或LinkedIn主頁了解更多詳情。

馬爾哈辛教授注意到了一個有趣現(xiàn)象:當(dāng)今的大型語言模型(LLM)雖然功能強大,但它們有個與生俱來的"糾錯傾向"。這就像是一個過于熱心的朋友,即使你故意說錯話,他也會自動理解你真正想表達(dá)的意思,而不是指出你的錯誤。這種特性在日常交流中很有用,但在需要嚴(yán)格驗證文檔中的技術(shù)錯誤時,卻成了一個障礙。

想象一下,你請一位專家審核一份重要文件,但這位專家不知不覺地修正了所有錯誤,然后告訴你"一切都很完美"——這顯然不是你想要的結(jié)果!在科學(xué)領(lǐng)域,尤其是化學(xué)公式驗證中,這種問題尤為嚴(yán)重。

為了解決這個問題,馬爾哈辛教授提出了一種巧妙的方法:通過"持續(xù)工作流程提示"(PWP)原則進(jìn)行"LLM情境調(diào)節(jié)"。這聽起來可能有些專業(yè),但其實很像是給AI設(shè)定一個特定的"思維模式",就像教導(dǎo)一個朋友:"今天我需要你戴上'挑錯眼鏡',而不是你平常的'理解眼鏡'。"

這項研究的獨特之處在于,它不需要復(fù)雜的API訪問或模型修改,只利用了通用LLM(如Gemini 2.5 Pro和ChatGPT Plus o3)的標(biāo)準(zhǔn)聊天界面。研究者選擇了一篇包含已知文本和圖像錯誤的復(fù)雜測試論文,并開發(fā)了幾種提示策略來測試這一方法。

最初的簡單提示策略效果不佳,就像是模糊地告訴助手"找找有什么錯誤",結(jié)果并不理想。但當(dāng)研究者使用適應(yīng)PWP結(jié)構(gòu)的方法,嚴(yán)格調(diào)節(jié)LLM的分析思維模式時,情況發(fā)生了顯著變化。這種方法不僅提高了兩種模型識別文本錯誤的能力,更有趣的是,Gemini 2.5 Pro甚至能夠反復(fù)識別出一個之前在人工審閱中被忽略的、隱藏在圖像中的分子式錯誤。相比之下,ChatGPT Plus o3在同樣的測試中則未能發(fā)現(xiàn)這個圖像中的錯誤。

這項研究的初步發(fā)現(xiàn)揭示了阻礙LLM進(jìn)行細(xì)致驗證的特定運行模式,并表明PWP信息的情境調(diào)節(jié)提供了一種有前途且高度易用的技術(shù),用于開發(fā)更強大的LLM驅(qū)動分析工作流程,特別是那些需要在科學(xué)和技術(shù)文檔中進(jìn)行細(xì)致錯誤檢測的任務(wù)。

一、研究背景:為什么我們需要更聰明的AI錯誤檢測?

在科學(xué)研究領(lǐng)域,準(zhǔn)確性至關(guān)重要。想象一下,如果一篇化學(xué)論文中的分子式出現(xiàn)錯誤,可能會導(dǎo)致其他研究人員在此基礎(chǔ)上設(shè)計實驗,結(jié)果耗費大量時間和資源卻一無所獲。這就像是按照錯誤的食譜烘焙一個蛋糕——無論你的廚藝多么精湛,結(jié)果都會令人失望。

傳統(tǒng)上,捕捉這類錯誤依賴于同行評審——專業(yè)人士仔細(xì)閱讀文檔并找出問題。但隨著學(xué)術(shù)出版物數(shù)量的爆炸性增長,這種人工方法變得越來越不可行。這時,人們自然而然地想到:為什么不利用人工智能來幫忙呢?

但這里存在一個微妙的障礙。當(dāng)今的大型語言模型,如谷歌的Gemini和OpenAI的ChatGPT,雖然處理信息能力驚人,但它們的設(shè)計初衷是理解并滿足用戶意圖,而不是吹毛求疵地找錯。這些模型會自動"糾正"或?qū)λ鼈冋J(rèn)為的輸入不完美之處做出合理推斷。這就像是一個過于熱心的助手,不僅會理解你說的話,還會自動修正你的口誤,即使當(dāng)你特意想讓他指出這些口誤時。

舉個簡單例子:如果你問ChatGPT"倫敦是大不列顛的首都嗎?"(雖然正確說法應(yīng)該是"英國"或"聯(lián)合王國"),它很可能直接回答"是的",而不是指出術(shù)語使用不當(dāng)。在日常交流中,這種特性很有用,但在科學(xué)文獻(xiàn)驗證中,卻成了一個明顯的缺點。

馬爾哈辛教授受到了最近一篇預(yù)印本論文的啟發(fā),該論文提出了"持續(xù)工作流程提示"(PWP)作為一種方法,通過專家驅(qū)動、基于提示的引導(dǎo)來指導(dǎo)通用大型語言模型。他決定將這一方法應(yīng)用于一個更具體的挑戰(zhàn):在一篇已知包含文本和圖像錯誤的復(fù)雜測試論文中驗證化學(xué)分子式。

二、研究方法:讓AI戴上"挑錯眼鏡"

研究團(tuán)隊的方法就像是教導(dǎo)一個聰明但過于熱心的助手如何成為一名嚴(yán)格的科學(xué)編輯。他們使用了同一篇包含已知錯誤的測試論文,這篇論文共有44頁,其中隱藏著幾個微妙的化學(xué)分子式錯誤。

具體來說,測試論文的第S-8頁將硫酸亞鐵銨的分子式錯誤地寫成了Fe(NH?)?SO?,漏掉了一個硫酸根。正確的硫酸亞鐵銨(莫爾鹽)分子式應(yīng)該是(NH?)?Fe(SO?)?·6H?O或無水形式(NH?)?Fe(SO?)?。第二個已知錯誤出現(xiàn)在第235頁的圖2(c)中,作為光譜標(biāo)簽的六甲基二硅氧烷被錯誤地標(biāo)記為(CH?)?Si?O,而正確的分子式應(yīng)為((CH?)?Si)?O或(CH?)?Si?O。

這個測試文檔非常理想,因為它既包含了文本形式的錯誤,又包含了圖像中的錯誤,使得研究團(tuán)隊可以測試模型的多模態(tài)分析能力。此外,考慮到測試論文的篇幅(44頁),這也相當(dāng)于在干草堆中尋找針——一個真實世界中的挑戰(zhàn)性任務(wù)。

研究者們嘗試了幾種不同的提示策略:

首先是最基礎(chǔ)的直接提示,就像簡單地告訴助手:"找出化學(xué)分子式和名稱中的錯誤。"這種方法特意提到了名稱,因為名稱通常可以用來解析分子式錯誤。

第二種策略是分解式提示,專注于提取公式與提取名稱的對比??紤]到在化學(xué)交流中,大多數(shù)分子式(可能除了最基本的)都應(yīng)該有相應(yīng)的化學(xué)名稱,研究者設(shè)計了一種策略,引導(dǎo)模型提取每個分子式的化學(xué)名稱,并通過比較這兩者來識別問題。

第三種策略也是分解式的,但采用了不同的錯誤檢測工作流程。它讓模型從提取的分子式生成名稱,再從生成的名稱重新生成分子式,然后比較提取的和生成的分子式來識別潛在錯誤。

最后,也是最復(fù)雜的一種方法,是基于PWP的提示與LLM情境調(diào)節(jié)。這種方法借鑒了先前工作中的情境調(diào)節(jié)原則,通過全面的情境設(shè)置來減輕輸入偏見。研究者們開發(fā)了一個名為"ChemicalFormulasValidationPrompt"的提示,與之前工作中的"PeerReviewPrompt"類似,但專門針對分子式驗證進(jìn)行了調(diào)整。

這種PWP提示的結(jié)構(gòu)非常精心,包含了幾個關(guān)鍵部分:核心目標(biāo)、角色設(shè)定、批判性審查框架等。它還引入了一個專門針對分子式和名稱驗證的"化學(xué)標(biāo)識符分析"子部分,提供了專門的工作流程,包括對文檔(包括文本和圖像)的仔細(xì)掃描,以及對公式和名稱的詳細(xì)錯誤分類。

三、研究發(fā)現(xiàn):有效破解AI的"糾錯習(xí)慣"

研究團(tuán)隊發(fā)現(xiàn),當(dāng)使用基本的直接提示時,結(jié)果不一致且普遍不可靠。雖然基于文本的目標(biāo)錯誤偶爾被識別出來,但響應(yīng)中經(jīng)常包含大量的"幻覺"——AI編造出的不存在的錯誤。有趣的是,這些幻覺往往很具體,且看起來合理,與目標(biāo)文本設(shè)定的背景相匹配。

比如,LLM特別關(guān)注氧原子符號(大寫字母O)在化學(xué)分子式中被錯誤地替換為碳原子符號(大寫字母C)、數(shù)字零,甚至偶爾是鈾符號等問題。雖然這些錯誤在真實文檔中可能會出現(xiàn),但在測試案例中實際上并不存在。

兩種模型還表現(xiàn)出"懶惰"的特點。有時它們會產(chǎn)生大量輸出,充斥著幻覺問題;有時它們聲稱沒有發(fā)現(xiàn)任何問題;有時它們只報告了幾個候選問題。ChatGPT Plus o3甚至在其部分暴露的思考過程中表現(xiàn)出擬人化的抱怨,它推理說"手動"瀏覽整個文件搜索候選公式會"永遠(yuǎn)"耗時,因此需要考慮不同的策略。

通過分析Gemini的"展示思考"日志(一個提供模型處理步驟洞察的功能),研究者發(fā)現(xiàn)了一個一致的模式。使用分解提示時,LLM通常能正確提取目標(biāo)公式(例如,"Fe(NH?)?SO?:硫酸亞鐵銨(莫爾鹽)")。然而,在后續(xù)的驗證步驟中,它有時會錯誤地將這對標(biāo)記為正確。

這種觀察到的行為可能源于LLM的核心優(yōu)勢:它們固有的糾錯能力和在輸入存在輕微不準(zhǔn)確的情況下理解意圖的能力。就像當(dāng)你問"英國的首都是什么?",盡管"英國"的正式名稱是"大不列顛及北愛爾蘭聯(lián)合王國",LLM仍會回答"倫敦",自動糾正了你的不準(zhǔn)確表述。雖然這種特性通常很有用,但當(dāng)目標(biāo)是檢測此類錯誤時,卻成了一個障礙。

這就是情境調(diào)節(jié)發(fā)揮作用的地方。通過"ChemicalFormulasValidationPrompt"(化學(xué)分子式驗證提示)創(chuàng)建的詳細(xì)情境,LLM似乎能夠暫時抑制其糾錯傾向,采取更批判性的分析姿態(tài)。在使用這種PWP基礎(chǔ)的方法進(jìn)行測試時,兩種模型都能一致地識別出基于文本的目標(biāo)錯誤。

更令人驚訝的是,由于明確指示進(jìn)行多模態(tài)分析(特別是分析圖像),Gemini 2.5 Pro模型在多次試驗中,還識別出了之前在人工審查中被忽略的基于圖像的錯誤。這就像是一個非常細(xì)心的助手發(fā)現(xiàn)了一個連專業(yè)人士都漏掉的微小細(xì)節(jié)!相比之下,雖然ChatGPT Plus o3也被宣傳為具有多模態(tài)分析能力,但在這項特定研究中,它未能識別出圖像中的錯誤。

四、Gemini不同接口的表現(xiàn)差異

研究中的一個有趣發(fā)現(xiàn)與Gemini 2.5 Pro模型通過不同Google接口訪問時的表現(xiàn)有關(guān)。雖然公眾可用的Gemini Advanced應(yīng)用程序(通過gemini.google.com)和面向開發(fā)者的Google AI Studio理論上提供對相同底層前沿模型的訪問,且AI Studio提供廣泛的定制選項(盡管本研究中使用了默認(rèn)設(shè)置),但研究者注意到行為上存在質(zhì)的差異。

雖然不是系統(tǒng)性的基準(zhǔn)測試,但觀察性評估表明,通過AI Studio(使用默認(rèn)參數(shù))訪問的Gemini 2.5 Pro模型在本研究的復(fù)雜分析任務(wù)中表現(xiàn)出更一致、更精確的行為,比通過Gemini Advanced應(yīng)用程序訪問的版本更勝一籌。這種感知到的增強性能表現(xiàn)為運行之間可能更大的穩(wěn)定性,更緊密地遵循提示指令和用戶意圖,以及更準(zhǔn)確地提取細(xì)粒度細(xì)節(jié)。

這種差異在有限的多模態(tài)分析測試中尤為明顯。雖然兩個接口都使模型能夠識別測試論文中低分辨率圖像內(nèi)的基于圖像的公式錯誤,但捕獲的細(xì)節(jié)水平各不相同。具體來說,通過Gemini Advanced應(yīng)用程序訪問的Gemini 2.5 Pro模型重復(fù)將圖像中的公式識別為(CH?)?SiO,省略了最后一個下標(biāo)。相比之下,通過AI Studio(默認(rèn)設(shè)置)訪問時,相同的名義模型重復(fù)將有缺陷的公式更準(zhǔn)確地識別為(CH?)?Si?O,正確包含了最后一個下標(biāo)。

這些特定觀察結(jié)果,盡管基于有限的概念驗證,表明訪問接口及其默認(rèn)配置可能會影響LLM在精細(xì)、面向細(xì)節(jié)的任務(wù)上的表現(xiàn)。這一觀察結(jié)果凸顯了研究人員在報告或嘗試復(fù)制使用通過不同平臺訪問的名義相同模型的發(fā)現(xiàn)時的一個實際考慮因素。

五、研究影響與未來展望

這項概念驗證研究的觀察結(jié)果,特別是關(guān)于LLM情境調(diào)節(jié)在管理某些LLM行為(如錯誤抑制和輸入偏見)方面的明顯有效性,指向其在化學(xué)分子式驗證任務(wù)之外的潛在效用。雖然本文的發(fā)現(xiàn)是初步的,并且來自有限的測試范圍,但通過PWP信息技術(shù)引導(dǎo)LLM注意力和操作模式的原則可能對更廣泛的應(yīng)用有所幫助。

例如,類似的方法可能在醫(yī)學(xué)AI領(lǐng)域有價值,用于需要從患者記錄中精細(xì)處理和驗證信息的工作流程,這些工作流程中精確性至關(guān)重要。另一個相關(guān)領(lǐng)域可能是從半結(jié)構(gòu)化或結(jié)構(gòu)不良的來源提取和驗證數(shù)據(jù),這在制藥或技術(shù)文檔中很常見,在這些情況下,鼓勵LLM標(biāo)記差異而不是靜默"糾正"它們可能是非常理想的。

然而,重要的是要重申這項探索性工作中固有的限制。主要限制是依賴單一測試論文評估提示策略。因此,雖然所呈現(xiàn)的"ChemicalFormulasValidationPrompt"在這一特定上下文中看似有效,但沒有更廣泛的測試,這些觀察結(jié)果不能被概括。提示本身,特別是"化學(xué)標(biāo)識符分析"工作流程,仍然是需要進(jìn)一步完善的初步草案。

未來的研究應(yīng)該優(yōu)先在更廣泛的科學(xué)文檔范圍內(nèi)對這些PWP信息情境調(diào)節(jié)方法進(jìn)行嚴(yán)格測試,以定量評估它們的性能和通用性。這項工作還應(yīng)該包括對不同LLM的更系統(tǒng)比較。對提示架構(gòu)的進(jìn)一步完善和對特定調(diào)節(jié)指令如何影響不同LLM行為(例如,錯誤抑制、不一致的努力、幻覺)的更受控調(diào)查也是增強這些技術(shù)在復(fù)雜科學(xué)內(nèi)容分析和驗證中的準(zhǔn)確性和確保更廣泛適用性的基本后續(xù)步驟。

總的來說,雖然這項研究是初步的,基于對使用測試論文的觀察評估,但它為未來發(fā)展提供了有希望的方向,表明相對簡單的情境調(diào)節(jié)可能有助于使通用LLM更適合精細(xì)的驗證任務(wù),而無需復(fù)雜的模型修改或提示工程。

六、結(jié)論:通用AI的未來發(fā)展方向

這項探索性概念驗證研究調(diào)查了基于LLM的復(fù)雜科學(xué)文檔中化學(xué)分子式驗證,使用了一個包含已知錯誤的單一測試案例。觀察表明,更簡單的提示策略對目標(biāo)錯誤產(chǎn)生了不可靠的結(jié)果,通常受到LLM糾錯傾向和不一致分析努力的影響,盡管它們偶爾能識別出其他未針對的問題,如不平衡的化學(xué)方程式,這表明它們在廣泛探索性測試中的潛在效用。相比之下,具有情境調(diào)節(jié)的PWP基礎(chǔ)方法似乎改善了對目標(biāo)錯誤類型的識別。

值得注意的是,盡管多模態(tài)分析指令主要是從先前工作改編而來,沒有專門針對此任務(wù)進(jìn)行優(yōu)化,但PWP信息提示引導(dǎo)Gemini 2.5 Pro重復(fù)識別出圖像中的一個微妙錯誤——這個錯誤先前在人工審查中被忽略。這一發(fā)現(xiàn)突顯了系統(tǒng)性開發(fā)、情境條件提示揭示甚至未針對或意外錯誤的潛力。

這些初步觀察強調(diào)了LLM在面向細(xì)節(jié)的驗證任務(wù)中面臨的顯著挑戰(zhàn),但也表明情境調(diào)節(jié)可能是增強其可靠性的寶貴技術(shù)。盡管相對未經(jīng)優(yōu)化,所呈現(xiàn)的"ChemicalFormulasValidationPrompt"促成了這些初步定性評估。超出這個有限概念驗證范圍的進(jìn)一步研究需要驗證這些發(fā)現(xiàn)并探索此類方法的全部潛力。

對于關(guān)心科學(xué)研究完整性的普通讀者來說,這項研究展示了AI不僅可以創(chuàng)造內(nèi)容,還可以幫助我們更準(zhǔn)確地驗證內(nèi)容,但前提是我們提供正確的指導(dǎo)。就像一個朋友可以幫你檢查文章中的錯誤,但前提是你明確告訴他們要尋找什么,以及如何以批判性的眼光閱讀你的作品。這種方法可能會對科學(xué)出版物中錯誤的減少產(chǎn)生深遠(yuǎn)影響,讓科學(xué)知識更加可靠和值得信賴。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-