如果你曾經(jīng)試著和ChatGPT這樣的AI助手溝通,可能會(huì)發(fā)現(xiàn)一個(gè)有趣現(xiàn)象:同樣的問題,用不同方式表達(dá),AI的回答質(zhì)量可能天差地別。就像和一個(gè)外國朋友交流,你說話的方式、用詞的順序,甚至標(biāo)點(diǎn)符號(hào)的位置,都可能影響對(duì)方的理解程度。
這篇由微軟研究院的張雨格、陳楠、許嘉航、楊雨晴等研究人員共同完成的論文,發(fā)表于2025年4月的arXiv平臺(tái)上(論文編號(hào):arXiv:2508.13948v1 [cs.HC]),就專門研究了這個(gè)令人頭疼的問題。有興趣深入了解的讀者可以通過https://arxiv.org/abs/2508.13948訪問完整論文。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)在的AI對(duì)話就像是在沒有統(tǒng)一格式的情況下填寫復(fù)雜表格。有時(shí)候你需要讓AI處理一個(gè)Excel表格的數(shù)據(jù),有時(shí)候需要它閱讀PDF文檔,有時(shí)候還要它同時(shí)看圖片和文字。但問題是,每次你都得手動(dòng)把這些材料"喂"給AI,而且稍微改變一下表達(dá)方式,AI的理解就可能出現(xiàn)偏差。
為了解決這個(gè)問題,微軟研究團(tuán)隊(duì)開發(fā)了一套名為POML(Prompt Orchestration Markup Language,提示編排標(biāo)記語言)的全新系統(tǒng)。簡單來說,這就像是為和AI對(duì)話制作了一套標(biāo)準(zhǔn)化的"填空模板"。就好比你去銀行辦事時(shí)填寫的標(biāo)準(zhǔn)表格,每個(gè)信息都有固定的位置和格式,不會(huì)因?yàn)槟愕淖謱懙闷吝€是難看而影響銀行工作人員的理解。
POML的核心思想就是把和AI的對(duì)話變成一種結(jié)構(gòu)化的"配方"。當(dāng)你想讓AI分析一份市場報(bào)告時(shí),不用再費(fèi)心思考該怎么描述這個(gè)任務(wù),而是直接使用預(yù)設(shè)的模板:告訴AI它現(xiàn)在的"角色"是數(shù)據(jù)分析師,"任務(wù)"是分析市場趨勢(shì),然后把PDF文檔、Excel表格等材料按照標(biāo)準(zhǔn)格式"裝"進(jìn)去就行。
這套系統(tǒng)最巧妙的地方在于,它把內(nèi)容和樣式完全分開了。打個(gè)比方,這就像Word文檔的樣式功能:你寫好文章內(nèi)容后,可以隨時(shí)切換不同的格式樣式,讓同一篇文章看起來像正式報(bào)告、商務(wù)信件或者學(xué)術(shù)論文。POML也是如此,同樣的對(duì)話內(nèi)容可以根據(jù)不同AI模型的"喜好"調(diào)整格式,確保每個(gè)AI都能最好地理解你的意圖。
研究團(tuán)隊(duì)不僅開發(fā)了這套語言系統(tǒng),還為程序員們制作了配套的開發(fā)工具。就像現(xiàn)在的代碼編輯器會(huì)自動(dòng)提示語法錯(cuò)誤、補(bǔ)全代碼一樣,POML也有自己的智能編輯環(huán)境,能實(shí)時(shí)預(yù)覽效果、檢查錯(cuò)誤,甚至直接測(cè)試AI的響應(yīng)結(jié)果。
為了驗(yàn)證POML的實(shí)用性,研究團(tuán)隊(duì)進(jìn)行了兩個(gè)有趣的實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)開發(fā)了一個(gè)名為PomLink的iPhone應(yīng)用原型,這個(gè)應(yīng)用能讓用戶輕松地把各種文件(文檔、圖片、表格等)"喂給"AI,然后進(jìn)行對(duì)話。令人驚訝的是,使用POML開發(fā)這樣一個(gè)復(fù)雜應(yīng)用竟然只用了兩天時(shí)間,而且大部分時(shí)間還是花在界面設(shè)計(jì)上,真正的AI對(duì)話邏輯編寫非常簡單。
第二個(gè)實(shí)驗(yàn)更是揭示了一個(gè)令人震驚的發(fā)現(xiàn):同樣的問題,僅僅是改變一下格式和表達(dá)方式,不同AI模型的準(zhǔn)確率差異竟然能達(dá)到驚人的程度。比如GPT-3.5-Turbo在某種格式下的準(zhǔn)確率只有6%,但換個(gè)格式就能達(dá)到61.8%,提升了整整9倍多。這就好比同一道數(shù)學(xué)題,用不同方式提問,有的學(xué)生完全不會(huì)做,有的卻能輕松解答。
通過對(duì)8個(gè)不同AI模型進(jìn)行10萬次測(cè)試,研究團(tuán)隊(duì)發(fā)現(xiàn)每個(gè)AI都有自己獨(dú)特的"理解偏好"。有些AI喜歡看到數(shù)據(jù)用CSV格式呈現(xiàn),有些則偏愛HTML表格,還有些對(duì)JSON格式情有獨(dú)鐘。POML系統(tǒng)能夠自動(dòng)識(shí)別這些偏好,為每個(gè)AI"量身定制"最適合的對(duì)話格式。
更有趣的是,研究團(tuán)隊(duì)還邀請(qǐng)了7位不同背景的志愿者來測(cè)試POML的易用性。這些志愿者包括軟件工程師、研究人員和學(xué)生,他們對(duì)AI應(yīng)用開發(fā)的經(jīng)驗(yàn)各不相同。測(cè)試結(jié)果顯示,即使是沒有相關(guān)經(jīng)驗(yàn)的新手,也能在很短時(shí)間內(nèi)學(xué)會(huì)使用POML創(chuàng)建復(fù)雜的AI對(duì)話場景。
志愿者們對(duì)POML最贊賞的功能是它處理各種文件格式的能力。一位測(cè)試者表示:"以前想讓AI讀取PDF文檔或Excel表格簡直是噩夢(mèng),現(xiàn)在就像插入一張圖片一樣簡單。"另一位測(cè)試者則對(duì)實(shí)時(shí)預(yù)覽功能贊不絕口:"我可以立刻看到AI會(huì)收到什么樣的信息,不用反復(fù)試錯(cuò)了。"
當(dāng)然,POML也不是完美無缺的。一些志愿者反映,對(duì)于非常簡單的對(duì)話,使用POML可能有點(diǎn)"大材小用"的感覺,就像用專業(yè)相機(jī)拍個(gè)朋友圈照片一樣。此外,系統(tǒng)在處理超大文檔時(shí)偶爾會(huì)出現(xiàn)性能問題,需要等待較長時(shí)間。
從技術(shù)角度來看,POML采用了類似網(wǎng)頁開發(fā)的三層結(jié)構(gòu):內(nèi)容層負(fù)責(zé)定義對(duì)話的邏輯結(jié)構(gòu),樣式層控制格式呈現(xiàn),工具層提供開發(fā)支持。這種設(shè)計(jì)讓整個(gè)系統(tǒng)既靈活又穩(wěn)定,程序員可以像搭積木一樣組合不同功能,而不用擔(dān)心牽一發(fā)而動(dòng)全身。
研究團(tuán)隊(duì)在論文中坦承,POML目前還處于起步階段,有很多可以改進(jìn)的地方。比如對(duì)殘障人士的無障礙支持還不夠完善,需要更好的屏幕閱讀器兼容性。同時(shí),他們也承認(rèn)測(cè)試規(guī)模相對(duì)有限,需要更多真實(shí)場景下的驗(yàn)證。
但這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)本身。隨著AI助手在我們生活中扮演越來越重要的角色,如何更好地與它們交流成為了一個(gè)迫切需要解決的問題。POML提供了一種標(biāo)準(zhǔn)化的解決方案,讓普通人也能像專家一樣與AI進(jìn)行高效對(duì)話。
展望未來,研究團(tuán)隊(duì)計(jì)劃將POML開源,讓更多開發(fā)者能夠使用和改進(jìn)這套系統(tǒng)。他們還設(shè)想POML能夠應(yīng)用到更廣泛的領(lǐng)域,比如教育工具、企業(yè)應(yīng)用,甚至成為AI系統(tǒng)之間相互交流的通用語言。
說到底,POML就是在AI時(shí)代為人類提供了一套更好的"說話方式"。就像我們學(xué)會(huì)了使用搜索引擎的技巧一樣,掌握了與AI高效溝通的方法,我們就能更好地利用這些強(qiáng)大的工具來解決實(shí)際問題。這項(xiàng)研究為我們打開了一扇新的大門,讓我們看到了人機(jī)交流的新可能。
Q&A
Q1:POML是什么?它能解決什么問題?
A:POML是微軟研究院開發(fā)的一套標(biāo)準(zhǔn)化AI對(duì)話語言,就像給AI制作了統(tǒng)一的"填空模板"。它主要解決現(xiàn)在與AI對(duì)話時(shí)格式混亂、效果不穩(wěn)定的問題,讓用戶能更高效地與AI交流,特別是處理復(fù)雜任務(wù)時(shí)。
Q2:使用POML需要編程基礎(chǔ)嗎?
A:不需要很強(qiáng)的編程基礎(chǔ)。研究團(tuán)隊(duì)的測(cè)試顯示,即使是沒有AI開發(fā)經(jīng)驗(yàn)的新手也能快速上手。POML采用了類似HTML的簡單標(biāo)記語言,配有智能編輯器提供實(shí)時(shí)幫助和錯(cuò)誤檢查。
Q3:POML對(duì)不同AI模型的效果真的差別很大嗎?
A:是的,研究發(fā)現(xiàn)同一個(gè)問題用不同格式表達(dá),AI的準(zhǔn)確率差異可以達(dá)到9倍以上。每個(gè)AI都有自己的"理解偏好",POML能自動(dòng)適配這些偏好,確保每個(gè)AI都能發(fā)揮最佳性能。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。