在人工智能和機(jī)器人領(lǐng)域,讓機(jī)器理解人類(lèi)的自然語(yǔ)言指令一直是一個(gè)巨大挑戰(zhàn)。想象一下,你對(duì)家里的廚房機(jī)器人說(shuō):"幫我把蛋糕放在盤(pán)子上。"如果廚房里有多個(gè)盤(pán)子,機(jī)器人應(yīng)該如何選擇?它應(yīng)該主動(dòng)詢(xún)問(wèn)你想用哪個(gè)盤(pán)子,還是自己做決定?這種情況就是我們所說(shuō)的"指令歧義"問(wèn)題。
2025年6月,莫斯科物理技術(shù)學(xué)院(MIPT)和人工智能研究所(AIRI)的研究團(tuán)隊(duì),包括Anastasiia Ivanova、Eva Bakaeva、Zoya Volovikova、Alexey K. Kovalev和Aleksandr I. Panov,在arXiv上發(fā)表了一篇題為"AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment"的研究論文(arXiv:2506.04089v1),專(zhuān)門(mén)解決這一問(wèn)題。這項(xiàng)研究為大型語(yǔ)言模型(LLM)在理解模糊指令方面的能力評(píng)估提供了一個(gè)全新的標(biāo)準(zhǔn)。
近年來(lái),大型語(yǔ)言模型(如GPT系列、Llama等)已經(jīng)展現(xiàn)出了優(yōu)秀的指令理解能力,可以幫助機(jī)器人規(guī)劃完成各種任務(wù)。然而,當(dāng)我們的指令不夠明確時(shí),這些模型往往會(huì)遇到困難。比如,當(dāng)我們說(shuō)"把水燒開(kāi)"時(shí),機(jī)器人應(yīng)該用水壺還是微波爐?當(dāng)我們說(shuō)"切點(diǎn)水果"時(shí),應(yīng)該切哪些水果?應(yīng)該切多大的塊?這些看似簡(jiǎn)單的問(wèn)題,對(duì)于人類(lèi)來(lái)說(shuō)可能很容易通過(guò)常識(shí)或經(jīng)驗(yàn)來(lái)解決,但對(duì)于機(jī)器人來(lái)說(shuō)卻可能變成嚴(yán)重的障礙。
雖然已經(jīng)有一些研究團(tuán)隊(duì)開(kāi)發(fā)了詢(xún)問(wèn)用戶(hù)反饋的方法,但這些方法通常針對(duì)的是問(wèn)答任務(wù),而不是實(shí)體代理(即具有物理形態(tài)的機(jī)器人)所面臨的特殊挑戰(zhàn)。實(shí)體代理與純虛擬的聊天機(jī)器人相比,需要在物理世界中運(yùn)作,考慮安全性、物體意識(shí)和交互適應(yīng)性等因素。
為了推動(dòng)這一領(lǐng)域的研究,我們需要專(zhuān)門(mén)的數(shù)據(jù)集來(lái)評(píng)估和比較不同的方法。雖然已經(jīng)存在一些包含歧義任務(wù)的數(shù)據(jù)集,如DialFred和TEACh,但它們?nèi)狈?zhuān)門(mén)支持歧義檢測(cè)研究的充分注釋。而KnowNo數(shù)據(jù)集雖然是純文本的,但其中的歧義任務(wù)只占很小一部分(170個(gè)樣本),且沒(méi)有提供解決歧義的問(wèn)題或提示。
因此,MIPT和AIRI的研究團(tuán)隊(duì)創(chuàng)建了AmbiK(Ambiguous Tasks in Kitchen Environment),這是一個(gè)完全基于文本的英語(yǔ)數(shù)據(jù)集,專(zhuān)門(mén)用于檢測(cè)和處理廚房環(huán)境中的歧義指令。AmbiK包含1000對(duì)任務(wù)(共2000個(gè)任務(wù)),每對(duì)包含一個(gè)歧義指令和一個(gè)無(wú)歧義的對(duì)應(yīng)版本,以及環(huán)境描述、澄清問(wèn)題和答案、用戶(hù)意圖和任務(wù)計(jì)劃。
AmbiK的獨(dú)特之處在于它根據(jù)解決歧義所需的知識(shí)類(lèi)型將歧義任務(wù)分為三類(lèi):
首先是"偏好類(lèi)"(Human Preferences),這類(lèi)歧義涉及用戶(hù)的個(gè)人偏好,例如"請(qǐng)把牛奶倒入杯子里",當(dāng)環(huán)境中有多個(gè)杯子時(shí),機(jī)器人需要詢(xún)問(wèn)用戶(hù)想要使用哪個(gè)杯子。對(duì)于這類(lèi)歧義,一個(gè)優(yōu)秀的模型應(yīng)該總是詢(xún)問(wèn)用戶(hù),因?yàn)槿祟?lèi)的偏好是變化多端且不可預(yù)測(cè)的。
其次是"常識(shí)知識(shí)類(lèi)"(Common Sense Knowledge),這類(lèi)歧義需要常識(shí)知識(shí)來(lái)解決,例如"請(qǐng)烤面包",機(jī)器人需要知道烤面包通常使用烤面包機(jī)而不是烤箱或微波爐。對(duì)于這類(lèi)歧義,模型應(yīng)該限制其提問(wèn)頻率,只在真正必要時(shí)才詢(xún)問(wèn)。
第三類(lèi)是"安全類(lèi)"(Safety),涉及安全規(guī)則的知識(shí),例如"請(qǐng)加熱水牛城雞翅",機(jī)器人需要知道應(yīng)該使用微波安全的盤(pán)子。與常識(shí)知識(shí)類(lèi)似,模型應(yīng)該只在必要時(shí)詢(xún)問(wèn),但由于安全問(wèn)題的嚴(yán)重性,詢(xún)問(wèn)明顯的安全問(wèn)題比詢(xún)問(wèn)常識(shí)問(wèn)題更可接受。
研究團(tuán)隊(duì)對(duì)AmbiK數(shù)據(jù)集進(jìn)行了詳細(xì)的統(tǒng)計(jì)分析,發(fā)現(xiàn)其中42%的任務(wù)對(duì)屬于偏好類(lèi),42.5%屬于常識(shí)知識(shí)類(lèi),15.5%屬于安全類(lèi)。AmbiK的任務(wù)在語(yǔ)言上非常豐富多樣,非重復(fù)詞匯占比較低,表明任務(wù)復(fù)雜度高。平均來(lái)說(shuō),無(wú)歧義任務(wù)包含26.21個(gè)單詞,而歧義任務(wù)包含21.23個(gè)單詞。
為了創(chuàng)建這個(gè)數(shù)據(jù)集,研究團(tuán)隊(duì)首先手動(dòng)創(chuàng)建了一個(gè)包含750多種廚房物品和食物的列表,按照物品相似性分組。然后隨機(jī)抽樣構(gòu)建了1000個(gè)廚房環(huán)境,每個(gè)環(huán)境從2-5個(gè)食物組和2-5個(gè)廚房物品組中抽取至少3個(gè)物品?;A(chǔ)廚房設(shè)備如冰箱、烤箱、廚房桌子、微波爐、洗碗機(jī)、水槽和茶壺在每個(gè)環(huán)境中都存在。然后,研究團(tuán)隊(duì)使用Mistral模型生成無(wú)歧義任務(wù),并使用ChatGPT為每個(gè)無(wú)歧義任務(wù)生成對(duì)應(yīng)的歧義版本以及問(wèn)答對(duì)。最后,團(tuán)隊(duì)根據(jù)專(zhuān)門(mén)創(chuàng)建的注釋指南對(duì)所有答案進(jìn)行人工審核,三位團(tuán)隊(duì)成員的注釋一致性超過(guò)95%。
為了驗(yàn)證AmbiK數(shù)據(jù)集的實(shí)用性,研究團(tuán)隊(duì)對(duì)三種基于混淆預(yù)測(cè)(Conformal Prediction, CP)的方法(KnowNo、LAP和LofreeCP)和兩種基準(zhǔn)方法(Binary和No Help)進(jìn)行了評(píng)估。實(shí)驗(yàn)在四種LLM上進(jìn)行:GPT-3.5、GPT-4、Llama-2-7B和Llama-3-8B。
結(jié)果顯示,所有測(cè)試的方法在AmbiK上表現(xiàn)都不佳,表明AmbiK確實(shí)提出了嚴(yán)峻的挑戰(zhàn)。No Help方法表現(xiàn)最差,僅依賴(lài)模型的最高置信度預(yù)測(cè)是不夠的。沒(méi)有任何方法的集合大小正確率(SSC)達(dá)到20%,表明CP集合與實(shí)際歧義集合不一致。此外,大多數(shù)情況下,機(jī)器人要么從不請(qǐng)求幫助,要么總是請(qǐng)求幫助,表明它們無(wú)法有效處理歧義。令人驚訝的是,簡(jiǎn)單的Binary方法在大多數(shù)情況下產(chǎn)生的預(yù)測(cè)集比基于CP的方法更準(zhǔn)確。
研究團(tuán)隊(duì)還發(fā)現(xiàn),不依賴(lài)模型內(nèi)部信息的方法(Binary和LofreeCP)表現(xiàn)優(yōu)于基于logit的方法,這支持了之前的觀察,即模型logit通常校準(zhǔn)不良并導(dǎo)致性能下降。此外,大多數(shù)方法很少觸發(fā)人類(lèi)干預(yù),這可能是因?yàn)槟P停ㄌ貏e是GPT)給予最高置信度選項(xiàng)的分?jǐn)?shù)遠(yuǎn)高于其他選項(xiàng),導(dǎo)致CP集合通常只包含一個(gè)選項(xiàng)。
研究團(tuán)隊(duì)進(jìn)一步驗(yàn)證了將相同的方法應(yīng)用于KnowNo數(shù)據(jù)集的表現(xiàn)。結(jié)果表明,所有方法在KnowNo上的表現(xiàn)都優(yōu)于在更復(fù)雜的AmbiK上的表現(xiàn),這證實(shí)了創(chuàng)建更具挑戰(zhàn)性的基準(zhǔn)的必要性。
此外,研究團(tuán)隊(duì)還比較了向LLM提供完整計(jì)劃上下文與僅提供單一操作的效果。結(jié)果表明,提供先前操作可能對(duì)基于CP的方法有益,可能是因?yàn)長(zhǎng)LM獲得了更多上下文。
總的來(lái)說(shuō),AmbiK數(shù)據(jù)集提供了一個(gè)全新的、高質(zhì)量的標(biāo)準(zhǔn),用于評(píng)估大型語(yǔ)言模型在處理廚房環(huán)境中歧義指令的能力。盡管最先進(jìn)的方法在AmbiK上面臨挑戰(zhàn),但這正是推動(dòng)研究進(jìn)步的機(jī)會(huì)。通過(guò)AmbiK,研究人員可以更好地理解模型的局限性,并開(kāi)發(fā)更強(qiáng)大的方法來(lái)處理實(shí)際應(yīng)用中的歧義情況。未來(lái)的研究可以探索更多的家庭任務(wù)和環(huán)境,使數(shù)據(jù)集更加多樣化,同時(shí)也可以考慮文化和語(yǔ)言的變異性。
這項(xiàng)研究的數(shù)據(jù)集和所有實(shí)驗(yàn)代碼都已在GitHub上公開(kāi)發(fā)布(https://github.com/cog-model/AmbiK-dataset),歡迎感興趣的研究者進(jìn)一步探索和使用。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開(kāi)發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺(jué)解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺(jué)語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺(jué)信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。