近日,來自ServiceNow的研究團(tuán)隊(duì)Orlando Marquez Ayala、Patrice Bechard、Emily Chen、Maggie Baird和Jingfei Chen在2025年5月30日發(fā)表了一篇題為"Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows"的研究論文。這項(xiàng)研究針對(duì)一個(gè)實(shí)際應(yīng)用場景進(jìn)行了深入探索:在生成低代碼工作流程時(shí),到底是微調(diào)小型語言模型更有效,還是直接提示大型語言模型更劃算?隨著大型語言模型(LLM)如GPT-4o等的不斷發(fā)展和每個(gè)token成本的降低,微調(diào)小型語言模型(SLM)的優(yōu)勢似乎變得不那么明顯。那么在實(shí)際應(yīng)用中,這兩種方法哪一種更勝一籌呢?讓我們一起來看看ServiceNow團(tuán)隊(duì)的發(fā)現(xiàn)。
一、研究背景:工作流自動(dòng)化的挑戰(zhàn)
想象一下,你是一家企業(yè)的IT管理員,每天都需要處理大量重復(fù)但復(fù)雜的流程。比如"當(dāng)用戶變?yōu)榉腔钴S狀態(tài)時(shí),找出該用戶負(fù)責(zé)的所有事件工單,并將它們分配給用戶的經(jīng)理"。這看似簡單的任務(wù),實(shí)際上需要系統(tǒng)執(zhí)行多個(gè)步驟:檢測用戶狀態(tài)變化、查找相關(guān)工單、循環(huán)處理每個(gè)工單、更新工單信息等。
在企業(yè)環(huán)境中,這類重復(fù)性任務(wù)通常通過"工作流"來自動(dòng)化處理。雖然現(xiàn)代企業(yè)系統(tǒng)提供了低代碼界面來創(chuàng)建這些工作流,但用戶仍然需要了解系統(tǒng)的專業(yè)知識(shí)。就像你想要使用家庭自動(dòng)化系統(tǒng),即使有圖形界面,你也需要知道哪些設(shè)備可以連接,以及如何設(shè)置它們之間的關(guān)系。
ServiceNow團(tuán)隊(duì)正在開發(fā)一個(gè)名為"Flow Generation"的應(yīng)用,它能根據(jù)用戶的文字需求自動(dòng)生成這些低代碼工作流。這就像是給你一個(gè)智能助手,你只需說"當(dāng)我離家時(shí),關(guān)閉所有燈并鎖上門",它就能自動(dòng)創(chuàng)建完整的家庭自動(dòng)化流程。
但是,創(chuàng)建這樣的工作流面臨著幾個(gè)主要挑戰(zhàn):
首先,每個(gè)系統(tǒng)環(huán)境中可用的步驟各不相同,就像不同品牌的智能家居設(shè)備提供不同功能一樣。用戶甚至可以添加自定義步驟,進(jìn)一步增加了復(fù)雜性。
其次,工作流必須遵循嚴(yán)格的結(jié)構(gòu)規(guī)則,包括條件(如IF語句)和循環(huán)(如FOREACH)等概念,就像編程一樣需要遵循語法規(guī)則。
再者,每個(gè)步驟會(huì)產(chǎn)生特定類型的輸出數(shù)據(jù)(如整數(shù)或布爾值),這些輸出可用于后續(xù)步驟,形成一個(gè)連貫的數(shù)據(jù)流。
最后,步驟的輸入可以引用數(shù)據(jù)庫表、列和值。例如,在查找事件記錄的步驟中,需要匹配事件表中"assigned_to"列的值與觸發(fā)步驟中的用戶記錄值,這就像在Excel中使用VLOOKUP函數(shù)查找相關(guān)數(shù)據(jù)。
二、研究方法:微調(diào)小模型 VS 提示大模型
面對(duì)這樣復(fù)雜的任務(wù),ServiceNow團(tuán)隊(duì)探索了兩種主要方法:直接使用現(xiàn)成的大型語言模型(LLM)通過精心設(shè)計(jì)的提示來生成工作流,或者微調(diào)一個(gè)小型語言模型(SLM)以專門處理這項(xiàng)任務(wù)。
想象一下,這就像是在兩個(gè)選擇之間權(quán)衡:是聘請(qǐng)一位經(jīng)驗(yàn)豐富的通用咨詢顧問(大模型)并向他詳細(xì)解釋你的企業(yè)需求,還是培訓(xùn)一位新員工(小模型)專門處理你公司的特定任務(wù)。通用顧問可能知識(shí)面更廣,但可能需要更多時(shí)間來理解你的具體需求;而經(jīng)過專門培訓(xùn)的員工雖然知識(shí)面不那么廣,但對(duì)你的業(yè)務(wù)流程可能更加熟悉。
研究團(tuán)隊(duì)的方法很直接:他們創(chuàng)建了一個(gè)小型但具有代表性的訓(xùn)練數(shù)據(jù)集,用于微調(diào)Mistral-Nemo-12B-Base模型(這個(gè)模型有120億參數(shù),相比之下,GPT-4o等大模型可能有數(shù)萬億參數(shù))。這就像是給新員工提供一套精心設(shè)計(jì)的培訓(xùn)材料,涵蓋公司的各種典型場景。
為了測試效果,他們標(biāo)注了大約一千個(gè)來自十個(gè)不同領(lǐng)域的工作流(每個(gè)領(lǐng)域約100個(gè))。此外,他們還邀請(qǐng)企業(yè)用戶專家與該工具交互,收集了真實(shí)使用場景生成的數(shù)據(jù)。這相當(dāng)于既準(zhǔn)備了標(biāo)準(zhǔn)測試案例,又進(jìn)行了實(shí)際用戶測試。
在評(píng)估指標(biāo)方面,團(tuán)隊(duì)開發(fā)了一個(gè)名為"Flow Similarity"(FlowSim)的度量標(biāo)準(zhǔn),這是一種樹編輯距離的變體,將工作流表示為樹結(jié)構(gòu)來比較生成結(jié)果與預(yù)期結(jié)果的相似度。想象成比較兩張家譜樹的相似程度,看看節(jié)點(diǎn)和連接有多少是匹配的。
三、數(shù)據(jù)集與模型:從理論到實(shí)踐的跨越
為了確保研究結(jié)果的可靠性,研究團(tuán)隊(duì)精心準(zhǔn)備了多個(gè)數(shù)據(jù)集。他們從內(nèi)部部署的企業(yè)系統(tǒng)中提取了1,512個(gè)工作流,并由專業(yè)團(tuán)隊(duì)將這些工作流用自然語言描述出來,就像用戶可能提出的需求一樣。由于現(xiàn)有工作流通常是完整的,而用戶在實(shí)際使用中可能會(huì)先創(chuàng)建簡單版本再逐步添加復(fù)雜性,團(tuán)隊(duì)還使用領(lǐng)域?qū)I(yè)知識(shí)創(chuàng)建了766個(gè)較簡單的合成工作流。
這就像是同時(shí)準(zhǔn)備了專業(yè)級(jí)和入門級(jí)的烹飪食譜,以測試AI系統(tǒng)能否適應(yīng)不同復(fù)雜度的需求。
評(píng)估數(shù)據(jù)分為兩部分:一部分是從10個(gè)客戶部署中提取的約1,000個(gè)工作流(OOD集),涵蓋零售、銀行等不同領(lǐng)域;另一部分是邀請(qǐng)專家用戶模擬與應(yīng)用交互生成的108個(gè)工作流(TEST集)。前者代表了完整的專業(yè)工作流,后者更接近真實(shí)用戶的使用場景。
在模型選擇方面,研究團(tuán)隊(duì)考慮了多個(gè)小型語言模型,最終選擇了Mistral-Nemo-12B-Base,主要是因?yàn)檫@個(gè)模型架構(gòu)在企業(yè)系統(tǒng)中得到了良好支持和優(yōu)化。作為基線,他們使用了同樣架構(gòu)和大小但沒有在工作流領(lǐng)域數(shù)據(jù)上微調(diào)的Mistral-Nemo-12B-Instruct模型。
他們還比較了多種大型語言模型: - 封閉源碼模型:GPT-4o-mini、GPT-4o和Gemini-2.0-Flash - 開源模型:Llama-3.3-70B-Instruct - 推理增強(qiáng)模型:o3-mini(配置為中等推理水平)
為了讓這些模型處理工作流生成任務(wù),研究團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)提示模板,分別用于生成工作流大綱和填充步驟輸入。這些模板包含上下文信息、任務(wù)定義、輸入數(shù)據(jù)、指南、約束條件和輸出格式等部分。在提示大型語言模型之前,這些模板會(huì)根據(jù)系統(tǒng)數(shù)據(jù)和檢索到的建議進(jìn)行動(dòng)態(tài)填充。
四、研究流程:分解復(fù)雜任務(wù)為簡單步驟
由于工作流是復(fù)雜的結(jié)構(gòu)化輸出,需要在步驟和輸入中使用各種數(shù)據(jù),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)依賴檢索增強(qiáng)生成(RAG)的流水線,通過讓語言模型逐步解決子任務(wù)來迭代生成工作流。
這個(gè)過程就像是拆解一個(gè)復(fù)雜的樂高積木組裝任務(wù)。首先,你需要整體規(guī)劃(生成工作流大綱),然后再逐步處理每個(gè)細(xì)節(jié)(生成每個(gè)步驟的具體輸入)。
具體來說,工作流生成被分解為兩個(gè)主要階段:
第一階段:根據(jù)用戶的自然語言需求,生成工作流的計(jì)劃或大綱,確定步驟名稱、執(zhí)行順序,并從需求中提取每個(gè)步驟的注釋(描述)。
第二階段:對(duì)于大綱中的每個(gè)步驟,使用其注釋從環(huán)境中收集必要的數(shù)據(jù),并生成步驟輸入。
連接這兩個(gè)階段的關(guān)鍵是"注釋",它們不僅解釋了生成的步驟,還允許模型填充步驟詳情。當(dāng)系統(tǒng)檢索表名或列名等數(shù)據(jù)時(shí),這些注釋是搜索輸入的重要組成部分。
在實(shí)際系統(tǒng)架構(gòu)中,用戶界面接收用戶需求并顯示生成的工作流;AI層包含語言模型和檢索器;數(shù)據(jù)層存儲(chǔ)索引的數(shù)據(jù)源,檢索器從中向語言模型提供步驟和數(shù)據(jù)元素建議。數(shù)據(jù)層可以在系統(tǒng)的每次安裝中被替換,允許語言模型為每個(gè)客戶生成特定的輸出。
五、研究結(jié)果:數(shù)據(jù)勝于規(guī)模的明顯證據(jù)
研究團(tuán)隊(duì)的結(jié)果令人深思??偟膩碚f,微調(diào)的小型語言模型在這個(gè)領(lǐng)域特定任務(wù)上確實(shí)表現(xiàn)出了優(yōu)勢,平均提高了約10%的質(zhì)量。
當(dāng)我們查看具體數(shù)字時(shí),在小型TEST數(shù)據(jù)集上,微調(diào)的Mistral-Nemo-12B-Base模型在生成完整工作流(大綱和輸入)時(shí)實(shí)現(xiàn)了67.8%的FlowSim分?jǐn)?shù),而GPT-4o為59.8%,Gemini-2.0-Flash為60.6%。在更大的OOD數(shù)據(jù)集上,差距更為明顯:微調(diào)模型達(dá)到79.8%,而GPT-4o為67.4%。
這就像是比較一位經(jīng)過專門培訓(xùn)的新員工和一位經(jīng)驗(yàn)豐富的通用顧問的表現(xiàn)。雖然通用顧問知識(shí)面更廣,但在特定領(lǐng)域任務(wù)上,專門培訓(xùn)的員工能更準(zhǔn)確地完成工作。
更值得注意的是結(jié)構(gòu)錯(cuò)誤方面的差異。在TEST數(shù)據(jù)集上,GPT-4o生成的工作流中有12.0%存在至少一個(gè)結(jié)構(gòu)錯(cuò)誤(如在沒有IF的情況下使用ELSE步驟),而微調(diào)的SLM只有5.6%。這表明微調(diào)的模型更好地理解了工作流的結(jié)構(gòu)規(guī)則。
研究團(tuán)隊(duì)還進(jìn)行了另一項(xiàng)實(shí)驗(yàn),看看檢索增強(qiáng)生成(RAG)的質(zhì)量對(duì)結(jié)果的影響。他們發(fā)現(xiàn)即使使用"完美RAG"(所有預(yù)期工作流中的步驟都包含在建議中),改進(jìn)也只有最多4%,這表明大多數(shù)錯(cuò)誤來自模型本身,而不是檢索質(zhì)量不佳。
六、錯(cuò)誤分析:理解模型的局限性
為了更深入地了解各個(gè)模型的表現(xiàn),研究團(tuán)隊(duì)進(jìn)行了系統(tǒng)的錯(cuò)誤分析。他們首先通過定性錯(cuò)誤分析,識(shí)別出了訓(xùn)練數(shù)據(jù)集中影響模型輸出的特征,然后將這些特征組織成一個(gè)二元矩陣(1表示特征存在,0表示不存在)。
這種方法就像是醫(yī)生分析多個(gè)病例,找出共同的癥狀模式,從而更好地理解疾病。通過這種方式,研究團(tuán)隊(duì)可以快速評(píng)估新模型運(yùn)行的表現(xiàn),而無需逐個(gè)樣本進(jìn)行評(píng)審。
他們在TEST數(shù)據(jù)集上重點(diǎn)關(guān)注了三類特征: 1. 結(jié)構(gòu)(STRUCTURE):包含結(jié)構(gòu)邏輯特征,如FOREACH、PARALLEL和TRY/CATCH 2. 輸入(INPUT):包含輸入相關(guān)特征,如工作筆記/描述、觸發(fā)條件和多條件 3. 企業(yè)(ENTERPRISE):包含特定于企業(yè)系統(tǒng)的特征,如服務(wù)級(jí)別協(xié)議(SLA)、服務(wù)目錄和Glide日期時(shí)間
研究發(fā)現(xiàn),微調(diào)的SLM在包含結(jié)構(gòu)邏輯步驟的工作流上表現(xiàn)不如大型語言模型。進(jìn)一步分析表明,SLM經(jīng)常錯(cuò)過與這些結(jié)構(gòu)相關(guān)的依賴步驟(例如,F(xiàn)OREACH通常與之前的look_up_records步驟配對(duì),PARALLEL應(yīng)該始終包含多個(gè)分支)。
然而,微調(diào)的SLM在其余兩個(gè)子集上始終優(yōu)于大型語言模型。最大的差距出現(xiàn)在ENTERPRISE集上,微調(diào)SLM的平均FlowSim分?jǐn)?shù)比GPT-4o高12.16%,比Gemini-2.0-Flash高5.35%。研究團(tuán)隊(duì)推測,通過示例學(xué)習(xí)比在提示中包含復(fù)雜指令更有效,這是由于工作流領(lǐng)域的復(fù)雜性和特殊性。
最后,研究團(tuán)隊(duì)觀察到,TEST數(shù)據(jù)集中的工作流步驟和條件通常以隱含方式表達(dá)。例如,需求"查找事件任務(wù)并關(guān)閉它們"暗含了一個(gè)FOREACH和更新步驟,但并未明確說明。結(jié)果表明,微調(diào)的SLM在處理這類例子時(shí)遠(yuǎn)優(yōu)于大型語言模型,F(xiàn)lowSim分?jǐn)?shù)為65.1,而Gemini的為57.6,GPT-4o的為58.5。這表明標(biāo)注過程的價(jià)值,因?yàn)檫@類例子是基于應(yīng)用程序預(yù)期使用方式的標(biāo)注指令的一部分。
七、結(jié)論與未來展望
ServiceNow團(tuán)隊(duì)的研究為人工智能在企業(yè)軟件中的應(yīng)用提供了重要見解。他們證明,對(duì)于生成低代碼工作流這類領(lǐng)域特定的結(jié)構(gòu)化輸出任務(wù),微調(diào)小型語言模型比使用更大的通用語言模型更有效,平均質(zhì)量提高約10%。
這項(xiàng)研究的意義在于,它挑戰(zhàn)了"更大就是更好"的常見觀念。就像一個(gè)專注于特定領(lǐng)域的專家往往比知識(shí)面廣但深度不夠的通才更擅長解決該領(lǐng)域的問題一樣,經(jīng)過領(lǐng)域特定數(shù)據(jù)微調(diào)的小型模型可以在特定任務(wù)上超越更大的通用模型。
研究團(tuán)隊(duì)還展示了一種系統(tǒng)的錯(cuò)誤分析方法,揭示了模型的局限性并補(bǔ)充了定量指標(biāo)。這種方法可以幫助開發(fā)人員識(shí)別模型的弱點(diǎn)并有針對(duì)性地改進(jìn)。
未來的工作可能包括改進(jìn)自定義指標(biāo)和解決錯(cuò)誤分析方法識(shí)別的差距。例如,研究團(tuán)隊(duì)可能會(huì)探索如何改進(jìn)小型語言模型在處理結(jié)構(gòu)邏輯步驟方面的能力,或者開發(fā)更復(fù)雜的評(píng)估方法,考慮到一個(gè)需求可能有多個(gè)有效的工作流實(shí)現(xiàn)方式。
總的來說,這項(xiàng)研究表明,盡管大型語言模型在許多任務(wù)上表現(xiàn)出色,但對(duì)于特定領(lǐng)域的復(fù)雜任務(wù),精心微調(diào)的小型模型仍然具有明顯優(yōu)勢。這不僅可以提高質(zhì)量,還可能帶來更快的推理速度和更低的成本,這對(duì)于實(shí)際部署至關(guān)重要。
正如研究團(tuán)隊(duì)所示,在人工智能應(yīng)用開發(fā)中,模型大小并不是唯一重要的因素;數(shù)據(jù)質(zhì)量、領(lǐng)域適應(yīng)性和任務(wù)分解策略同樣重要,甚至可能更為關(guān)鍵。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。