av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 微調(diào)小模型還是提示大模型?ServiceNow揭秘低代碼工作流程生成的最佳選擇

微調(diào)小模型還是提示大模型?ServiceNow揭秘低代碼工作流程生成的最佳選擇

2025-06-05 09:32
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-06-05 09:32 ? 科技行者

近日,來自ServiceNow的研究團(tuán)隊Orlando Marquez Ayala、Patrice Bechard、Emily Chen、Maggie Baird和Jingfei Chen在2025年5月30日發(fā)表了一篇題為"Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows"的研究論文。這項研究針對一個實際應(yīng)用場景進(jìn)行了深入探索:在生成低代碼工作流程時,到底是微調(diào)小型語言模型更有效,還是直接提示大型語言模型更劃算?隨著大型語言模型(LLM)如GPT-4o等的不斷發(fā)展和每個token成本的降低,微調(diào)小型語言模型(SLM)的優(yōu)勢似乎變得不那么明顯。那么在實際應(yīng)用中,這兩種方法哪一種更勝一籌呢?讓我們一起來看看ServiceNow團(tuán)隊的發(fā)現(xiàn)。

一、研究背景:工作流自動化的挑戰(zhàn)

想象一下,你是一家企業(yè)的IT管理員,每天都需要處理大量重復(fù)但復(fù)雜的流程。比如"當(dāng)用戶變?yōu)榉腔钴S狀態(tài)時,找出該用戶負(fù)責(zé)的所有事件工單,并將它們分配給用戶的經(jīng)理"。這看似簡單的任務(wù),實際上需要系統(tǒng)執(zhí)行多個步驟:檢測用戶狀態(tài)變化、查找相關(guān)工單、循環(huán)處理每個工單、更新工單信息等。

在企業(yè)環(huán)境中,這類重復(fù)性任務(wù)通常通過"工作流"來自動化處理。雖然現(xiàn)代企業(yè)系統(tǒng)提供了低代碼界面來創(chuàng)建這些工作流,但用戶仍然需要了解系統(tǒng)的專業(yè)知識。就像你想要使用家庭自動化系統(tǒng),即使有圖形界面,你也需要知道哪些設(shè)備可以連接,以及如何設(shè)置它們之間的關(guān)系。

ServiceNow團(tuán)隊正在開發(fā)一個名為"Flow Generation"的應(yīng)用,它能根據(jù)用戶的文字需求自動生成這些低代碼工作流。這就像是給你一個智能助手,你只需說"當(dāng)我離家時,關(guān)閉所有燈并鎖上門",它就能自動創(chuàng)建完整的家庭自動化流程。

但是,創(chuàng)建這樣的工作流面臨著幾個主要挑戰(zhàn):

首先,每個系統(tǒng)環(huán)境中可用的步驟各不相同,就像不同品牌的智能家居設(shè)備提供不同功能一樣。用戶甚至可以添加自定義步驟,進(jìn)一步增加了復(fù)雜性。

其次,工作流必須遵循嚴(yán)格的結(jié)構(gòu)規(guī)則,包括條件(如IF語句)和循環(huán)(如FOREACH)等概念,就像編程一樣需要遵循語法規(guī)則。

再者,每個步驟會產(chǎn)生特定類型的輸出數(shù)據(jù)(如整數(shù)或布爾值),這些輸出可用于后續(xù)步驟,形成一個連貫的數(shù)據(jù)流。

最后,步驟的輸入可以引用數(shù)據(jù)庫表、列和值。例如,在查找事件記錄的步驟中,需要匹配事件表中"assigned_to"列的值與觸發(fā)步驟中的用戶記錄值,這就像在Excel中使用VLOOKUP函數(shù)查找相關(guān)數(shù)據(jù)。

二、研究方法:微調(diào)小模型 VS 提示大模型

面對這樣復(fù)雜的任務(wù),ServiceNow團(tuán)隊探索了兩種主要方法:直接使用現(xiàn)成的大型語言模型(LLM)通過精心設(shè)計的提示來生成工作流,或者微調(diào)一個小型語言模型(SLM)以專門處理這項任務(wù)。

想象一下,這就像是在兩個選擇之間權(quán)衡:是聘請一位經(jīng)驗豐富的通用咨詢顧問(大模型)并向他詳細(xì)解釋你的企業(yè)需求,還是培訓(xùn)一位新員工(小模型)專門處理你公司的特定任務(wù)。通用顧問可能知識面更廣,但可能需要更多時間來理解你的具體需求;而經(jīng)過專門培訓(xùn)的員工雖然知識面不那么廣,但對你的業(yè)務(wù)流程可能更加熟悉。

研究團(tuán)隊的方法很直接:他們創(chuàng)建了一個小型但具有代表性的訓(xùn)練數(shù)據(jù)集,用于微調(diào)Mistral-Nemo-12B-Base模型(這個模型有120億參數(shù),相比之下,GPT-4o等大模型可能有數(shù)萬億參數(shù))。這就像是給新員工提供一套精心設(shè)計的培訓(xùn)材料,涵蓋公司的各種典型場景。

為了測試效果,他們標(biāo)注了大約一千個來自十個不同領(lǐng)域的工作流(每個領(lǐng)域約100個)。此外,他們還邀請企業(yè)用戶專家與該工具交互,收集了真實使用場景生成的數(shù)據(jù)。這相當(dāng)于既準(zhǔn)備了標(biāo)準(zhǔn)測試案例,又進(jìn)行了實際用戶測試。

在評估指標(biāo)方面,團(tuán)隊開發(fā)了一個名為"Flow Similarity"(FlowSim)的度量標(biāo)準(zhǔn),這是一種樹編輯距離的變體,將工作流表示為樹結(jié)構(gòu)來比較生成結(jié)果與預(yù)期結(jié)果的相似度。想象成比較兩張家譜樹的相似程度,看看節(jié)點和連接有多少是匹配的。

三、數(shù)據(jù)集與模型:從理論到實踐的跨越

為了確保研究結(jié)果的可靠性,研究團(tuán)隊精心準(zhǔn)備了多個數(shù)據(jù)集。他們從內(nèi)部部署的企業(yè)系統(tǒng)中提取了1,512個工作流,并由專業(yè)團(tuán)隊將這些工作流用自然語言描述出來,就像用戶可能提出的需求一樣。由于現(xiàn)有工作流通常是完整的,而用戶在實際使用中可能會先創(chuàng)建簡單版本再逐步添加復(fù)雜性,團(tuán)隊還使用領(lǐng)域?qū)I(yè)知識創(chuàng)建了766個較簡單的合成工作流。

這就像是同時準(zhǔn)備了專業(yè)級和入門級的烹飪食譜,以測試AI系統(tǒng)能否適應(yīng)不同復(fù)雜度的需求。

評估數(shù)據(jù)分為兩部分:一部分是從10個客戶部署中提取的約1,000個工作流(OOD集),涵蓋零售、銀行等不同領(lǐng)域;另一部分是邀請專家用戶模擬與應(yīng)用交互生成的108個工作流(TEST集)。前者代表了完整的專業(yè)工作流,后者更接近真實用戶的使用場景。

在模型選擇方面,研究團(tuán)隊考慮了多個小型語言模型,最終選擇了Mistral-Nemo-12B-Base,主要是因為這個模型架構(gòu)在企業(yè)系統(tǒng)中得到了良好支持和優(yōu)化。作為基線,他們使用了同樣架構(gòu)和大小但沒有在工作流領(lǐng)域數(shù)據(jù)上微調(diào)的Mistral-Nemo-12B-Instruct模型。

他們還比較了多種大型語言模型: - 封閉源碼模型:GPT-4o-mini、GPT-4o和Gemini-2.0-Flash - 開源模型:Llama-3.3-70B-Instruct - 推理增強模型:o3-mini(配置為中等推理水平)

為了讓這些模型處理工作流生成任務(wù),研究團(tuán)隊設(shè)計了兩個提示模板,分別用于生成工作流大綱和填充步驟輸入。這些模板包含上下文信息、任務(wù)定義、輸入數(shù)據(jù)、指南、約束條件和輸出格式等部分。在提示大型語言模型之前,這些模板會根據(jù)系統(tǒng)數(shù)據(jù)和檢索到的建議進(jìn)行動態(tài)填充。

四、研究流程:分解復(fù)雜任務(wù)為簡單步驟

由于工作流是復(fù)雜的結(jié)構(gòu)化輸出,需要在步驟和輸入中使用各種數(shù)據(jù),研究團(tuán)隊設(shè)計了一個依賴檢索增強生成(RAG)的流水線,通過讓語言模型逐步解決子任務(wù)來迭代生成工作流。

這個過程就像是拆解一個復(fù)雜的樂高積木組裝任務(wù)。首先,你需要整體規(guī)劃(生成工作流大綱),然后再逐步處理每個細(xì)節(jié)(生成每個步驟的具體輸入)。

具體來說,工作流生成被分解為兩個主要階段:

第一階段:根據(jù)用戶的自然語言需求,生成工作流的計劃或大綱,確定步驟名稱、執(zhí)行順序,并從需求中提取每個步驟的注釋(描述)。

第二階段:對于大綱中的每個步驟,使用其注釋從環(huán)境中收集必要的數(shù)據(jù),并生成步驟輸入。

連接這兩個階段的關(guān)鍵是"注釋",它們不僅解釋了生成的步驟,還允許模型填充步驟詳情。當(dāng)系統(tǒng)檢索表名或列名等數(shù)據(jù)時,這些注釋是搜索輸入的重要組成部分。

在實際系統(tǒng)架構(gòu)中,用戶界面接收用戶需求并顯示生成的工作流;AI層包含語言模型和檢索器;數(shù)據(jù)層存儲索引的數(shù)據(jù)源,檢索器從中向語言模型提供步驟和數(shù)據(jù)元素建議。數(shù)據(jù)層可以在系統(tǒng)的每次安裝中被替換,允許語言模型為每個客戶生成特定的輸出。

五、研究結(jié)果:數(shù)據(jù)勝于規(guī)模的明顯證據(jù)

研究團(tuán)隊的結(jié)果令人深思??偟膩碚f,微調(diào)的小型語言模型在這個領(lǐng)域特定任務(wù)上確實表現(xiàn)出了優(yōu)勢,平均提高了約10%的質(zhì)量。

當(dāng)我們查看具體數(shù)字時,在小型TEST數(shù)據(jù)集上,微調(diào)的Mistral-Nemo-12B-Base模型在生成完整工作流(大綱和輸入)時實現(xiàn)了67.8%的FlowSim分?jǐn)?shù),而GPT-4o為59.8%,Gemini-2.0-Flash為60.6%。在更大的OOD數(shù)據(jù)集上,差距更為明顯:微調(diào)模型達(dá)到79.8%,而GPT-4o為67.4%。

這就像是比較一位經(jīng)過專門培訓(xùn)的新員工和一位經(jīng)驗豐富的通用顧問的表現(xiàn)。雖然通用顧問知識面更廣,但在特定領(lǐng)域任務(wù)上,專門培訓(xùn)的員工能更準(zhǔn)確地完成工作。

更值得注意的是結(jié)構(gòu)錯誤方面的差異。在TEST數(shù)據(jù)集上,GPT-4o生成的工作流中有12.0%存在至少一個結(jié)構(gòu)錯誤(如在沒有IF的情況下使用ELSE步驟),而微調(diào)的SLM只有5.6%。這表明微調(diào)的模型更好地理解了工作流的結(jié)構(gòu)規(guī)則。

研究團(tuán)隊還進(jìn)行了另一項實驗,看看檢索增強生成(RAG)的質(zhì)量對結(jié)果的影響。他們發(fā)現(xiàn)即使使用"完美RAG"(所有預(yù)期工作流中的步驟都包含在建議中),改進(jìn)也只有最多4%,這表明大多數(shù)錯誤來自模型本身,而不是檢索質(zhì)量不佳。

六、錯誤分析:理解模型的局限性

為了更深入地了解各個模型的表現(xiàn),研究團(tuán)隊進(jìn)行了系統(tǒng)的錯誤分析。他們首先通過定性錯誤分析,識別出了訓(xùn)練數(shù)據(jù)集中影響模型輸出的特征,然后將這些特征組織成一個二元矩陣(1表示特征存在,0表示不存在)。

這種方法就像是醫(yī)生分析多個病例,找出共同的癥狀模式,從而更好地理解疾病。通過這種方式,研究團(tuán)隊可以快速評估新模型運行的表現(xiàn),而無需逐個樣本進(jìn)行評審。

他們在TEST數(shù)據(jù)集上重點關(guān)注了三類特征: 1. 結(jié)構(gòu)(STRUCTURE):包含結(jié)構(gòu)邏輯特征,如FOREACH、PARALLEL和TRY/CATCH 2. 輸入(INPUT):包含輸入相關(guān)特征,如工作筆記/描述、觸發(fā)條件和多條件 3. 企業(yè)(ENTERPRISE):包含特定于企業(yè)系統(tǒng)的特征,如服務(wù)級別協(xié)議(SLA)、服務(wù)目錄和Glide日期時間

研究發(fā)現(xiàn),微調(diào)的SLM在包含結(jié)構(gòu)邏輯步驟的工作流上表現(xiàn)不如大型語言模型。進(jìn)一步分析表明,SLM經(jīng)常錯過與這些結(jié)構(gòu)相關(guān)的依賴步驟(例如,F(xiàn)OREACH通常與之前的look_up_records步驟配對,PARALLEL應(yīng)該始終包含多個分支)。

然而,微調(diào)的SLM在其余兩個子集上始終優(yōu)于大型語言模型。最大的差距出現(xiàn)在ENTERPRISE集上,微調(diào)SLM的平均FlowSim分?jǐn)?shù)比GPT-4o高12.16%,比Gemini-2.0-Flash高5.35%。研究團(tuán)隊推測,通過示例學(xué)習(xí)比在提示中包含復(fù)雜指令更有效,這是由于工作流領(lǐng)域的復(fù)雜性和特殊性。

最后,研究團(tuán)隊觀察到,TEST數(shù)據(jù)集中的工作流步驟和條件通常以隱含方式表達(dá)。例如,需求"查找事件任務(wù)并關(guān)閉它們"暗含了一個FOREACH和更新步驟,但并未明確說明。結(jié)果表明,微調(diào)的SLM在處理這類例子時遠(yuǎn)優(yōu)于大型語言模型,F(xiàn)lowSim分?jǐn)?shù)為65.1,而Gemini的為57.6,GPT-4o的為58.5。這表明標(biāo)注過程的價值,因為這類例子是基于應(yīng)用程序預(yù)期使用方式的標(biāo)注指令的一部分。

七、結(jié)論與未來展望

ServiceNow團(tuán)隊的研究為人工智能在企業(yè)軟件中的應(yīng)用提供了重要見解。他們證明,對于生成低代碼工作流這類領(lǐng)域特定的結(jié)構(gòu)化輸出任務(wù),微調(diào)小型語言模型比使用更大的通用語言模型更有效,平均質(zhì)量提高約10%。

這項研究的意義在于,它挑戰(zhàn)了"更大就是更好"的常見觀念。就像一個專注于特定領(lǐng)域的專家往往比知識面廣但深度不夠的通才更擅長解決該領(lǐng)域的問題一樣,經(jīng)過領(lǐng)域特定數(shù)據(jù)微調(diào)的小型模型可以在特定任務(wù)上超越更大的通用模型。

研究團(tuán)隊還展示了一種系統(tǒng)的錯誤分析方法,揭示了模型的局限性并補充了定量指標(biāo)。這種方法可以幫助開發(fā)人員識別模型的弱點并有針對性地改進(jìn)。

未來的工作可能包括改進(jìn)自定義指標(biāo)和解決錯誤分析方法識別的差距。例如,研究團(tuán)隊可能會探索如何改進(jìn)小型語言模型在處理結(jié)構(gòu)邏輯步驟方面的能力,或者開發(fā)更復(fù)雜的評估方法,考慮到一個需求可能有多個有效的工作流實現(xiàn)方式。

總的來說,這項研究表明,盡管大型語言模型在許多任務(wù)上表現(xiàn)出色,但對于特定領(lǐng)域的復(fù)雜任務(wù),精心微調(diào)的小型模型仍然具有明顯優(yōu)勢。這不僅可以提高質(zhì)量,還可能帶來更快的推理速度和更低的成本,這對于實際部署至關(guān)重要。

正如研究團(tuán)隊所示,在人工智能應(yīng)用開發(fā)中,模型大小并不是唯一重要的因素;數(shù)據(jù)質(zhì)量、領(lǐng)域適應(yīng)性和任務(wù)分解策略同樣重要,甚至可能更為關(guān)鍵。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-