av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 哥倫比亞大學(xué)團(tuán)隊(duì)揭秘:AI購物助手竟然比人類更加"偏心"?

哥倫比亞大學(xué)團(tuán)隊(duì)揭秘:AI購物助手竟然比人類更加"偏心"?

2025-08-11 09:57
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-08-11 09:57 ? 科技行者

這項(xiàng)由哥倫比亞大學(xué)商學(xué)院的Yash Kanoria和Omar Besbes教授,聯(lián)合MyCustomAI公司的Amine Allouah和Josué D Figueroa,以及耶魯大學(xué)的Akshit Kumar共同完成的研究發(fā)表于2025年8月,論文標(biāo)題為"What Is Your AI Agent Buying? Evaluation, Implications, and Emerging Questions for Agentic E-Commerce"。這篇論文已在arXiv平臺發(fā)布(論文編號:arXiv:2508.02630v1),感興趣的讀者可以通過該編號搜索查閱完整論文。

當(dāng)我們還在為網(wǎng)購時眼花繚亂的商品選擇而煩惱時,AI購物助手已經(jīng)悄然登場,準(zhǔn)備代替我們做出購買決定。但你有沒有想過,這些AI助手在購物時究竟在"想"什么?它們會像人類一樣被廣告吸引,還是有著完全不同的購物偏好?

研究團(tuán)隊(duì)構(gòu)建了一個名為ACES(智能電商模擬器)的測試環(huán)境,就像搭建了一個AI專用的"購物實(shí)驗(yàn)室"。他們邀請了三位明星級的AI模型——Claude Sonnet 4、GPT-4.1和Gemini 2.5 Flash來參與這場獨(dú)特的購物測試。這些AI助手需要在模擬的電商頁面上挑選商品,而研究人員則像隱身的觀察者一樣,記錄下它們的每一個選擇。

研究結(jié)果令人震驚。這些AI購物助手不僅表現(xiàn)出了與人類截然不同的購物偏好,甚至在同一組商品面前,不同的AI模型會做出截然不同的選擇。更有趣的是,它們對商品在頁面上的位置異常敏感,但每個AI對"黃金位置"的理解完全不同。有的AI偏愛頁面左上角,有的則鐘情于右下角,就像每個人都有自己獨(dú)特的閱讀習(xí)慣一樣。

這項(xiàng)研究的意義遠(yuǎn)不止于了解AI的購物偏好。隨著OpenAI的Operator和谷歌的Project Mariner等AI購物助手的問世,我們正站在一個全新時代的門檻上。在這個時代里,數(shù)百萬消費(fèi)者可能會將購物決定完全交給AI代理。這不僅會重塑整個電商生態(tài)系統(tǒng),還可能影響到每一個網(wǎng)購用戶的錢包。

一、AI購物助手的"性格測試"

要理解AI購物助手的行為,研究團(tuán)隊(duì)首先需要搭建一個完全可控的測試環(huán)境。這就像是為AI們準(zhǔn)備了一個專門的"購物考場",在這里,研究人員可以精確控制每一個變量,觀察AI們的反應(yīng)。

ACES系統(tǒng)的核心是一個模擬電商網(wǎng)站,看起來就像是亞馬遜或淘寶的簡化版本。頁面上整齊地排列著八件商品,采用2×4的網(wǎng)格布局,每件商品都有自己的圖片、價格、評分和描述。但與真實(shí)購物網(wǎng)站不同的是,研究團(tuán)隊(duì)可以隨意調(diào)整這些商品的位置、價格、評分,甚至添加"贊助商品"或"編輯推薦"等標(biāo)簽。

研究過程就像是一場精心設(shè)計的心理學(xué)實(shí)驗(yàn)。AI購物助手收到的指令很簡單:"幫助某人找到一款好產(chǎn)品,他們沒有特殊要求,請根據(jù)你的判斷選擇一件商品購買。"然后,AI會瀏覽頁面,分析每件商品,最終做出購買決定。

為了確保測試的可靠性,研究團(tuán)隊(duì)采用了名為"Veni, Vidi, Emi"(來了,看了,買了)的三步流程。AI首先打開瀏覽器進(jìn)入購物頁面,然后截取頁面截圖進(jìn)行分析,最后宣布它的購買決定。這個過程雖然簡化了真實(shí)購物的復(fù)雜性,但完美地捕捉了購物決策的核心環(huán)節(jié)。

測試涵蓋了八個不同的商品類別,從高價值的健身手表和洗衣機(jī),到日常用品如牙膏和衛(wèi)生紙。這樣的選擇既包含了消費(fèi)者經(jīng)常需要深思熟慮的大件商品,也包含了通常隨手購買的日用品,確保測試結(jié)果的全面性和代表性。

二、AI購物偏好的驚人差異

當(dāng)研究團(tuán)隊(duì)分析AI們的購物選擇時,一個令人意外的現(xiàn)象浮出水面:不同AI模型在面對完全相同的商品時,展現(xiàn)出了截然不同的"品牌忠誠度"。

以健身手表為例,Claude Sonnet 4對Fitbit Inspire表現(xiàn)出明顯的偏愛,在45%的情況下選擇了這款產(chǎn)品。而GPT-4.1和Gemini 2.5 Flash對同一款產(chǎn)品的選擇率僅為25%左右。這種差異就像是三個人去同一家店購物,卻總是買回完全不同的商品一樣令人困惑。

更引人注目的是市場集中度的問題。在訂書機(jī)這個商品類別中,幾乎所有AI模型都將目光集中在少數(shù)幾個品牌上,而Amazon Basics和Arrow等品牌幾乎被完全忽視。這種現(xiàn)象引發(fā)了一個重要擔(dān)憂:如果大規(guī)模部署AI購物助手,可能會導(dǎo)致市場過度集中,一些品牌可能被徹底邊緣化,而另一些品牌則可能獲得不成比例的市場份額。

這種AI之間的購物偏好差異并非隨機(jī)現(xiàn)象,而是體現(xiàn)了不同AI模型在訓(xùn)練過程中形成的獨(dú)特"判斷標(biāo)準(zhǔn)"。每個AI都有自己的一套評估商品的邏輯,這套邏輯雖然對用戶來說是不可見的,但卻深刻地影響著最終的購買決定。

研究還發(fā)現(xiàn),AI的這些偏好相當(dāng)穩(wěn)定。在重復(fù)測試中,同一個AI模型往往會表現(xiàn)出一致的選擇模式,這表明這些偏好并非偶然產(chǎn)生,而是深深植根于AI的"思維模式"中。

三、位置偏見:每個AI都有自己的"風(fēng)水觀"

也許最令人意外的發(fā)現(xiàn)是AI購物助手對商品位置的極度敏感。就像人們閱讀時會有從左到右、從上到下的習(xí)慣一樣,每個AI模型都發(fā)展出了自己獨(dú)特的"頁面瀏覽偏好"。

所有測試的AI模型都表現(xiàn)出對頁面頂部位置的明顯偏愛,這與人類的視覺習(xí)慣相似。但在水平方向上,它們的偏好卻大相徑庭。GPT-4.1強(qiáng)烈偏好頁面的最左側(cè),就像是一個嚴(yán)格按照從左到右順序閱讀的讀者。相比之下,Claude Sonnet 4幾乎完全忽視左側(cè)第一列,而更偏愛中間兩列的位置。最有趣的是Gemini 2.5 Flash,它似乎對第三列情有獨(dú)鐘,而對前兩列相對冷淡。

為了直觀展示這種位置偏好的威力,研究團(tuán)隊(duì)進(jìn)行了一個簡單的測試:將完全相同的產(chǎn)品放在頁面的不同位置,觀察選擇率的變化。結(jié)果令人震驚。對于Claude Sonnet 4來說,如果一個產(chǎn)品從頁面右下角(選擇率僅4.5%)移動到頂部第二或第三列,選擇率會激增五倍。更有趣的是,即使移動到左上角這個傳統(tǒng)意義上的"黃金位置",選擇率的提升也只有一半。

這種位置偏見的影響是巨大的。同一件商品僅僅因?yàn)樵陧撁嫔系奈恢貌煌?,被AI選中的概率就可能相差數(shù)倍。這對于電商平臺的商品排列策略,以及商家的廣告投放決策都有深遠(yuǎn)的影響。

更重要的是,這些位置偏好完全不同意味著傳統(tǒng)意義上的"最佳位置"可能并不存在。在AI主導(dǎo)的購物時代,電商平臺可能需要根據(jù)不同AI助手的偏好來設(shè)計不同的頁面布局,或者開發(fā)能夠自適應(yīng)不同AI模型的動態(tài)頁面系統(tǒng)。

四、AI對營銷手段的獨(dú)特反應(yīng)

當(dāng)研究團(tuán)隊(duì)測試AI對各種營銷標(biāo)簽的反應(yīng)時,又發(fā)現(xiàn)了一系列有趣的現(xiàn)象。與許多人的預(yù)期相反,AI購物助手對"贊助商品"標(biāo)簽表現(xiàn)出明顯的抗拒情緒。

在測試中,研究人員隨機(jī)為某些商品添加"贊助"標(biāo)簽,結(jié)果發(fā)現(xiàn)所有AI模型都降低了對這些商品的選擇概率。一個基準(zhǔn)選擇率為10%的產(chǎn)品,在添加贊助標(biāo)簽后,Claude Sonnet 4的選擇率降至8.9%,GPT-4.1降至8.0%,而Gemini 2.5 Flash降至7.9%。這種現(xiàn)象表明AI具有某種"廣告識別"能力,并傾向于避免看起來像是付費(fèi)推廣的商品。

相比之下,"編輯推薦"標(biāo)簽產(chǎn)生了截然相反的效果。當(dāng)一個商品被標(biāo)記為"編輯推薦"時,AI的選擇率大幅提升。同樣以基準(zhǔn)選擇率10%為例,Claude Sonnet 4的選擇率飆升至24.3%,GPT-4.1升至19.9%,而Gemini 2.5 Flash更是達(dá)到了驚人的42.6%。這說明AI將平臺的推薦視為可信的質(zhì)量信號。

至于"僅剩X件"這類制造稀缺感的標(biāo)簽,AI們的反應(yīng)相對平淡,甚至略微負(fù)面。這可能是因?yàn)锳I不會像人類那樣受到心理壓力的驅(qū)動,而是更理性地評估商品的實(shí)際價值。

在價格、評分和評論數(shù)量方面,AI表現(xiàn)出了與人類相似但又有所不同的敏感性。所有AI都偏好價格更低、評分更高、評論更多的商品,這符合理性消費(fèi)者的行為模式。但它們對這些因素的敏感程度差異很大。例如,當(dāng)一個商品的評分提高0.1分時,Claude Sonnet 4的選擇概率增加54%,GPT-4.1增加103%,而Gemini 2.5 Flash增加60%。

五、當(dāng)AI商家遇上AI買家

研究的一個特別有趣的部分是探索當(dāng)賣家也開始使用AI來優(yōu)化產(chǎn)品描述時會發(fā)生什么。這就像是一場AI之間的博弈:一邊是負(fù)責(zé)購買的AI助手,另一邊是負(fù)責(zé)銷售的AI代理。

研究團(tuán)隊(duì)設(shè)計了這樣一個實(shí)驗(yàn):首先讓AI購買助手在原始商品描述下進(jìn)行200次購買測試,記錄每個商品的市場份額。然后隨機(jī)選擇一個商品,讓AI銷售代理根據(jù)競爭情況和購買數(shù)據(jù)來優(yōu)化這個商品的描述。最后,用優(yōu)化后的描述再進(jìn)行200次購買測試,觀察市場份額的變化。

結(jié)果令人震驚。在大約75%的情況下,單次的描述優(yōu)化并沒有產(chǎn)生顯著效果。但在剩下的25%的情況下,僅僅一次優(yōu)化就帶來了巨大的市場份額提升。例如,在鼠標(biāo)墊類別中,一個品牌通過AI優(yōu)化描述后,在GPT-4.1購物助手那里的市場份額從原來的水平直接躍升了21.8%。

以鼠標(biāo)墊品牌Aothia為例,AI銷售代理分析了競爭對手的成功模式后,建議將原來冗長復(fù)雜的產(chǎn)品標(biāo)題"Aothia皮革桌墊保護(hù)墊,鼠標(biāo)墊,辦公桌墊,防滑PU皮革桌墊,筆記本桌墊,防水桌面書寫墊,適用于辦公室和家庭(黑色,23.6" x 13.7")"優(yōu)化為更簡潔明了的"Aothia大尺寸PU皮革桌墊,防滑防水鼠標(biāo)墊和桌墊,23.6" × 13.7",辦公家用,黑色"。

這個看似微小的改動產(chǎn)生了顯著效果。優(yōu)化后的描述更好地迎合了AI購買助手的"品味",將關(guān)鍵特征如"大尺寸"、"PU皮革"、"防滑防水"等賣點(diǎn)放在了更顯眼的位置,同時保持了描述的簡潔性。

這種AI對AI的優(yōu)化效果在不同購買助手之間表現(xiàn)出很大差異。同樣是Aothia的描述優(yōu)化,在Claude Sonnet 4那里只產(chǎn)生了5.3%的市場份額提升,而在Gemini 2.5 Flash那里幾乎沒有顯著效果。這再次證明了不同AI模型之間存在的巨大差異。

六、AI購物助手的"理性"考驗(yàn)

為了測試AI購物助手是否具備基本的購物理性,研究團(tuán)隊(duì)設(shè)計了一系列看似簡單實(shí)則關(guān)鍵的測試。這些測試就像是給AI購物助手進(jìn)行的"智商測驗(yàn)",檢驗(yàn)它們能否做出最基本的理性選擇。

在指令遵循測試中,研究人員給AI設(shè)置了明確的購買條件,比如"請選擇一個25美元以下的健身手表"或"請選擇粉色的訂書機(jī)"。在這種情況下,頁面上只有一件商品符合要求,理論上AI應(yīng)該毫無疑問地選擇那件商品。令人欣慰的是,最新的AI模型在這類測試中表現(xiàn)優(yōu)異,幾乎沒有出現(xiàn)錯誤。

但在更復(fù)雜的理性測試中,情況就不那么樂觀了。研究人員構(gòu)造了這樣的場景:八件商品除了價格之外完全相同,其中一件商品的價格明顯更低。在這種情況下,任何理性的購買者都應(yīng)該選擇最便宜的那一件。

然而,AI的表現(xiàn)讓人意外。當(dāng)價格差異較小時(比如只便宜1%),即使是最先進(jìn)的GPT-4.1也有超過9%的失敗率。更早期的模型表現(xiàn)更糟,Claude 3.5 Sonnet的失敗率甚至超過了63%。只有當(dāng)價格差異擴(kuò)大到10%時,AI們的表現(xiàn)才顯著改善。

在評分測試中,情況類似。當(dāng)一個商品的評分比其他商品高出0.1分時,一些AI模型完全無法識別這種差異,而另一些模型的失敗率高達(dá)71.7%。這意味著在現(xiàn)實(shí)購物中,消費(fèi)者委托AI購買商品時,可能會支付更高的價格或購買到評分更低的產(chǎn)品。

更有趣的是,研究人員分析了AI在這些測試中的"思維過程"。當(dāng)AI做出錯誤選擇時,它們的解釋大致分為三類:第一類是感知限制,AI聲稱無法區(qū)分商品之間的細(xì)微差異;第二類是無理由的次優(yōu)選擇,AI識別出了最佳選擇但仍然選擇了其他商品,而且沒有給出解釋;第三類是有理由的拒絕,AI承認(rèn)某個商品更好,但給出了不選擇它的理由,比如認(rèn)為價格差異是"顯示錯誤"或"臨時折扣",或者聲稱這種差異"不重要"。

七、模型更新帶來的市場震蕩

研究過程中發(fā)生了一個意外但極有價值的插曲。谷歌DeepMind在研究進(jìn)行期間將Gemini 2.5 Flash Preview更新為Gemini 2.5 Flash,這為研究團(tuán)隊(duì)提供了觀察模型更新如何影響AI購物行為的絕佳機(jī)會。

更新前后的對比結(jié)果令人震驚。僅僅是一次模型更新,就導(dǎo)致了整個"市場格局"的重新洗牌。在辦公臺燈類別中,最受歡迎的產(chǎn)品從TORCHSTAR變成了SUNMORY;在衛(wèi)生紙類別中,市場領(lǐng)導(dǎo)者從Cottonelle變成了Angel Soft。一些產(chǎn)品的市場份額發(fā)生了劇烈變化,比如Fitbit Versa的份額下降了25.1%,而Kenmore洗衣機(jī)的份額下降了25.6%。

位置偏好也發(fā)生了根本性改變。更新前的Gemini 2.5 Flash Preview對頁面頂部位置表現(xiàn)出負(fù)面偏好,而更新后的版本則轉(zhuǎn)為正面偏好。在列偏好方面,兩個版本都不太喜歡前兩列,但對后兩列的偏好程度不同:Preview版本對第三、四列沒有明顯偏好差異,而正式版本明顯偏愛第三列。

這種因模型更新導(dǎo)致的購物行為變化就像是消費(fèi)者群體的集體"性格轉(zhuǎn)變"。對于電商平臺來說,這意味著他們需要持續(xù)監(jiān)控和適應(yīng)這些變化。對于品牌商家來說,一次看似微小的AI模型更新可能就會顯著影響他們的銷售表現(xiàn)。

更重要的是,這種變化的不可預(yù)測性給整個電商生態(tài)系統(tǒng)帶來了新的不確定性。品牌可能需要開發(fā)新的策略來應(yīng)對這種"AI購物偏好漂移",而平臺也可能需要考慮如何在AI模型更新時保持一定的穩(wěn)定性。

八、價格權(quán)衡的AI邏輯

為了更深入地理解AI購物助手的決策邏輯,研究團(tuán)隊(duì)計算了不同因素之間的"價格等價交換率"。簡單來說,就是看AI愿意為某個優(yōu)勢支付多少額外費(fèi)用。

結(jié)果顯示,位置的價值在AI眼中極其重要。對于Claude Sonnet 4和GPT-4.1來說,如果一個商品能從第二排移到第一排,商家可以將價格提高一倍而不影響被選中的概率。相比之下,Gemini 2.5 Flash對位置的敏感度較低,只愿意為頂部位置支付17%的價格溢價。

"編輯推薦"標(biāo)簽的價值更是驚人。Claude Sonnet 4愿意為帶有這個標(biāo)簽的商品支付92%的價格溢價,GPT-4.1愿意支付65%,而Gemini 2.5 Flash的溢價意愿高達(dá)138%。這意味著獲得平臺推薦對商家來說具有巨大的經(jīng)濟(jì)價值。

在產(chǎn)品屬性方面,AI對評分的重視程度超出預(yù)期。當(dāng)一個產(chǎn)品的評分提高0.1分時,Claude Sonnet 4愿意為此支付33%的價格溢價,GPT-4.1愿意支付67%,而Gemini 2.5 Flash愿意支付28%。相比之下,評論數(shù)量翻倍的價值相對較低,三個AI模型的溢價意愿分別為19%、37%和17%。

這些數(shù)據(jù)為商家提供了寶貴的定價參考。在AI主導(dǎo)的購物環(huán)境中,傳統(tǒng)的價格策略可能需要根據(jù)這些新的"價值等式"進(jìn)行調(diào)整。

九、AI購物時代的生態(tài)重構(gòu)

隨著AI購物助手逐漸普及,整個電商生態(tài)系統(tǒng)正面臨著深刻的變革。這種變革不僅僅是技術(shù)層面的,更是商業(yè)模式和競爭規(guī)則的根本性改變。

對于電商平臺來說,傳統(tǒng)的商品排序和推薦邏輯可能需要完全重寫。由于不同AI模型存在截然不同的位置偏好,平臺可能需要開發(fā)AI模型特定的頁面布局,或者實(shí)現(xiàn)能夠自適應(yīng)不同AI助手的動態(tài)頁面系統(tǒng)。更進(jìn)一步,平臺可能需要為不同的AI助手提供專門的API接口,而不是讓它們通過傳統(tǒng)的網(wǎng)頁界面進(jìn)行購物。

傳統(tǒng)的貨幣化手段也面臨挑戰(zhàn)。研究顯示AI對贊助商品標(biāo)簽的負(fù)面反應(yīng)意味著傳統(tǒng)的付費(fèi)推廣模式可能效果不佳。相反,平臺的"編輯推薦"功能可能成為新的價值源泉。平臺可能會開始提供"AI購物優(yōu)化"服務(wù),幫助商家調(diào)整產(chǎn)品描述和展示方式以迎合不同AI助手的偏好。

對于品牌和商家而言,適應(yīng)AI購物時代需要全新的策略思維。商品描述的重要性空前提升,因?yàn)檫@直接影響AI的判斷。同時,由于不同AI模型偏好差異巨大,商家可能需要針對不同的AI助手制定不同的營銷策略,就像現(xiàn)在需要針對不同的搜索引擎進(jìn)行SEO優(yōu)化一樣。

一個全新的服務(wù)行業(yè)正在興起:AI購物優(yōu)化服務(wù)。就像現(xiàn)在有專門的SEO公司一樣,未來可能會出現(xiàn)專門幫助商家優(yōu)化AI購物體驗(yàn)的公司。這些公司需要深度了解各種AI模型的偏好模式,并能夠?qū)崟r跟蹤和適應(yīng)這些模式的變化。

消費(fèi)者也需要做好心理準(zhǔn)備。雖然AI購物助手能夠大大減少選擇的時間成本,但研究顯示這些AI在基本理性測試中仍存在缺陷。消費(fèi)者需要了解自己使用的AI助手的特點(diǎn)和局限性,在重要購買決定上可能仍需要人工干預(yù)和確認(rèn)。

十、監(jiān)管挑戰(zhàn)與社會影響

AI購物助手的普及還引發(fā)了一系列需要深思的監(jiān)管和社會問題。當(dāng)購買決定越來越多地由AI代理時,傳統(tǒng)的消費(fèi)者保護(hù)框架可能需要重新審視和調(diào)整。

市場集中度是一個關(guān)鍵擔(dān)憂。研究顯示某些AI模型傾向于將選擇集中在少數(shù)品牌上,完全忽視其他選項(xiàng)。如果這種模式在現(xiàn)實(shí)中大規(guī)模復(fù)制,可能會導(dǎo)致市場過度集中,損害競爭和消費(fèi)者選擇。監(jiān)管機(jī)構(gòu)可能需要制定新的規(guī)則來確保AI購物助手不會無意中創(chuàng)造壟斷或寡頭壟斷局面。

透明度也是一個重要議題。目前,AI購物助手的決策過程對用戶來說基本上是個"黑匣子"。消費(fèi)者無法了解AI為什么選擇某個產(chǎn)品而不是另一個,這可能涉及知情同意的問題。監(jiān)管機(jī)構(gòu)可能需要要求AI購物助手提供某種形式的"決策解釋",讓用戶理解選擇背后的邏輯。

數(shù)據(jù)隱私和安全也面臨新挑戰(zhàn)。AI購物助手需要訪問用戶的購買歷史、偏好信息等敏感數(shù)據(jù)才能提供個性化服務(wù)。如何在提供便利服務(wù)和保護(hù)用戶隱私之間找到平衡,將是一個持續(xù)的挑戰(zhàn)。

AI模型更新帶來的市場波動性也需要關(guān)注。研究顯示單次模型更新就能夠重新洗牌整個市場格局,這種不可預(yù)測性可能對商家和整個供應(yīng)鏈造成巨大沖擊。監(jiān)管機(jī)構(gòu)可能需要考慮是否需要對重大AI模型更新實(shí)施某種形式的"影響評估"或"漸進(jìn)部署"要求。

另一個值得關(guān)注的問題是AI購物助手可能會放大現(xiàn)有的社會偏見。如果訓(xùn)練數(shù)據(jù)中存在某種偏見,這種偏見可能會在大規(guī)模購買決定中被無限放大,進(jìn)一步加劇社會不平等。

結(jié)論

歸根結(jié)底,這項(xiàng)研究為我們揭示了一個既令人興奮又充滿挑戰(zhàn)的未來圖景。AI購物助手確實(shí)能夠?yàn)橄M(fèi)者提供便利,減少在無數(shù)選擇面前的困惑和時間消耗。但同時,這些AI助手也表現(xiàn)出了與人類截然不同的"個性"和偏好,它們的決策邏輯有時甚至缺乏基本的理性。

最有趣的發(fā)現(xiàn)是,不同AI模型之間的巨大差異意味著未來的電商世界可能會變得更加多元化和復(fù)雜。就像現(xiàn)在人們會選擇不同的搜索引擎或社交媒體平臺一樣,未來消費(fèi)者可能需要根據(jù)自己的購物偏好選擇不同的AI購物助手。一個偏愛價格優(yōu)勢的消費(fèi)者可能會選擇對價格更敏感的AI,而注重品質(zhì)的消費(fèi)者則可能選擇更重視評分和評論的AI。

這種變化也為商家?guī)砹诵碌臋C(jī)遇和挑戰(zhàn)。適應(yīng)AI購物時代需要全新的思維方式和策略工具,但同時也可能為那些能夠快速適應(yīng)的商家創(chuàng)造新的競爭優(yōu)勢。畢竟,在一個AI助手越來越多地代表消費(fèi)者做出選擇的世界里,理解和迎合這些AI的"品味"可能比傳統(tǒng)的市場營銷更加重要。

隨著技術(shù)的不斷進(jìn)步,我們很可能會看到AI購物助手變得更加智能和可靠。但這項(xiàng)研究提醒我們,即使在AI變得更加先進(jìn)的同時,我們?nèi)孕枰3志X,確保這些系統(tǒng)真正服務(wù)于消費(fèi)者的最佳利益,而不是無意中創(chuàng)造新的問題或加劇現(xiàn)有的不平等。

說到底,AI購物助手的崛起不僅僅是一個技術(shù)問題,更是一個關(guān)乎我們?nèi)绾卧跀?shù)字時代組織經(jīng)濟(jì)活動的社會問題。如何在擁抱這種便利的同時避免其潛在風(fēng)險,將是我們在未來幾年需要共同面對的挑戰(zhàn)。有興趣深入了解這些發(fā)現(xiàn)的讀者可以通過arXiv:2508.02630v1搜索查閱這篇完整的研究論文。

Q&A

Q1:ACES是什么?它是如何測試AI購物助手的?

A:ACES是智能電商模擬器,由研究團(tuán)隊(duì)開發(fā)的AI購物測試環(huán)境。它包含一個可控的模擬電商網(wǎng)站,能夠隨意調(diào)整商品位置、價格、評分等參數(shù),讓AI購物助手在其中進(jìn)行購買選擇,從而觀察和分析AI的購物行為模式。

Q2:不同AI購物助手在購買選擇上差異有多大?

A:差異非常顯著。以健身手表為例,Claude Sonnet 4選擇Fitbit Inspire的概率為45%,而GPT-4.1和Gemini 2.5 Flash只有25%左右。在訂書機(jī)類別中,一些品牌完全被某些AI忽視,市場份額為零,顯示出AI之間存在巨大的"品牌偏好"差異。

Q3:AI購物助手會犯哪些購物錯誤?

A:主要有三類錯誤:無法識別細(xì)微價格差異(如便宜1%的商品,GPT-4.1仍有9%概率選錯)、無法區(qū)分相近評分(0.1分差異時某些AI失敗率高達(dá)71.7%)、以及會將明顯優(yōu)勢誤判為"顯示錯誤"或"臨時折扣"而故意避開最優(yōu)選擇。

分享至
0贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-