《去年AI當(dāng)了回電影節(jié)作品編劇,現(xiàn)在MIT又訓(xùn)練它來預(yù)測觀眾淚點》)中,我們介紹了麻省理工學(xué)院(MIT)Media Lab如何通過AI來分析影片中常見的情感曲線,從而識別和預(yù)測人類的淚點。
今天,我們將進(jìn)一步介紹AI如何通過用戶或潛在用戶的面部表情、語言文字甚至肢體語言,來實現(xiàn)情緒識別,并反饋到企業(yè)、機構(gòu)和市場等場景中。
往前追溯,情感人工智能技術(shù)最早是由Affectiva公司開發(fā)的,而情緒識別一詞則是由EMRAYS公司提出。兩者都在借助功能強大的AI軟件,識別人類收看廣告和撰寫評論時表達(dá)的情緒。
以下我們將對兩家公司做簡單介紹:
Affectiva隸屬麻省理工學(xué)院(MIT)的Media Lab,2009年由Rosalind Picard 博士和Rana el Kaliouby博士(現(xiàn)公司CEO)聯(lián)手創(chuàng)建。Picard是工程博士,曾于1997年出版了Affective Computing,該書為情感智能技術(shù)的研究奠定了重要的基礎(chǔ)。目前,Picard仍就職于MIT,并兼任Affectiva的經(jīng)理,有時還寫書,并有持續(xù)的發(fā)明創(chuàng)造。
Picard博士在劍橋大學(xué)訪學(xué)期間,與Kaliouby博士相識。當(dāng)時,Kaliouby博士正在研究如何實現(xiàn)設(shè)備及數(shù)據(jù)體驗的情感智能,并試圖研發(fā)出能夠?qū)崟r識別和反饋用戶情感的初步算法。因為想法的不謀而合,兩人決定聯(lián)手研發(fā)有助于自閉癥患者社交的可戴式眼鏡,以此向美國國家科學(xué)基金會(National Science Foundation)提出了立項申請,并得以通過。隨后,Kaliouby也加入了MIT Media Lab。
在過去的很長一段時間里,MIT Media Lab一直希望能將情感識別技術(shù)應(yīng)用于各自行業(yè)。譬如,日本豐田(Toyota)希望借助該技術(shù)監(jiān)測司機在駕駛過程中的疲勞狀態(tài),寶潔(Procter and Gamble)希望借此洞察用戶對于新香味沐浴露的反饋,火狐(Fox)則想借其探究觀眾如何與電視節(jié)目互動。
為滿足以上一系列的需求,經(jīng)過多輪的商討和研究,Affectiva應(yīng)運而生,并獲得MIT Media Lab的全力支持。
Affectiva的第一款產(chǎn)品誕生于2010年,客戶多為媒體、廣告和市場調(diào)研公司,如跨國市場調(diào)研公司Kantar Millward Brown。
如今,已有1400多家公司正在使用該技術(shù)來觀察和分析顧客的情感參與度。Affectiva將其產(chǎn)品定位為一個集計算機視覺、深度學(xué)習(xí)和世界上最大的情感數(shù)據(jù)庫于一身的情感智能技術(shù)平臺。
三年前,Affectiva發(fā)布了情感識別軟件開發(fā)包(SDK),緊接著又推出了移動版SDK,如今,該產(chǎn)品已經(jīng)能在七種平臺上運行。經(jīng)過E輪融資后,截至目前Affectiva共融資2630萬美元。
而現(xiàn)如今,我們看到,事實上除了媒體、廣告和市場調(diào)研公司之外,教育和醫(yī)療健康等領(lǐng)域也越來越關(guān)注如何利用情感識別技術(shù)記錄情感,連接用戶,洞察用戶需求。“過去的八到十個月,大批一線公司都在咨詢該技術(shù),需求數(shù)量急劇增加。”Affectiva首席市場官Gabi Zijderveld稱,“無人駕駛汽車領(lǐng)域也開始著眼情感智能,從而實現(xiàn)所謂的‘司機狀態(tài)監(jiān)測’。此外,Zijderveld還表示,已經(jīng)有無人駕駛汽車制造商正在開展相關(guān)的實驗項目。
據(jù)她介紹,Affectiva的情感識別軟件已經(jīng)分析了來自87個國家的20億張面孔。[編者按:2016年全球人口數(shù)為74億。]受試者的酬勞為5小時25美元。
EMRAYS創(chuàng)建于荷蘭,其技術(shù)主要用于識別學(xué)術(shù)和商業(yè)文本。“我們是多語言情感識別軟件分析公司,” EMRAYS 的首席市場官和聯(lián)合創(chuàng)始人Michiel Maandag表示:“我們的技術(shù)可通過分析多語言文本,預(yù)測讀者自然和無偏見的情感反饋。”
EMRAYS的四名創(chuàng)始人和現(xiàn)任CEO分別為:CEO和首席科學(xué)家Ilia Zaitsev是俄羅斯彼得斯堡大學(xué)的計算語言學(xué)博士,他致力于借助機器學(xué)習(xí)技術(shù)分析語言,從文本中提取情感情緒建立模型;首席技術(shù)官和首席數(shù)據(jù)師Paul Tero擁有加州大學(xué)伯克利分校計算機科學(xué)本科學(xué)位和蘇塞克斯大學(xué)進(jìn)化和自適應(yīng)系統(tǒng)專業(yè)的碩士學(xué)位;首席體驗官Cliff Crosbie曾任耐克、諾基亞、宜家和蘋果公司的零售和銷售主管;首席營銷官Michiel Maandag曾任諾基亞品牌總監(jiān),現(xiàn)為獨立營銷專家,與多家行業(yè)品牌進(jìn)行過合作。
公司現(xiàn)主要提供四種產(chǎn)品:其一,軟件即服務(wù)(SaaS)平臺,主要針對博主、記者、作家,用于研究并檢查其作品所帶來的情感影響;其二,用于情感分析的社交傾聽(Social Listening)產(chǎn)品;面向媒體機構(gòu)和企業(yè)的廣告定位產(chǎn)品;針對研發(fā)者的應(yīng)用程序界面(API)和軟件開發(fā)包(SDK)。
EMRAYS曾用名為Emotions.Tech,于2017年7月正式更名,并于同年加入英偉達(dá)(NVIDIA)項目,與英國的獨立搜索供應(yīng)商Mojeek合作研發(fā)情感搜索引擎,目的是根據(jù)用戶情感需求提供搜索結(jié)果。
EMRAYS的首席技術(shù)官Paul Tero表示:“依據(jù)觀眾的情緒回饋分析數(shù)字內(nèi)容,能夠重新定義人類與技術(shù)之間的關(guān)系。同時,網(wǎng)絡(luò)廣告商也能針對消費者情感需求投放廣告。”
具體來看,識別文本情感需處理大量文本。而EMRAYS通過使用英偉達(dá)的GPU來完善深度學(xué)習(xí),根據(jù)網(wǎng)頁中體現(xiàn)情感的內(nèi)容進(jìn)行排名、羅列和搜索。Tero 表示,“該技術(shù)可幫助我們快速掌握人類復(fù)雜的情緒。” “NVIDIA GPU是我們系統(tǒng)的運行基礎(chǔ),不到一毫秒可處理一頁元數(shù)據(jù)標(biāo)記,比普通GPU要快50倍。”
為關(guān)注讀者的情緒反饋,EMRAYS的研究工具不僅統(tǒng)計了文本中積極和消極詞匯的數(shù)量,分析了作者的語氣。此外,還每天收集社交媒體上的數(shù)百萬條反饋,繼而借助這些數(shù)據(jù)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),預(yù)測人類在閱讀某段內(nèi)容時可能產(chǎn)生的情緒。EMRAYS表示自己已經(jīng)分析了十億多個情緒數(shù)據(jù)點。Facebook和Twitter社交媒體平臺每天都能通過這樣的方式為EMRAYS提供大量信息訓(xùn)練數(shù)據(jù),進(jìn)一步提升神經(jīng)網(wǎng)絡(luò)準(zhǔn)確度。
據(jù)了解,目前EMRAYS能夠處理的語言包括了英語、挪威語、荷蘭語、瑞典語和俄羅斯語等。
而為了觀察軟件的工作原理,EMRAYS還聘請了包括記者在內(nèi)的用戶參與測試。公司聯(lián)合創(chuàng)立人兼首席營銷官Michiel Maandag接受AI Trends網(wǎng)站采訪時表示,對作家來說,這就像情緒“語法檢查器”。“實際上,即便順利完成情緒分析,也無法理解其真正含義。而我們卻可以了解文本是如何影響讀者的。” Maandag說。
其中,家樂氏正在利用Affectiva開發(fā)的軟件幫助Crunchy Nut麥片的實現(xiàn)廣告創(chuàng)意,意圖吸引更多消費者。比如,Affectiva發(fā)現(xiàn),當(dāng)觀眾們觀看了動物主題的各版本商業(yè)廣告時,其中以蛇為主角的版本反響最好,但觀看第二遍時,吸引力卻大大降低;再比如,Affectiva發(fā)現(xiàn),以外星人為主題的廣告非常受到觀眾的歡迎,因此,家樂氏推出了外星人主題廣告推動谷類食品銷售。
總而言之,情感人工智能和情緒識別技術(shù)正在日趨成熟,并廣泛應(yīng)用于計算機交互各領(lǐng)域。這意味著,我們正在一起走進(jìn)一個情緒被監(jiān)測、評估和記錄的時代。
| 來源:AI Trends;作者:John P. Desmond;編譯整理:科技行者
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團(tuán)隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。