CNET科技行者 12月11日 北京消息(編譯/DAWN):Richard Socher,被世界經(jīng)濟論壇譽為“實現(xiàn)改變現(xiàn)有自然語言處理與計算機視覺技術(shù)突破的、人工智能和深度學(xué)習(xí)領(lǐng)域的天才”,他還有兩個身份,MetaMind創(chuàng)始人,Salesforce現(xiàn)任首席科學(xué)家。
Richard Socher說,“AI幫助我們認(rèn)清自己”。
一次機緣巧合,讓他從計算機語言轉(zhuǎn)投AI研究,此后并沉迷在“深度學(xué)習(xí)”世界里。
拜師吳恩達(dá),投身深度學(xué)習(xí)探索
Socher在德國主修計算機語言學(xué),獲得了萊比錫大學(xué)理科學(xué)士和薩爾蘭大學(xué)理科碩士學(xué)位。此后,他在斯坦福大學(xué)讀博士時,曾作為交換生前往美國普林斯頓大學(xué),在那組建了AI實驗室。
他組隊參加2007年語義機器人視覺挑戰(zhàn)賽( semantic robot vision challenge),其團隊榮獲大賽冠軍。此外,Socher還加入普林斯頓大學(xué)的研究團隊,開發(fā)設(shè)計ImageNet—即由標(biāo)有注釋的圖像構(gòu)成的可用于計算機視覺研究的大型數(shù)據(jù)庫。
Socher稱:“深度學(xué)習(xí)的魔力在于它不僅能夠提取出傳統(tǒng)機器學(xué)習(xí)的結(jié)構(gòu)特征,而且其模型可提取和呈現(xiàn)原始圖像或原始詞表,最終在同一個端對端的訓(xùn)練模型中作出預(yù)測。”
換言之,過去傳統(tǒng)的機器學(xué)習(xí)需要深層次專業(yè)知識,且需投入大量時間和精力研發(fā)模型和算法。為提高預(yù)測的準(zhǔn)確性,計算機的“學(xué)習(xí)”多借助模型的優(yōu)化調(diào)整,而深度學(xué)習(xí)則聚焦于模型設(shè)計,使用海量訓(xùn)練數(shù)據(jù),建立多層次的深層次結(jié)構(gòu)。
自此開始,ImageNet項目負(fù)責(zé)人每年都舉辦一次ImageNet大規(guī)模圖像識別挑戰(zhàn)賽(ILSVRC),推動了深度學(xué)習(xí)的快速發(fā)展,使其成為圖像識別研究中的新興工具。(2012年該大賽的一支深度學(xué)習(xí)團隊將圖像識別的錯誤率從25%降低到16%,深度學(xué)習(xí)領(lǐng)域自此進(jìn)入全盛時代)
也是這個時候,Socher開啟了從事深度學(xué)習(xí)的職業(yè)生涯。當(dāng)然,還少不了他的導(dǎo)師。
Socher在斯坦福大學(xué)求學(xué)時,有幸拜Andrew Ng(吳恩達(dá))和Chris Manning為師。Andrew Ng與谷歌合力開展計算機視覺研究時,首次引入了深度學(xué)習(xí),并為2012年正式推廣深度學(xué)習(xí)作出了巨大貢獻(xiàn),而他的另一個導(dǎo)師Chris Manning也堪稱“著名的自然語言處理研究員”。
Socher借助循環(huán)神經(jīng)網(wǎng)絡(luò)(深度學(xué)習(xí)的變體),使自然語言處理程序能更好地“理解”文本的語境和情感。之前的研究員多建立情感分類模型(即體現(xiàn)積極或消極的詞表)對文本進(jìn)行分類,并假設(shè)詞語的順序不重要。然而,基于循環(huán)神經(jīng)網(wǎng)絡(luò)分析文本情感,無需預(yù)先建立模型,而是分析詞間的聯(lián)系,從鄰近詞,逐個依次向后分析,建立一個多層關(guān)系網(wǎng),便于精準(zhǔn)理解句子的含義。
Socher的博士論文被評為斯坦福大學(xué)計算機科學(xué)專業(yè)的優(yōu)秀畢業(yè)論文。論文中提到:深度學(xué)習(xí)不是成功處理自然語言的唯一工具。他提出了新方法,無需針對各任務(wù)建立不同的機器學(xué)習(xí)模型,就可同時完成大批不同的自然語言處理任務(wù)。他學(xué)術(shù)生涯的重心不在此,但他的職業(yè)生涯卻一直致力于實現(xiàn)“多任務(wù)同時處理功能”。
學(xué)術(shù)生涯之后的另一種人生,開創(chuàng)MetaMind
Socher的職業(yè)生涯和宏偉志向也是眾多AI領(lǐng)袖的鮮明寫照:他們可能還是博士生時,已投身于AI領(lǐng)域的研究,但并未繼續(xù)進(jìn)修深造,而是選擇自己創(chuàng)業(yè)或加入其他企業(yè)。
在被問及放棄學(xué)術(shù)生涯的原因時,Socher回答道:“應(yīng)用人工智能獲取資源,對人們的影響空前巨大,遠(yuǎn)遠(yuǎn)超過對整個行業(yè)的影響。”因此,他放棄了普林斯頓大學(xué)助理教授的職位,于2014年開創(chuàng)了MetaMind公司。
短短四個月,Socher及其團隊從Khosla創(chuàng)投公司與Salesforce公司的CEO Marc Benioff處籌集了八百萬美金資金。與此同時,他們還推出了一個分析文本圖像的深度學(xué)習(xí)平臺,該平臺在網(wǎng)絡(luò)上運行,操作簡單。多年來,MetaMind公司取得了諸多矚目成就。2014年,該公司以92.4%的識別準(zhǔn)確率完成了ImageNet大賽。準(zhǔn)確率較大賽冠軍谷歌低了 0.8%,但其運算量僅為谷歌公司的千分之一。
用Socher的話來說,“MetaMind是個用途廣泛的通用引擎。現(xiàn)已應(yīng)用于藥物影像、放射學(xué)、情感分析以及衛(wèi)星圖像等領(lǐng)域。”
2016年的4月, MetaMind被Salesforce公司收購。Socher說:“作為一個小型科技初創(chuàng)企業(yè),總是考慮如何將自己的影響力最大化,但無論是創(chuàng)建強大的銷售團體,還是建立人力資源和市場都需要很長時間。Salesforce是我期盼的最好合作伙伴。”
Socher繼續(xù)解釋道,對于成功的人工智能公司來說,數(shù)據(jù)、算法以及工作流集成至關(guān)重要。Saleforce公司擁有海量數(shù)據(jù), MetaMind與Saleforce的其他機器學(xué)習(xí)團隊負(fù)責(zé)設(shè)計算法。工作流集成極其重要,關(guān)乎Socher的職業(yè)志向、研究的現(xiàn)實意義以及對世界產(chǎn)生的影響。
“你不能設(shè)計完一個人工智能算法,直接把它扔給其他團隊,然后跟他們說,這個算法不錯,用吧。應(yīng)該嘗試將這個算法融入工作流程中,它才能真正為人們所用并造福人們。Salesforce了解人們的工作方法,將算法與工作流結(jié)合,融合于現(xiàn)實產(chǎn)品,供世界范圍內(nèi)的客戶使用。這樣做可以獲得額外好處:就是從真實的世界各地的用戶那里得到反饋。融合方法得當(dāng),就能不斷學(xué)習(xí),在使用中優(yōu)化機器學(xué)習(xí)模型”,Socher說。如此往復(fù),實踐性知識會融入研究工作中,逐漸形成良性循環(huán)。
進(jìn)入Salesforce,以AI+CRM再戰(zhàn)江湖
作為Salesforce的首席科學(xué)家,Socher不僅管理著一個研究團隊,該團隊還陸續(xù)發(fā)表了多篇重要論文。主題涉及自然語言處理、圖像說明、問答系統(tǒng)及多任務(wù)共同學(xué)習(xí)(通過同一神經(jīng)網(wǎng)絡(luò)執(zhí)行大量NLP任務(wù))。這些研究開發(fā)了諸多實用型應(yīng)用設(shè)計,比如最近推出的愛因斯坦視覺系統(tǒng)(Einstein Vision),該系統(tǒng)由一組API組成,幫助各技術(shù)級別的開發(fā)者為CRM添加圖像識別功能,快速建立人工智能驅(qū)動的應(yīng)用。
Salesforce不僅向Socher提供了一個將理論融入實踐的完美環(huán)境,也使其有機會繼續(xù)進(jìn)修深造。每年他都會與Chris Manning聯(lián)合開展一次“自然語言處理與深度學(xué)習(xí)”的課程。這門課有近700名學(xué)生參加,是斯坦福大學(xué)研究生課程中人數(shù)最多的課程。這門課幾乎座無虛席,由此可見,深度學(xué)習(xí)正不斷崛起并大跨越向?qū)嵺`應(yīng)用發(fā)展,人們對人工智能的興趣也與日俱增。
為實現(xiàn)“多任務(wù)同時處理”的功能,Socher一直致力于開發(fā)自動問答系統(tǒng)。雖然問題不同,但只要有相同輸入,即可啟用一套多任務(wù)共同運行模型。Socher非常自信的說:“未來五年,我們在問答系統(tǒng)方面將會取得巨大進(jìn)步。”比如,他認(rèn)為其團隊將實現(xiàn)特定企業(yè)機構(gòu)中匯集所有相關(guān)數(shù)據(jù),投入使用“智能對話系統(tǒng)”。
Socher表示,人們最終一定會制造出來全能的(近乎真人的)人工智能,但他拒絕給出具體時間。與現(xiàn)今大多數(shù)科學(xué)家一樣,他也處于一個唯物主義范式中:“我不認(rèn)為任何哲學(xué)因素能妨礙我們的再造智慧,但是前路漫漫。”與此同時,他也致力于開發(fā)應(yīng)用,無論是深度學(xué)習(xí)的試用功能,還是接著前人70年的研究,努力制造更加有用的電腦。
Socher在其博士論文中引用了語言學(xué)家J.R.Forth的著名言論“觀其伴,知其意。”同樣,你也能從開發(fā)者們的社交中,看到一個逐步完善的人工智能的未來。Socher不僅活躍于世界經(jīng)濟論壇及其他場合,還積極與該領(lǐng)域其他人士互動。一方面與團隊成員、學(xué)術(shù)會議上的研究者和因講座、論文展示以及論文發(fā)表等方面相關(guān)的研究者保持緊密聯(lián)系,另一方面與Salesforce的員工和用戶等實踐者進(jìn)行交流。
與他人互動、學(xué)習(xí)、探討、合作是人類生活的重要方面,是我們獨特的傳遞信息與語境的行為,也是人類創(chuàng)造性在社會層面上的體現(xiàn)。正因如此,人類智力永遠(yuǎn)無法被人工智能取代。但是有像Richard Socher這樣堅持教計算機從數(shù)據(jù)中獲取新知識的人,人工智能必將蓬勃快速發(fā)展。
<來源 :Forbes;編譯:科技行者>
G
M
T
檢測語言 世界語 中文簡體 中文繁體 丹麥語 烏克蘭語 烏茲別克語 烏爾都語 亞美尼亞語 伊博語 俄語 保加利亞語 僧伽羅語 克羅地亞語 冰島語 加利西亞語 加泰羅尼亞語 匈牙利語 南非祖魯語 卡納達(dá)語 印地語 印尼巽他語 印尼爪哇語 印尼語 古吉拉特語 哈薩克語 土耳其語 塔吉克語 塞爾維亞語 塞索托語 威爾士語 孟加拉語 宿務(wù)語 尼泊爾語 巴斯克語 布爾語(南非荷蘭語) 希伯來語 希臘語 德語 意大利語 意第緒語 拉丁語 拉脫維亞語 挪威語 捷克語 斯洛伐克語 斯洛文尼亞語 斯瓦希里語 旁遮普語 日語 格魯吉亞語 毛利語 法語 波蘭語 波斯尼亞語 波斯語 泰盧固語 泰米爾語 泰語 海地克里奧爾語 愛爾蘭語 愛沙尼亞語 瑞典語 白俄羅斯語 立陶宛語 索馬里語 約魯巴語 緬甸語 羅馬尼亞語 老撾語 芬蘭語 苗語 英語 荷蘭語 菲律賓語 葡萄牙語 蒙古語 西班牙語 豪薩語 越南語 阿塞拜疆語 阿爾巴尼亞語 阿拉伯語 韓語 馬其頓語 馬爾加什語 馬拉地語 馬拉雅拉姆語 馬來語 馬耳他語 高棉語 齊切瓦語 | 世界語 中文簡體 中文繁體 丹麥語 烏克蘭語 烏茲別克語 烏爾都語 亞美尼亞語 伊博語 俄語 保加利亞語 僧伽羅語 克羅地亞語 冰島語 加利西亞語 加泰羅尼亞語 匈牙利語 南非祖魯語 卡納達(dá)語 印地語 印尼巽他語 印尼爪哇語 印尼語 古吉拉特語 哈薩克語 土耳其語 塔吉克語 塞爾維亞語 塞索托語 威爾士語 孟加拉語 宿務(wù)語 尼泊爾語 巴斯克語 布爾語(南非荷蘭語) 希伯來語 希臘語 德語 意大利語 意第緒語 拉丁語 拉脫維亞語 挪威語 捷克語 斯洛伐克語 斯洛文尼亞語 斯瓦希里語 旁遮普語 日語 格魯吉亞語 毛利語 法語 波蘭語 波斯尼亞語 波斯語 泰盧固語 泰米爾語 泰語 海地克里奧爾語 愛爾蘭語 愛沙尼亞語 瑞典語 白俄羅斯語 立陶宛語 索馬里語 約魯巴語 緬甸語 羅馬尼亞語 老撾語 芬蘭語 苗語 英語 荷蘭語 菲律賓語 葡萄牙語 蒙古語 西班牙語 豪薩語 越南語 阿塞拜疆語 阿爾巴尼亞語 阿拉伯語 韓語 馬其頓語 馬爾加什語 馬拉地語 馬拉雅拉姆語 馬來語 馬耳他語 高棉語 齊切瓦語 |
文本轉(zhuǎn)語音功能僅限200個字符
選項 : 歷史 : 反饋 : Donate | 關(guān)閉 |
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。