成立一年之際,阿里巴巴前沿技術(shù)研究機(jī)構(gòu)達(dá)摩院又傳來新進(jìn)展。以色列理工學(xué)院著名計(jì)算機(jī)視覺科學(xué)家Lihi Zelnik-Manor教授,已入職達(dá)摩院以色列機(jī)器視覺實(shí)驗(yàn)室。
作為實(shí)驗(yàn)室負(fù)責(zé)人,她將帶領(lǐng)團(tuán)隊(duì)推動(dòng)達(dá)摩院計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)研究,以及新零售、智慧城市等廣泛領(lǐng)域的應(yīng)用結(jié)合。
以色列機(jī)器視覺研究實(shí)驗(yàn)室,是達(dá)摩院遍布全球的科研機(jī)構(gòu)之一,也是達(dá)摩院首支完全由外籍科學(xué)家組成的研發(fā)團(tuán)隊(duì),成員來自于Intel、三星、特拉維夫大學(xué)等世界級(jí)研究機(jī)構(gòu)。
作為全球領(lǐng)先的創(chuàng)新之國與科技中心,以色列一直以從0到1的科技創(chuàng)新著稱全球,而中國則在先進(jìn)技術(shù)的大范圍普及運(yùn)用上積累了豐富經(jīng)驗(yàn)。未來,達(dá)摩院設(shè)立在以色列的研發(fā)實(shí)驗(yàn)室將扮演創(chuàng)新樞紐的角色,結(jié)合中以兩國各自的創(chuàng)新優(yōu)勢,促進(jìn)技術(shù)普惠與新商業(yè)模式的孵化。
機(jī)器視覺實(shí)驗(yàn)室正在研發(fā)的計(jì)算機(jī)視覺技術(shù),能有效提升計(jì)算機(jī)對外部物理世界的理解能力,在城市大腦、新零售等領(lǐng)域都有豐富的應(yīng)用場景。
諸如,通過視頻理解技術(shù),能有效提升城市大腦對對車輛行駛動(dòng)作、行人行為的識(shí)別判斷能力,提升城市道路的管理效率。而在新零售場景,智能貨架與AI收銀機(jī)能更精確的識(shí)別消費(fèi)者的購買動(dòng)作,從而實(shí)現(xiàn)自動(dòng)結(jié)賬、智能防損等應(yīng)用。
圖說:達(dá)摩院以色列機(jī)器視覺實(shí)驗(yàn)室負(fù)責(zé)人 Lihi Zelnik-Manor 教授
加盟達(dá)摩院之前,Lihi Zelnik-Manor在以色列理工學(xué)院電氣工程系擔(dān)任副教授,領(lǐng)導(dǎo)該校的計(jì)算圖像與多媒體實(shí)驗(yàn)室。以色列理工學(xué)院也被譽(yù)為以色列的麻省理工,是以色列重要的基礎(chǔ)科學(xué)與計(jì)算機(jī)科技研究中心。
Lihi教授曾多次榮獲IEEE與ICCV的杰出論文獎(jiǎng),并連續(xù)多年擔(dān)任ECCV 與CVPR等計(jì)算機(jī)視覺大會(huì)的主席,此外她還是頂級(jí)學(xué)術(shù)期刊TPAMI的核心編輯。她還榮獲了以色列理工學(xué)院的Gutwirth獎(jiǎng),以表彰她在計(jì)算機(jī)視覺領(lǐng)域取得的杰出成就。
除了以色列外,達(dá)摩院已在新加坡、美國等多個(gè)國家與地區(qū)設(shè)立研發(fā)中心與實(shí)驗(yàn)室,并與新加坡南洋理工大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校、清華大學(xué)、浙江大學(xué)、中國科學(xué)院成立多個(gè)聯(lián)合研究基地。
好文章,需要你的鼓勵(lì)
新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。