首先與大家分享一個(gè)場景:“……哈巴狗一般大小、名叫‘先鋒’的機(jī)器人慢慢向前翻滾著,逐漸靠近地毯上的玩具‘美國隊(duì)長’,它們對峙站立的地方是一間兒童臥室,Qualcomm在一輛房車中搭建了這個(gè)空間。“先鋒”的動作停頓了下來,好像在評估周遭環(huán)境,然后,它用自己身前像雪鏟一樣的工具把美國隊(duì)長攬入懷中,轉(zhuǎn)個(gè)身,把它向三個(gè)矮矮的玩具箱推去。 高級工程師Ilwoo Chang抬起兩只手臂,指向應(yīng)該投放‘美國隊(duì)長’的那個(gè)箱子。‘先鋒’的攝像頭看到了這個(gè)動作,乖乖地照做了。然后它又翻滾著折返,發(fā)現(xiàn)了另一個(gè)動作片人物‘蜘蛛俠’。”
(圖片來自于《麻省理工科技評論》)
這個(gè)演示完成于Qualcomm圣迭戈總部,Qualcomm稱其為Zeroth項(xiàng)目,描述來自科技期刊《麻省理工科技評論》(MIT Technology Review)的記者。近日這家期刊評選出2014年全球十大突破技術(shù):Qualcomm神經(jīng)形態(tài)芯片(即Zeroth項(xiàng)目)、基因編輯、靈巧性機(jī)器人、超私密智能手機(jī)、微距3D打印、移動協(xié)作、智能風(fēng)能和太陽能、虛擬現(xiàn)實(shí)、農(nóng)用無人機(jī)和腦部圖譜。
“通過Qualcomm Zeroth項(xiàng)目,你可以窺見計(jì)算的未來。 機(jī)器人完成的這些任務(wù)過去通常需要強(qiáng)大的、經(jīng)過專門編程的計(jì)算機(jī)完成,耗費(fèi)的電力也多得多。而‘先鋒’只是配備了一個(gè)智能手機(jī)芯片和專門的軟件,就能識別從前機(jī)器人無法識別的物體,根據(jù)它們與相關(guān)物體的相似程度來做分類,再把它們傳送到房間中正確的位置。 這一切并不是源于繁復(fù)的編程,而只是因?yàn)槿讼蛩菔具^一次它該往哪里走。機(jī)器人可以做到這些,是因?yàn)樗7铝巳四X的運(yùn)作,盡管這種模仿非常有限。” 《麻省理工科技評論》如此評論這次演示。
關(guān)于Zeroth,過去幾年中,Qualcomm研發(fā)團(tuán)隊(duì)一直致力于開發(fā)一種突破傳統(tǒng)模式的全新計(jì)算架構(gòu)。他們希望打造一個(gè)全新的計(jì)算處理器,模仿人類的大腦和神經(jīng)系統(tǒng),使終端擁有大腦模擬計(jì)算驅(qū)動的嵌入式認(rèn)知——這就是Zeroth。也就是說,Qualcomm正在把硅片和生物系統(tǒng)間的界限變模糊,未來你的智能手機(jī)等終端將預(yù)期你下一步想干什么。
“仿生式學(xué)習(xí)”、“使終端能夠像人類一樣觀察和感知世界”、“神經(jīng)處理單元(NPU)的創(chuàng)造和定義”是Zeroth的三個(gè)目標(biāo)。關(guān)于“仿生式學(xué)習(xí)”,值得注意的是,Qualcomm實(shí)現(xiàn)其是通過基于神經(jīng)傳導(dǎo)物質(zhì)多巴胺的學(xué)習(xí)(又名“正強(qiáng)化”)完成的——而非編寫代碼。
稍早前,基于Zeroth,Qualcomm研發(fā)部門參與了一個(gè)突破性的研究,并將其發(fā)現(xiàn)發(fā)表在《自然》雜志上,解釋哺乳動物的大腦是如何對運(yùn)動進(jìn)行探測的。其工程師說,“Qualcomm研發(fā)部門的工作人員以解決重大挑戰(zhàn)為榮,其中一項(xiàng)挑戰(zhàn)是認(rèn)識人腦——最復(fù)雜、最多面的進(jìn)化產(chǎn)物。作為這項(xiàng)先驅(qū)工作的一部分,我們還建立了模擬視網(wǎng)膜和神經(jīng)元的數(shù)學(xué)模型和算法,讓整個(gè)科學(xué)界能夠在進(jìn)一步的研究和測試中使用和利用。”這樣的表述與Qualcomm執(zhí)行董事長保羅·雅各布日前在中國南京發(fā)表的演講相呼應(yīng),雅各布說,“(科技進(jìn)步)這一切背后的推動力是什么?我相信是發(fā)明創(chuàng)造,是創(chuàng)新為這個(gè)市場帶來了增長,為消費(fèi)者帶來了新的服務(wù)和新的能力。”
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。