機(jī)器學(xué)習(xí)系統(tǒng)建立在人造神經(jīng)元層上,稱為神經(jīng)網(wǎng)絡(luò)。這些網(wǎng)絡(luò)層通過(guò)神經(jīng)元之間看似隨意的連接而聯(lián)系在一起,而整個(gè)系統(tǒng)會(huì)通過(guò)微調(diào)這些連接進(jìn)行"學(xué)習(xí)"。
這已經(jīng)成為如今人工智能系統(tǒng)有效運(yùn)行的重要支撐,然而,它卻以極為"神秘"的方式運(yùn)作。
對(duì)于諸如"這是一只貓的照片嗎?""下一步棋該怎么走?""自動(dòng)駕駛汽車在遇到黃燈時(shí)是否應(yīng)該加速?"等等問(wèn)題,神經(jīng)網(wǎng)絡(luò)往往能夠輕松給出答案,但關(guān)鍵問(wèn)題在于,我們并不知道它是如何做到的。這就是所謂的"黑匣子"。
而為了讓人工智能在具體應(yīng)用中變得更值得信賴,越來(lái)越多的研究者正在試圖打開"黑匣子",理解系統(tǒng)得出某個(gè)具體結(jié)論的過(guò)程。
最近,美國(guó)加州大學(xué)圣迭戈分校生物工程與醫(yī)學(xué)教授Trey Ideker與他的研究團(tuán)隊(duì)一起,開發(fā)了一種"可見"的神經(jīng)網(wǎng)絡(luò),并用它構(gòu)建了稱之為DCell的啤酒酵母細(xì)胞模型(通常被用作基礎(chǔ)研究的一種模型)。
具體而言,就是將神經(jīng)網(wǎng)絡(luò)映射到簡(jiǎn)單的酵母細(xì)胞內(nèi),使得研究人員能夠觀察AI系統(tǒng)的運(yùn)作方式。在這個(gè)過(guò)程當(dāng)中,研究人員得到了關(guān)于細(xì)胞生物學(xué)的諸多分析結(jié)論,而由此產(chǎn)生的技術(shù)還可能有助于研發(fā)新的癌癥藥物和個(gè)性化治療方案。
計(jì)算機(jī)科學(xué)家通過(guò)設(shè)置多個(gè)圖層來(lái)建立神經(jīng)網(wǎng)絡(luò)框架,其中每個(gè)圖層包含數(shù)千個(gè)負(fù)責(zé)執(zhí)行微小計(jì)算任務(wù)的"神經(jīng)元".
在此基礎(chǔ)上,培訓(xùn)人員輸入數(shù)據(jù)集(例如數(shù)百萬(wàn)張貓、狗的照片,數(shù)百萬(wàn)次圍棋落子,數(shù)百萬(wàn)種駕駛操作與結(jié)果等),由系統(tǒng)連接圖層中的神經(jīng)元,對(duì)其進(jìn)行結(jié)構(gòu)化序列計(jì)算。該系統(tǒng)將通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)處理,然后檢查其執(zhí)行任務(wù)的實(shí)際效果(例如將貓與狗者區(qū)分的準(zhǔn)確度)。
最后,通過(guò)重新排列神經(jīng)元之間的連接模式并再次運(yùn)行數(shù)據(jù)集,檢查新模式是否產(chǎn)生更好的結(jié)果。當(dāng)神經(jīng)網(wǎng)絡(luò)能夠非常準(zhǔn)確地完成任務(wù)時(shí),培訓(xùn)人員就會(huì)認(rèn)定訓(xùn)練成功完成。
"雖然它們被稱為神經(jīng)網(wǎng)絡(luò),但這些系統(tǒng)所受到的人類神經(jīng)系統(tǒng)啟發(fā)還非常初級(jí)。"Ideker解釋道。
他指出:"著眼于AlphaGo,可以發(fā)現(xiàn)這套系統(tǒng)的內(nèi)部工作方式完全是一團(tuán)亂麻,事實(shí)上根本不像人腦。它擁有一種全新的思維方式,但只是恰好能夠作出不錯(cuò)的預(yù)測(cè)結(jié)論。"
立足于此,Ideker開始在細(xì)胞生物學(xué)人工智能研究當(dāng)中作出新的嘗試。他希望能夠利用神經(jīng)網(wǎng)絡(luò)向研究人員們展示這些結(jié)論的得出方式,而不僅是簡(jiǎn)單粗暴地給出答案。
Ideker在接受采訪時(shí)表示:"我們對(duì)于這樣一套并非由計(jì)算機(jī)科學(xué)家進(jìn)行優(yōu)化,而是通過(guò)進(jìn)化完成優(yōu)化的特定結(jié)構(gòu)抱有濃厚興趣。"
DCell可以像實(shí)驗(yàn)室實(shí)驗(yàn)一樣精確地預(yù)測(cè)酵母細(xì)胞的生長(zhǎng)和繁殖
這一項(xiàng)目之所以具備可行性,是因?yàn)獒劸平湍甘且环N單細(xì)胞生物,從上世紀(jì)五十年代以來(lái)就一直被作為一類基礎(chǔ)生物系統(tǒng)接受研究。Ideker指出:"我們擁有大量細(xì)胞生物學(xué)知識(shí)可供參考,因此這項(xiàng)研究非常方便。"
因此,他的團(tuán)隊(duì)通過(guò)把神經(jīng)網(wǎng)絡(luò)中的各個(gè)圖層映射至酵母細(xì)胞的組成部分中,從最微觀的組成元素(構(gòu)成DNA的核苷酸)開始,逐步向上延伸至更大的結(jié)構(gòu)--例如核糖體(從DNA處獲取指令以制造蛋白質(zhì)),最后到達(dá)線粒體及細(xì)胞核等細(xì)胞器(負(fù)責(zé)執(zhí)行細(xì)胞活動(dòng))。總體而言,這套DCell神經(jīng)網(wǎng)絡(luò)將運(yùn)用到酵母細(xì)胞中的總計(jì)2526個(gè)子系統(tǒng)。
DCell作為在線應(yīng)用程序可供研究人員使用
DCell允許研究人員們變更細(xì)胞的DNA(即遺傳代碼),并觀察這些變化如何向上蔓延以改變其生物學(xué)特征,進(jìn)而影響到后續(xù)細(xì)胞生長(zhǎng)與繁殖。其訓(xùn)練數(shù)據(jù)集由來(lái)自數(shù)百萬(wàn)個(gè)真實(shí)酵母細(xì)胞的基因突變實(shí)例組成,且與對(duì)應(yīng)的突變結(jié)果信息相匹配。
研究人員發(fā)現(xiàn),DCell能夠通過(guò)模擬酵母來(lái)準(zhǔn)確預(yù)測(cè)細(xì)胞的生長(zhǎng)。由于這是一套"可見"的神經(jīng)網(wǎng)絡(luò),因此研究人員們能夠看到細(xì)胞機(jī)制在進(jìn)行DNA混淆時(shí)發(fā)生的改變。
這種可視性,意味著DCell能夠潛在應(yīng)用于細(xì)胞的計(jì)算機(jī)制研究,且無(wú)需耗費(fèi)大量時(shí)間與實(shí)驗(yàn)室實(shí)驗(yàn)資源投入。如果研究人員能夠弄清其實(shí)際建模過(guò)程--而非簡(jiǎn)單的酵母細(xì)胞,則可進(jìn)一步模擬更復(fù)雜的人類細(xì)胞。"如果能夠構(gòu)建單一人體細(xì)胞的整體工作模型并對(duì)其進(jìn)行模擬,這將徹底改變精準(zhǔn)醫(yī)學(xué)與藥物研發(fā)的發(fā)展方向。"Ideker表示。
癌癥是目前最受關(guān)注的疾病研究方向,因?yàn)槊恳晃话┌Y患者的腫瘤細(xì)胞都包含獨(dú)特的突變組合。而Ideker和他的團(tuán)隊(duì)正在使用患者的基因組與突變條件建立模型,觀察細(xì)胞的實(shí)際生長(zhǎng)速度,以及癌癥的侵略性特性。
更重要的是,致力于尋找癌癥新藥的制藥企業(yè)將能夠利用細(xì)胞生長(zhǎng)情況作為成功或失敗的評(píng)判標(biāo)準(zhǔn)。他們將觀察到眾多可以開啟及關(guān)閉的不同基因分子,并據(jù)此思考某種潛在藥物是否能夠停止腫瘤細(xì)胞的增殖??紤]到以往需要數(shù)十億美元進(jìn)行抗癌藥物研發(fā)投入,如今這種更為便捷的研究方式明顯更具吸引力。
Ideker預(yù)測(cè)稱,這些數(shù)據(jù)的積累速度會(huì)相當(dāng)快。在他看來(lái),對(duì)患者基因組進(jìn)行測(cè)序?qū)⑹艿礁叨汝P(guān)注。
而更棘手的部分在于積累人類癌細(xì)胞活動(dòng)機(jī)制的知識(shí),只有這樣才能將神經(jīng)網(wǎng)絡(luò)映射至細(xì)胞中的各個(gè)部分。Ideker本人正是癌細(xì)胞繪圖計(jì)劃的成員之一,他們希望能夠盡快解決這一挑戰(zhàn)。目前,對(duì)癌細(xì)胞的生物活動(dòng)進(jìn)行歸納是一項(xiàng)非常困難的任務(wù),因?yàn)檫@些突變不僅能夠開啟及關(guān)閉細(xì)胞功能,同時(shí)也會(huì)對(duì)細(xì)胞功能造成不同程度的影響,并以極為復(fù)雜的方式引發(fā)協(xié)調(diào)性變化。
不過(guò),Ideker對(duì)于利用遷移學(xué)習(xí)技術(shù)將機(jī)器學(xué)習(xí)方案從模擬酵母細(xì)胞轉(zhuǎn)化為模擬人類細(xì)胞的神經(jīng)網(wǎng)絡(luò)仍抱有樂(lè)觀態(tài)度。他總結(jié)稱:"只要建立起一套能夠識(shí)別貓的系統(tǒng),那么無(wú)需對(duì)其進(jìn)行完全重新訓(xùn)練,也可以教會(huì)它如何識(shí)別松鼠。"
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。