來源丨科技行者
作者丨周周
藥物研發(fā)長久以來一直是一個(gè)耗時(shí)、昂貴且風(fēng)險(xiǎn)極高的行業(yè),而在這個(gè)AI技術(shù)日益成熟的時(shí)代, Isomorphic Labs公司(從DeepMind分拆出來)正在試圖改變這一現(xiàn)狀。
留意到Isomorphic Labs首席AI官M(fèi)ax Jaderberg的一次訪談,他揭示了如何利用AI徹底重塑藥物發(fā)現(xiàn),這可能會導(dǎo)致全球醫(yī)藥研發(fā)模式的根本性轉(zhuǎn)變。
Jaderberg講了這樣一個(gè)趨勢:AI系統(tǒng)有望在龐大到幾乎無法想象的分子空間中(科學(xué)家估計(jì)有10^60種可能性,遠(yuǎn)超宇宙中的原子數(shù)量)發(fā)現(xiàn)突破性藥物,他還解釋了Isomorphic Labs的“完美藥物設(shè)計(jì)系統(tǒng)”愿景,以及如何利用AI技術(shù)在這片廣袤的“分子海洋”中精準(zhǔn)導(dǎo)航。
最引人深思的是Jaderberg將藥物發(fā)現(xiàn)比作復(fù)雜的策略游戲——需要AI既精通“游戲規(guī)則”(生物化學(xué)原理),又能像聰明的“游戲玩家”那樣找到創(chuàng)新性解決方案。他引用AlphaGo著名的“第37步”作為類比——一步當(dāng)時(shí)被所有人類專家認(rèn)為錯誤但最終證明至關(guān)重要的棋著,后來卻證明是制勝關(guān)鍵。“我們可能很快就會看到AI設(shè)計(jì)出人類科學(xué)家從未想到過的藥物分子,而這些分子可能成為治療疾病的關(guān)鍵。”
Isomorphic Labs團(tuán)隊(duì)正在努力實(shí)現(xiàn)多個(gè)像AlphaFold一樣級別的科學(xué)突破,Jaderberg表示有充分理由相信,未來十年藥物研發(fā)領(lǐng)域?qū)⒂瓉矸旄驳氐淖兓?。如果他們的愿景成真,AI不僅會加速藥物研發(fā)進(jìn)程,還將從根本上改變我們理解和治療疾病的方式,為人類健康帶來前所未有的可能性。
在傳統(tǒng)制藥行業(yè)面臨轉(zhuǎn)型壓力之際,Max Jaderberg這樣將AI創(chuàng)新與醫(yī)學(xué)使命相結(jié)合的先行者,或?qū)⒁I(lǐng)全球醫(yī)藥產(chǎn)業(yè)步入一個(gè)嶄新的時(shí)代。
參與強(qiáng)化學(xué)習(xí)的成長
在探討Isomorphic Labs的宏偉使命之前,Max首先回顧了他在深度學(xué)習(xí)領(lǐng)域的職業(yè)歷程。作為DeepMind的早期成員,他參與編寫了許多開創(chuàng)性論文,包括「Capture the Flag(奪旗)」和「AlphaStar」等突破性研究。
“在DeepMind時(shí),我接觸了各種研究方向,從早期的計(jì)算機(jī)視覺到深度生成模型。但真正吸引我的是強(qiáng)化學(xué)習(xí),當(dāng)時(shí)DeepMind絕對是全球強(qiáng)化學(xué)習(xí)研究的中心。”Max說,“我們當(dāng)時(shí)思考的核心問題是:如何訓(xùn)練一個(gè)AI,能夠執(zhí)行任何我們想讓它做的任務(wù)。”
Max指出,當(dāng)時(shí)機(jī)器學(xué)習(xí)領(lǐng)域的主流范式是監(jiān)督學(xué)習(xí),它與強(qiáng)化學(xué)習(xí)有本質(zhì)區(qū)別。在監(jiān)督學(xué)習(xí)中,你需要知道問題的答案才能訓(xùn)練模型;而在強(qiáng)化學(xué)習(xí)中,你不需要知道確切答案,只需能夠評判模型給出的答案好壞即可。
如果從AI應(yīng)用的角度思考,監(jiān)督學(xué)習(xí)適用于人類已經(jīng)擅長的領(lǐng)域,但真正的前沿在于那些人類尚未掌握或存在能力限制的領(lǐng)域——這正是強(qiáng)化學(xué)習(xí)大有可為的地方,強(qiáng)化學(xué)習(xí)不要求知道答案是什么,只需能評估答案的好壞程度,這打開了一個(gè)全新的問題領(lǐng)域。
DeepMind早期的重大突破之一,是在Atari游戲上應(yīng)用強(qiáng)化學(xué)習(xí)。而Max和團(tuán)隊(duì)的下一個(gè)挑戰(zhàn)是:如何將這種方法擴(kuò)展到更接近現(xiàn)實(shí)世界復(fù)雜問題的系統(tǒng)?
“從概念上講,我們需要從簡單的Pong和太空入侵者等游戲,過渡到真正看起來像現(xiàn)實(shí)世界問題的領(lǐng)域。我們逐步擴(kuò)展這些方法的規(guī)模,取得了驚人的進(jìn)展。”Max回憶起在研究過程中,團(tuán)隊(duì)經(jīng)常一邊訓(xùn)練AI智能體,一邊在間隙玩上一局Pong游戲,“這些經(jīng)典游戲確實(shí)很有趣。”
用游戲訓(xùn)練AI
在談到「Capture the Flag(奪旗)」和「AlphaStar」這兩個(gè)重大突破時(shí),Max解釋了為什么選擇這些特定游戲作為研究對象。(編者注:奪旗模式(Capture the Flag) 是一種多人游戲模式,玩家需要奪取對方的旗幟并保護(hù)自己的旗幟,DeepMind用這個(gè)游戲訓(xùn)練AI學(xué)習(xí)團(tuán)隊(duì)合作和策略思維。AlphaStar是DeepMind開發(fā)的AI系統(tǒng),是首個(gè)在《星際爭霸II》這款復(fù)雜戰(zhàn)略游戲中擊敗頂級職業(yè)玩家的AI。)
“首先,視頻游戲就像是完美封裝的世界,是可以完全被控制的小世界。”Max解釋道,“作為研究人員,我們可以隨意調(diào)整游戲設(shè)置,測試不同的AI方法,這讓游戲成為開發(fā)新AI技術(shù)的理想場所。”
隨著研究深入,簡單的Atari游戲已經(jīng)不夠用了。Max有個(gè)大膽的目標(biāo):創(chuàng)造能適應(yīng)任何新挑戰(zhàn)的AI智能體,而不必為每個(gè)新任務(wù)重新訓(xùn)練它。
“我們想要的是這樣一種AI:訓(xùn)練一個(gè)智能體,它就能面對任何全新的任務(wù)并表現(xiàn)出色,不需要額外訓(xùn)練,這就像是要求AI具備‘舉一反三’的能力。要做到這一點(diǎn),你需要用大量不同類型的任務(wù)來訓(xùn)練它。在強(qiáng)化學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)不是圖片或文字,而是各種各樣的任務(wù)本身。”
團(tuán)隊(duì)最初嘗試手動創(chuàng)建各種小游戲和虛擬世界來訓(xùn)練AI,但很快就遇到了瓶頸——人類的創(chuàng)造力有限。
“這就是多人游戲的神奇之處,”Max說,“一旦從單人游戲轉(zhuǎn)向多人游戲,情況就完全不同了。不僅僅是AI在玩,還有其他玩家參與其中。每個(gè)不同的對手、每種不同的策略都會從根本上改變游戲性質(zhì)和AI的目標(biāo)。”也就是說,多人游戲和多智能體系統(tǒng)提供了智能體可能遇到的任務(wù)多樣性,而這種多樣性是由于其他玩家的存在。
他用國際象棋舉例:“為什么人們數(shù)百年來一直癡迷于國際象棋?為什么職業(yè)棋手每天仍然興致勃勃地下棋?表面上看是同一個(gè)游戲,但實(shí)際上每次面對不同的對手,游戲本質(zhì)上就完全不同了。”
“Capture the Flag(奪旗)”是團(tuán)隊(duì)首次利用多人游戲來拓展AI能力的嘗試,它證明AI可以在復(fù)雜的多人第一人稱游戲中達(dá)到人類水平。而“AlphaStar”模式則代表了更高難度的挑戰(zhàn)。
當(dāng)被問到這些早期理念如今在語言模型中的應(yīng)用時(shí),Max欣慰地表示:“看到7年前我們只能討論的基礎(chǔ)概念,如今在大語言模型中發(fā)揮如此重要的作用,真的很令人滿足。當(dāng)時(shí)我們只敢夢想的性能,現(xiàn)在已經(jīng)變成了現(xiàn)實(shí)。”
從趣味性AI系統(tǒng),到解決真實(shí)世界難題
Max講述了他如何從開發(fā)“趣味性AI系統(tǒng)”逐漸轉(zhuǎn)向“解決真實(shí)世界難題”的經(jīng)歷,特別是在藥物設(shè)計(jì)領(lǐng)域的突破。
“我沉迷于深度學(xué)習(xí)已經(jīng)10多年了,這個(gè)領(lǐng)域最讓我著迷的是,那些基礎(chǔ)的核心概念就像樂高積木一樣,可以奇妙地應(yīng)用到完全不同的領(lǐng)域。無論是2012年的計(jì)算機(jī)視覺技術(shù),還是早期的生成式AI,再到語言和強(qiáng)化學(xué)習(xí),它們都用著同樣的基礎(chǔ)構(gòu)件。”
Max不斷發(fā)現(xiàn)一個(gè)規(guī)律:只要結(jié)合這些基本概念、聚集優(yōu)秀人才、再加上足夠的計(jì)算資源,就能解決那些看似遙不可及的難題。
“我一次又一次地看到,當(dāng)我們拿著這些關(guān)鍵技術(shù),組建一支像‘頂級廚師’一樣精通如何混搭這些技術(shù)的團(tuán)隊(duì),去挑戰(zhàn)真正困難的問題時(shí)——那些你在會議上聽到行業(yè)專家說‘至少還需要10年’的問題,我心里卻知道‘我們基本上已經(jīng)解決了’。”
“我一直都想看到這些技術(shù)真正應(yīng)用到現(xiàn)實(shí)生活中,帶來積極的變革。現(xiàn)在,這個(gè)時(shí)機(jī)終于成熟了。”
Max與DeepMind創(chuàng)始人兼CEO Demis Hassabis的合作已經(jīng)持續(xù)了十年。他們的公司Vision Factory和DeepMind都在2014年左右被谷歌收購,此后兩人便開始共事。Max分享了與這位他稱為“我們這個(gè)時(shí)代最偉大的科學(xué)家、技術(shù)專家和創(chuàng)業(yè)者之一”的合作經(jīng)歷。
“Demis真的是個(gè)非常了不起的人,一個(gè)真正有遠(yuǎn)見的人。他的感染力超強(qiáng),只要聊五分鐘,你就能感受到他宏大的愿景和實(shí)現(xiàn)這些愿景的緊迫感。他有本事給一群非常聰明的人注入巨大的能量,讓大家看到眼前困難之外的可能性。”
Max舉了個(gè)生動的例子:“我記得在DeepMind早期辦公室的大廳里,我們正在慶祝發(fā)表了公司的第一篇《自然》雜志論文。當(dāng)時(shí)Demis說,‘這實(shí)際上只是我們要發(fā)表的幾十篇《自然》論文中的第一篇。’那時(shí)候,這差不多是第一篇登上《自然》的機(jī)器學(xué)習(xí)研究——關(guān)于AI玩Atari游戲的論文。幾十篇《自然》論文的目標(biāo)聽起來簡直不可思議。他甚至說,‘而且我們會因此贏得諾貝爾獎。’那是10年前的事了。”結(jié)果他真的在2024年拿到了諾獎。
“Demis有一種我稱之為‘前瞻性思維’的能力,可能是因?yàn)樗聡H象棋的經(jīng)驗(yàn),他總是在展望未來,思考現(xiàn)在需要采取哪些步驟才能達(dá)到那個(gè)宏大目標(biāo)。”
Isomorphic Labs愿景:開發(fā)一個(gè)通用的AI藥物設(shè)計(jì)引擎
談到Isomorphic Labs的使命,Max用簡單但充滿激情的語言描述了他們的愿景:利用AI徹底改變我們發(fā)現(xiàn)和開發(fā)藥物的方式。
“在Isomorphic,我們的目標(biāo)非常大膽——我們想要解決所有疾??!我們正在打造的AI技術(shù)將徹底改變兩件事:一是我們理解生物世界的方式;二是我們設(shè)計(jì)化學(xué)物質(zhì)來調(diào)節(jié)生物機(jī)制的能力。”
“想象這樣一個(gè)未來:我們能夠應(yīng)對任何疾病,AI不僅幫我們發(fā)現(xiàn)、創(chuàng)造和設(shè)計(jì)新的治療方法,還能讓我們真正看懂生物世界的運(yùn)作方式——我們的細(xì)胞是怎么工作的,疾病的真正原因是什么,從而找到全新的治療途徑。”
Max強(qiáng)調(diào),Isomorphic從創(chuàng)立之初就懷揣這個(gè)宏大夢想。他們不是專注于某一種特定疾病或某個(gè)特定靶點(diǎn),而是致力于創(chuàng)建一個(gè)通用的“AI藥物設(shè)計(jì)引擎”,可以應(yīng)用于任何靶點(diǎn)、任何類型的疾病。
當(dāng)被問到如何從一開始就建立這種通用性時(shí),Max解釋了Isomorphic與傳統(tǒng)藥物設(shè)計(jì)AI的根本區(qū)別。
“目前藥物設(shè)計(jì)中的AI應(yīng)用,有很多使用機(jī)器學(xué)習(xí)模型的例子,大多是我稱之為‘第一代’或’局部模型‘。這些模型通常只有特定靶點(diǎn)的數(shù)據(jù),或者只了解特定分子類別的行為數(shù)據(jù)。你用一個(gè)小型AI模型來學(xué)習(xí)這些有限的數(shù)據(jù),幫你做一些預(yù)測,指導(dǎo)下一步設(shè)計(jì)。”
“我們的方法完全不同。從第一天起,我們就致力于創(chuàng)建能夠適用于整個(gè)化學(xué)領(lǐng)域和各種靶點(diǎn)的模型。AlphaFold就是一個(gè)很好的例子——這個(gè)模型可以應(yīng)用于任何蛋白質(zhì),可以處理任何你能想到的小分子,而且不需要額外調(diào)整,不需要任何專門的數(shù)據(jù)。”
這種通用性徹底改變了科學(xué)家使用這些工具的方式。在Isomorphic的每個(gè)研究項(xiàng)目中,他們都堅(jiān)持這一理念:開發(fā)能應(yīng)用于任何靶點(diǎn)、任何疾病機(jī)制的通用模型。
就像一把能開各種鎖的萬能鑰匙,而不是為每把鎖單獨(dú)打造鑰匙,Isomorphic的AI系統(tǒng)旨在成為藥物研發(fā)的通用解決方案。
挑戰(zhàn):我們還需要“半打”AlphaFold突破
Max首次透露,要實(shí)現(xiàn)他們夢想中的革命性藥物設(shè)計(jì)系統(tǒng),還需要幾項(xiàng)和AlphaFold同等級的科學(xué)突破。
AlphaFold是理解生物分子結(jié)構(gòu)的一項(xiàng)重大突破。AlphaFold 2讓我們能看清蛋白質(zhì)的三維結(jié)構(gòu),而AlphaFold 3則讓我們能看清蛋白質(zhì)與藥物分子、DNA和RNA是如何相互作用的。這是巨大的進(jìn)步,讓我們能夠以實(shí)驗(yàn)級的準(zhǔn)確度理解生物化學(xué)的核心原理。
“說實(shí)話,我認(rèn)為我們可能還需要5-6個(gè)類似的突破——在生物學(xué)和化學(xué)的其他關(guān)鍵領(lǐng)域達(dá)到實(shí)驗(yàn)級準(zhǔn)確性的突破——才能真正變革藥物設(shè)計(jì)。因?yàn)樗幬镌O(shè)計(jì)極其復(fù)雜,不僅僅是了解蛋白質(zhì)結(jié)構(gòu),也不僅僅是設(shè)計(jì)能以特定方式影響蛋白質(zhì)的分子。”
“理想的藥物需要很多條件:你希望這個(gè)分子能做成藥片方便服用,能在體內(nèi)被正確吸收,能到達(dá)目標(biāo)器官和細(xì)胞,能進(jìn)入細(xì)胞內(nèi)部,還不能被肝臟過快分解掉。作為藥物設(shè)計(jì)師,你需要考慮許多復(fù)雜因素,每一個(gè)因素都需要像AlphaFold那樣的突破性進(jìn)展。”
AlphaFold 3是一項(xiàng)真正開創(chuàng)性的突破,它讓我們從僅能看清蛋白質(zhì)結(jié)構(gòu),進(jìn)步到現(xiàn)在能夠模擬所有分子及其相互作用。Max用通俗的語言解釋了這一進(jìn)展的意義:
AlphaFold 2是讓我們看清蛋白質(zhì)結(jié)構(gòu)的重大突破。后來又有了AlphaFold 2 Multimer,讓我們不僅能看清單個(gè)蛋白質(zhì)的結(jié)構(gòu),還能理解多個(gè)蛋白質(zhì)如何組合在一起形成復(fù)合物,這幫助我們解答了許多生物學(xué)難題。
但要設(shè)計(jì)治療藥物,還有一大步要跨越。許多常見藥物屬于“小分子”類別,它們不是蛋白質(zhì),比如咖啡因或撲熱息痛,通??梢宰龀伤幤韵氯?。這些小分子藥物的工作原理是,它們進(jìn)入細(xì)胞后會粘附在特定蛋白質(zhì)上。
蛋白質(zhì)是生命的基本構(gòu)件,它們通過與其他蛋白質(zhì)相互作用形成“分子機(jī)器”。想象一下,如果有另一個(gè)分子——你的藥物——附著在蛋白質(zhì)上,它可能會干擾該蛋白質(zhì)與其他蛋白質(zhì)的正常相互作用,從而調(diào)節(jié)該蛋白質(zhì)的功能。這就是藥物設(shè)計(jì)和治療藥物工作的本質(zhì)。
作為化學(xué)家或藥物設(shè)計(jì)師,你的工作是設(shè)計(jì)一個(gè)小分子,它會附著在特定蛋白質(zhì)上,改變或增強(qiáng)其正常功能。了解這個(gè)小分子如何與蛋白質(zhì)互動非常重要——它們形成什么樣的結(jié)構(gòu)?有哪些物理互動?
“這就是啟發(fā)AlphaFold 3創(chuàng)建的原因——現(xiàn)在我們有了一個(gè)模型,不僅能預(yù)測蛋白質(zhì)的結(jié)構(gòu),還能預(yù)測蛋白質(zhì)如何與小分子、DNA和RNA等基本生物分子相互作用。這基本上讓我們能夠看清藥物設(shè)計(jì)的核心部分。”
“AlphaFold 3非常準(zhǔn)確,讓我們可以完全在計(jì)算機(jī)上回答這些問題,而以前你必須去實(shí)驗(yàn)室,花上六個(gè)月甚至幾年,親手結(jié)晶這些物質(zhì)才能看清它們,有時(shí)甚至根本無法做到?,F(xiàn)在在Isomorphic,我們的藥物設(shè)計(jì)師只需坐在電腦前,通過網(wǎng)頁界面就能理解設(shè)計(jì)變化及其影響。”
當(dāng)被問到訓(xùn)練AlphaFold 3面臨的挑戰(zhàn)以及為什么選擇擴(kuò)散模型時(shí),Max用簡單的語言解釋了這個(gè)復(fù)雜問題。
“我們面臨的一個(gè)最有趣的難題是:如何讓AlphaFold從只認(rèn)識蛋白質(zhì)擴(kuò)展到認(rèn)識DNA、RNA和小分子藥物。”
首先,我們需要解決如何‘標(biāo)記’這些不同類型的分子。對DNA和RNA來說比較簡單,我們可以按照它們的基本單位(堿基)來標(biāo)記。但對小分子藥物,我們嘗試了很多不同的方法,最后發(fā)現(xiàn)直接到原子級別的標(biāo)記效果最好。
然后,預(yù)測這種混合分子結(jié)構(gòu)。我們不能用AlphaFold 2相同的框架,這時(shí)擴(kuò)散模型就派上了大用場。我們可以單獨(dú)模擬每個(gè)原子及其在三維空間中的位置,讓擴(kuò)散模型生成這些3D坐標(biāo),同時(shí)使用我們的標(biāo)記方式來引導(dǎo)這個(gè)過程。
“這是一個(gè)巨大的突破。尤其是在小分子-蛋白質(zhì)相互作用準(zhǔn)確性方面,我們?nèi)〉昧孙w躍性進(jìn)展,這真正為整個(gè)項(xiàng)目打開了大門。”
尋找“藥物設(shè)計(jì)圣杯模型”與“智能科學(xué)助手“
Max描述了他所說的“藥物設(shè)計(jì)圣杯模型”和“科學(xué)智能體”的概念,這是Isomorphic Labs愿景的核心。
“我們一直在追求的一些研究方向,比如預(yù)測分子的結(jié)構(gòu)和性質(zhì),以及這些生物分子如何相互作用并隨時(shí)間演變,這些真的是藥物設(shè)計(jì)中的‘終極問題’。我們已經(jīng)取得了令人難以置信的突破,徹底改變了我們在Isomorphic內(nèi)部設(shè)計(jì)藥物的方式。”
但Max指出,即使創(chuàng)造了世界上最好的預(yù)測模型,也不足以完全解決藥物設(shè)計(jì)問題。
“有一個(gè)數(shù)字:10^60,這可能是所有可能的類藥物分子的數(shù)量。就算我們把這個(gè)數(shù)字減少20個(gè)量級,得到10^40,這仍然是個(gè)巨大的數(shù)字。即使你有世界上最好的預(yù)測模型,能篩選10億個(gè)不同的分子(10^9),我們?nèi)匀挥?0^31個(gè)分子沒有探索。”
“所以,即使有最好的預(yù)測模型,我們也只是觸及了應(yīng)該探索的分子空間的表面。這就是為什么我們需要超越預(yù)測模型,需要能夠自動生成分子的模型,需要能夠在這個(gè)10^40到10^60龐大空間中智能導(dǎo)航的‘智能體’。”
Max用一個(gè)簡單的比喻解釋:“分子設(shè)計(jì)更像圍棋而不是國際象棋。和國際象棋不同,我們不可能計(jì)算出圍棋中所有可能的走法。同樣,我們不可能枚舉出所有可能的分子設(shè)計(jì)。這就是生成模型的用武之地——利用能自動創(chuàng)造分子的模型、智能搜索技術(shù)、和這些驚人預(yù)測能力的智能體,真正打開整個(gè)分子宇宙。”
“令人驚訝的是,即使沒有AI,人類科學(xué)家也已經(jīng)在這個(gè)10^60或10^40的空間中找到了一些有效藥物。這表明可能存在很多‘重復(fù)解’,很多潛在的可行設(shè)計(jì)。對于特定疾病或特定靶點(diǎn),應(yīng)該存在多種設(shè)計(jì)方案,它們都能成為良好的治療藥物。”
Max將這種方法與他的游戲AI背景聯(lián)系起來:“我們必須創(chuàng)建我們的「世界模型」,我們的生化世界模型,我們的生物世界模型。但我們不止步于此,還需要創(chuàng)建能夠自動探索的智能體和生成模型。如何在這個(gè)龐大的化學(xué)空間中找到那些珍貴的‘針’——那些可能改變數(shù)百萬人生命的藥物。”
AI在生物學(xué)中的三大支柱:數(shù)據(jù)、計(jì)算與算法
談到數(shù)據(jù)、計(jì)算和算法的重要性時(shí),Max回應(yīng)了Demis在一次采訪中說的“我們在生物學(xué)方面并不受數(shù)據(jù)限制”這一觀點(diǎn)。
“無論你在機(jī)器學(xué)習(xí)的哪個(gè)領(lǐng)域工作,你總會感覺數(shù)據(jù)不夠用。我理解Demis的意思是,數(shù)據(jù)不是真正卡住我們的瓶頸,我們可以利用現(xiàn)有數(shù)據(jù)和我們能自己創(chuàng)造的數(shù)據(jù)取得很大進(jìn)展。我們不必等50年,讓世界產(chǎn)生足夠的數(shù)據(jù)才能做出影響,完全不是這樣。”
“有些領(lǐng)域的數(shù)據(jù)其實(shí)已經(jīng)存在多年了,我們現(xiàn)在能取得比以往好得多的成果。但這并不是說生物學(xué)領(lǐng)域沒有數(shù)據(jù)機(jī)會。思考‘我們應(yīng)該創(chuàng)造什么樣的數(shù)據(jù)’將是我們繼續(xù)開發(fā)這些模型和系統(tǒng)的重要部分。”
“我認(rèn)為,為生物學(xué)機(jī)器學(xué)習(xí)專門設(shè)計(jì)的數(shù)據(jù)其實(shí)還沒有被創(chuàng)造出來。雖然有很多歷史數(shù)據(jù),但這些數(shù)據(jù)不是為訓(xùn)練AI而收集的。當(dāng)你思考如何專門為訓(xùn)練模型創(chuàng)造數(shù)據(jù)時(shí),你的思路與過去科學(xué)家收集數(shù)據(jù)的方式完全不同。這里有很大的創(chuàng)新機(jī)會。”
當(dāng)被問到目前缺少什么類型的數(shù)據(jù)以及是否需要合成數(shù)據(jù)(人造數(shù)據(jù))時(shí),Max表示他一直是合成數(shù)據(jù)的堅(jiān)定支持者。
“從我職業(yè)生涯開始,我就一直看好人造數(shù)據(jù)。在我的博士研究中,我曾經(jīng)生成人造文本數(shù)據(jù),來克服我只能訪問幾千張圖像而谷歌有數(shù)百萬張圖像的局限。在化學(xué)領(lǐng)域,我們也面臨類似情況。”
“幸運(yùn)的是,我們對物理有很好的理論基礎(chǔ)。我們對量子化學(xué)和量子力學(xué)有相當(dāng)了解,可以創(chuàng)建計(jì)算機(jī)模擬。我們可以簡化這些理論,創(chuàng)建更高效的分子動力學(xué)模擬。這為生成大量人造數(shù)據(jù)提供了基礎(chǔ)。再加上AI生成模型本身,我們可以創(chuàng)造新數(shù)據(jù),并使用評分系統(tǒng)來提高這些數(shù)據(jù)的質(zhì)量。”
但Max指出,一個(gè)重大的未開發(fā)領(lǐng)域是“活體數(shù)據(jù)”(in-vivo data)——通常需要在活的動物如小鼠或大鼠身上測量的數(shù)據(jù)。“對于活體數(shù)據(jù),雖然有一些歷史記錄,但你不能輕易地大量生成,實(shí)際上有些根本無法在實(shí)驗(yàn)室外生成。這里存在利用新的數(shù)據(jù)生成技術(shù)的重大機(jī)會。有些杰出的研究者正在開發(fā)‘芯片上的微器官(organoids on a chip)’等技術(shù)——這些方法開始測量你通常需要在真實(shí)動物身上才能測量的東西,但完全在芯片上進(jìn)行。”
“我相信在生物學(xué)和化學(xué)的數(shù)據(jù)生成技術(shù)方面,會有一系列全新的突破,這將徹底改變我們模擬生命世界的方式。”
如何組建未來的藥物開發(fā)團(tuán)隊(duì)
Max分享了他如何組建一個(gè)集合AI、化學(xué)和生物學(xué)等多領(lǐng)域頂尖人才的團(tuán)隊(duì),以及如何引入新思想挑戰(zhàn)傳統(tǒng)觀念。
“AI藥物設(shè)計(jì)這個(gè)領(lǐng)域其實(shí)很新,所以想找到既精通藥物設(shè)計(jì)又是機(jī)器學(xué)習(xí)專家的人幾乎是不可能的,僅僅因?yàn)檫@兩個(gè)領(lǐng)域交叉的時(shí)間還不夠長。”
“我相信Isomorphic實(shí)際上正在培養(yǎng)一個(gè)全新的科學(xué)領(lǐng)域,因?yàn)槲覀冇羞@些真正生活在這個(gè)交叉點(diǎn)上的人。但因?yàn)槲覀儫o法直接招聘到這樣的復(fù)合型人才,我的策略是:把藥物設(shè)計(jì)和藥物化學(xué)的專家與機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的專家聚到一起,讓這些出色的人并肩工作。”
“單純讓這些優(yōu)秀的人在各自獨(dú)立的團(tuán)隊(duì)中工作是不夠的。我們需要讓大家真正坐在一起,學(xué)會理解對方的‘語言’,帶著極大的同理心和好奇心去了解這門新科學(xué),在自己的領(lǐng)域中建立新的直覺。”
Max指出,在招聘機(jī)器學(xué)習(xí)科學(xué)家和工程師時(shí),團(tuán)隊(duì)中60-80%的人在加入前對化學(xué)或生物學(xué)幾乎一無所知,但這實(shí)際上可能是一種優(yōu)勢。
“這種‘不懂’反而可能是一種財(cái)富,因?yàn)槟氵M(jìn)入時(shí)帶著一種‘天真’的視角。只要你保持好奇心,敢于問那些看似‘愚蠢’的問題,這讓我們能夠從第一性原理思考問題。它幾乎讓我們突破了過去經(jīng)驗(yàn)的教條和人們傳統(tǒng)上處理這些問題的方式。我們可以從零開始思考。這正是我們創(chuàng)造研究突破的思維方式。”
展望:藥物設(shè)計(jì)的“GPT-3時(shí)刻”,更像是AlphaGo的“第37步”
當(dāng)被問到AlphaFold未來的發(fā)展方向時(shí),Max用簡單的話表達(dá)了他對完全解決分子結(jié)構(gòu)預(yù)測的期望。
“我認(rèn)為AlphaFold 3是朝這個(gè)方向邁出的重要一步,是一個(gè)重大突破,但它還不是100%準(zhǔn)確。在這個(gè)領(lǐng)域,100%準(zhǔn)確到底意味著什么?科學(xué)就是這樣,當(dāng)你開始突破邊界時(shí),你會發(fā)現(xiàn)一個(gè)問題往往會引出更多的問題。這正是科學(xué)令人上癮的部分。”
“AlphaFold 3就是一個(gè)很好的例子,當(dāng)你開始擁有這些能力時(shí),你會發(fā)現(xiàn)其實(shí)還有更深層次的問題等待解決。更好、更準(zhǔn)確地理解結(jié)構(gòu)當(dāng)然很重要,但這不僅僅關(guān)于靜態(tài)結(jié)構(gòu)。AlphaFold 3模擬的是晶體結(jié)構(gòu),這些基本上是分子被凍結(jié)在某一刻的樣子。但實(shí)際上,我們體內(nèi)沒有這種晶體,這些分子在溶液中是活動的,它們在不斷移動,是動態(tài)的。所以,理解這些系統(tǒng)的動態(tài)變化可能也非常重要。”
當(dāng)被問到AI在生物學(xué)領(lǐng)域的“GPT-3時(shí)刻”會是什么樣子以及何時(shí)到來時(shí),Max給出了引人深思的回答。
“GPT-3本質(zhì)上是一個(gè)生成模型,是一個(gè)能創(chuàng)造文本的模型。對我來說,GPT-3時(shí)刻是當(dāng)這類模型跨越了一條界線——從‘我們有文本生成模型,它們能產(chǎn)出一些看起來像人類寫的東西,但不太像’到’哇,這真的看起來像是人寫的‘。GPT-3是第一個(gè)讓人有這種感覺的模型。”
“簡單來說,一個(gè)好的生成模型能夠重現(xiàn)它從訓(xùn)練數(shù)據(jù)中學(xué)到的世界樣貌。當(dāng)我把這個(gè)概念應(yīng)用到生物學(xué)時(shí),你可以想象在’GPT-3時(shí)刻‘,這些生成模型開始能夠重現(xiàn)現(xiàn)實(shí)世界。這非常令人興奮,因?yàn)檫@意味著這些模型可以輸出真實(shí)存在于世界上的東西——我們可以驗(yàn)證它,甚至發(fā)現(xiàn)世界上已存在但我們不知道的新事物——或者它們可以創(chuàng)造出理論上可以存在的東西,我們可以制造出來并在現(xiàn)實(shí)世界中使用。”
但Max認(rèn)為,生物學(xué)領(lǐng)域的“GPT-3時(shí)刻”可能不會像語言模型那樣容易辨認(rèn),而更像AlphaGo的“第37步”。
“語言是人類發(fā)明的,所以當(dāng)AI生成人類水平的文字時(shí),我們能理解和欣賞它。但在化學(xué)和生物學(xué)領(lǐng)域,很多問題連人類自己都難以完全理解。所以當(dāng)我們達(dá)到‘GPT-3時(shí)刻’時(shí),它可能不會像GPT-3那樣顯而易見,而更像是AlphaGo的‘第37步’——我們開始看到一些超出人類理解范圍但確實(shí)在物理世界中有效的東西——這將讓人震驚。”
“事實(shí)上,我們已經(jīng)開始在內(nèi)部看到這種情況了。有時(shí)候我們的AI模型會創(chuàng)造出一些設(shè)計(jì),讓人類藥物設(shè)計(jì)師說‘我不太確定這個(gè)設(shè)計(jì)好不好,我更喜歡那個(gè)設(shè)計(jì)’。但當(dāng)你在實(shí)驗(yàn)室中測試它時(shí),發(fā)現(xiàn)AI是對的,而人類專家是錯的。”
Max特別強(qiáng)調(diào)了AlphaGo的“第37步”這個(gè)比喻的重要性,這是AlphaGo與圍棋世界冠軍李世石對弈時(shí)的一步棋。
“這是比賽中的第37步棋,它震驚了世界,震驚了整個(gè)圍棋界,因?yàn)樗鼘θ祟悂碚f是不可解釋的,它看起來像是一個(gè)錯誤,在圍棋幾千年的歷史中,沒有人下過這樣的一步棋。但隨著比賽的進(jìn)行,這步棋被證明是關(guān)鍵的一步,最終幫助AlphaGo在那場比賽中戰(zhàn)勝了李世石。”
“我們將會看到越來越多這樣的情況——AI模型做出人類難以理解但卻非常有效的決策,特別是當(dāng)我們把它們應(yīng)用到像化學(xué)和生物學(xué)這樣人類本能理解有限的領(lǐng)域時(shí)。”
從實(shí)驗(yàn)室到臨床,還有多久?
當(dāng)被問到什么時(shí)候會看到第一個(gè)AI設(shè)計(jì)的藥物進(jìn)入臨床試驗(yàn)時(shí),Max表示他們在藥物設(shè)計(jì)項(xiàng)目上已經(jīng)取得了令人驚訝的進(jìn)展。
“現(xiàn)在我在思考的是,當(dāng)我們開始把這些AI設(shè)計(jì)的分子送入臨床階段時(shí),我們該如何參與臨床開發(fā)過程,好讓這些藥物盡可能快速、安全地送到需要它們的人手中,因?yàn)槭澜缟嫌刑辔吹玫綕M足的醫(yī)療需求。”
“我們正在探索與藥監(jiān)局打交道的新方法,以及如何更好地利用我們的預(yù)測模型。這些模型不僅能預(yù)測藥物對疾病的作用,還能預(yù)測它如何與身體其他部分互動,可能會引起哪些副作用。”
“我相信會有很多機(jī)會讓這個(gè)過程變得更簡單、更快速。甚至可能徹底改變我們對人體臨床試驗(yàn)的看法,因?yàn)槲覀兊腁I模型能更快、更精準(zhǔn)地設(shè)計(jì)分子,并且對這些分子的工作原理有更深入的理解。”
雖然如此,Max也坦率地承認(rèn),整個(gè)行業(yè)還有很長的路要走,才能真正弄清楚AI將如何徹底改變藥物研發(fā)流程。
最后,Max被問到隨著Isomorphic的成功以及整個(gè)AI藥物設(shè)計(jì)領(lǐng)域的發(fā)展,傳統(tǒng)制藥行業(yè)會發(fā)生什么變化時(shí),他說:“我相信五年后,沒有人會在不使用AI的情況下設(shè)計(jì)藥物。這是不可避免的,這就像想在不用數(shù)學(xué)的情況下做科學(xué)研究一樣不可能。AI將成為生物學(xué)和化學(xué)研究的基礎(chǔ)工具,它在Isomorphic已經(jīng)是這樣了,未來每個(gè)人都會用它。”
“所以,問題不會是‘是傳統(tǒng)制藥還是AI’,而是兩者將融為一體,整個(gè)行業(yè)都會適應(yīng)這一變化。”
好文章,需要你的鼓勵
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友,左手硬核科技,右手浪漫主義。