人工智能(AI)已經(jīng)在過(guò)去十年左右的時(shí)間里從科幻變成了現(xiàn)實(shí),并且正在顛覆(或可望顛覆)地球上幾乎每個(gè)流程。比如幫助導(dǎo)航我們的汽車、飛機(jī)和太空飛船,可以在Netflix上建議用戶看什么電影,也可以助力顛覆其他數(shù)十種事情,無(wú)論是大事情還是普通事情。
在這之中,制藥業(yè)可以說(shuō)是個(gè)真正的生死攸關(guān)產(chǎn)業(yè)。而且,制藥業(yè)也在使用計(jì)算機(jī)和計(jì)算機(jī)工具(例如AI),但為什么AI在制藥業(yè)里幾乎就沒(méi)有顛覆的影子呢?有些專家認(rèn)為,制藥行業(yè)仍然是效率最低的行業(yè)之一,亦是抵制技術(shù)顛覆的最后橋頭堡。此外,專家們還表示,自上世紀(jì)50年代以來(lái),盡管其他行業(yè)的生產(chǎn)力和效率都在不斷提高,但制藥業(yè)的效率卻一直在下降。
舉個(gè)例子,現(xiàn)在要將一種藥物或新分子實(shí)體(NME)推向市場(chǎng)的成本超過(guò)26億美元。這種費(fèi)用(甚至包括失敗藥物嘗試的費(fèi)用)最終都會(huì)直接轉(zhuǎn)移給包括你我在內(nèi)的患者、客戶和納稅人。
因此,筆者希望在本篇文章里相對(duì)客觀地討論一下傳統(tǒng)藥物發(fā)現(xiàn)的挑戰(zhàn)性,包括目前AI在藥物發(fā)現(xiàn)的方法以及該領(lǐng)域里新技術(shù)和新工藝革新的潛力。
賭一把:傳統(tǒng)藥物發(fā)現(xiàn)
要了解AI在小分子藥物發(fā)現(xiàn)中的潛力和局限性,就要先了解制藥公司傳統(tǒng)上如何完成藥物發(fā)現(xiàn)的流程,這一點(diǎn)很重要。
前面提到過(guò),制藥業(yè)是地球上風(fēng)險(xiǎn)最高的企業(yè)之一。小分子藥物發(fā)現(xiàn)流程包括幾個(gè)步驟:科學(xué)家提出疾病假說(shuō)、確定目標(biāo)、設(shè)計(jì)分子然后進(jìn)行臨床前研究,平均需要的時(shí)間為5年,可能的花費(fèi)為數(shù)億美元。臨床開發(fā)過(guò)程可能還需要五年及外加數(shù)億美元。干預(yù)措施則是在此過(guò)程的第一階段(安全性)、第二階段(有效性)及第三階段(大規(guī)模安全性和有效性)里進(jìn)行測(cè)試。
▲藥物發(fā)現(xiàn)和開發(fā)的各個(gè)階段:基于2010年P(guān)aul及其他人的“如何提高研發(fā)生產(chǎn)率:制藥行業(yè)的重大挑戰(zhàn)”文章整理(圖:Alex Zhavoronkov,Insilico Medicine)
所以說(shuō),藥物的發(fā)現(xiàn)類似于一個(gè)分子賭桌。在這個(gè)賭桌的輪盤上有超過(guò)2000種藥物治療目標(biāo)及數(shù)千種疾病,而且每個(gè)患者在某種程度上都不盡相同。要在這么復(fù)雜的設(shè)置下為特定的患者小眾群體選擇正確靶標(biāo),幾率小得荒唐。大家都知道在輪盤上下注極少會(huì)有豐厚的回報(bào)以及玩家必須在失敗時(shí)淡定,其原因就在此。
盡管制藥業(yè)是賭桌上的輪盤,但世界上最聰明的人卻都在這個(gè)輪盤上下注,99%的概率,這些人都會(huì)輸。而且每賭一把的時(shí)間為八年或更長(zhǎng),頭四年里可以改賭注,從第二個(gè)四年臨床試驗(yàn)開始,輪盤開始轉(zhuǎn)動(dòng),這時(shí)就只能減少損失或是在其他臨床計(jì)劃上下更多的賭注。通常,那些在頭四年里下注的人不會(huì)是在臨床階段決定減賭注或加倍下注的人。
AI幫襯、AI盼頭還是AI噱頭?
面對(duì)荒唐的幾率而且是身處數(shù)據(jù)密集型環(huán)境,可能有人會(huì)覺得人工智能非常適合制藥公司。而現(xiàn)實(shí)是,盡管現(xiàn)代技術(shù)進(jìn)步在很多方面出現(xiàn)了重大顛覆,包括移動(dòng)通訊和個(gè)人計(jì)算、互聯(lián)網(wǎng)以及基因組測(cè)序等等,但開發(fā)藥物的成本卻還在不斷增加。
實(shí)際上,利用AI提高幾率的想法其實(shí)對(duì)于制藥行業(yè)而言是利弊并存的。一方面,這可以為制藥領(lǐng)域帶來(lái)更多的投資和更多的人才。但另一方面炒作得厲害的同時(shí)藥品價(jià)格仍在飛漲,這也導(dǎo)致了一些人更加持懷疑態(tài)度。制藥業(yè)資深人士看到有希望的技術(shù)突破的出現(xiàn),但卻并未顯著提高研發(fā)水平,因此,他們寧愿選擇在藥物發(fā)現(xiàn)過(guò)程的整個(gè)范圍內(nèi)逐步開發(fā)內(nèi)部能力,而不是將籌碼押在注特定的使能技術(shù)上。
現(xiàn)如今,“AI盼頭”和“AI噱頭”仍在角力。一方面,AI專家預(yù)測(cè)變革在即,而另一方面,持懷疑態(tài)度的藥物研發(fā)專家卻認(rèn)為所有的最新進(jìn)展只不過(guò)是增量式變化和噱頭而已。
也是出于同樣的原因,大多數(shù)行業(yè)專家對(duì)深度學(xué)習(xí)的前景也持懷疑態(tài)度。
利用深度學(xué)習(xí)打破噱頭
我們常常聽到AI是制藥行業(yè)潛在救星的說(shuō)法,其中有很多原因,比如,基于深度學(xué)習(xí)的模型(例如生成對(duì)抗網(wǎng)絡(luò),又名GAN)進(jìn)行藥物研發(fā),這對(duì)于制藥行業(yè)將會(huì)有極大影響。
在業(yè)界,第一篇有關(guān)“生成對(duì)抗網(wǎng)絡(luò)”的論文是Ian Goodfellow在2014年發(fā)表的,如今,他被稱為“GAN之父”。生成對(duì)抗網(wǎng)絡(luò)可以視為兩個(gè)深度神經(jīng)網(wǎng)絡(luò)之間的競(jìng)爭(zhēng)——一個(gè)網(wǎng)絡(luò)是生成器,根據(jù)所需的一組標(biāo)準(zhǔn)創(chuàng)建新穎的內(nèi)容,另一個(gè)網(wǎng)絡(luò)名為鑒別器,用于測(cè)試生成器輸出的真假。這項(xiàng)技術(shù)一經(jīng)提出幾乎立馬就推動(dòng)了一些有趣結(jié)果的獲取。幾個(gè)小組在2016年里利用GAN用自然語(yǔ)言創(chuàng)建了逼真的圖像。例如,GAN可根據(jù)描述“這只小鳥的胸部和冠是粉紅色的,初級(jí)飛羽和次級(jí)飛羽為黑色”生成或“想象”出具有這種特征的大量鳥類圖像等等。
幾乎在同一時(shí)間里,我們的Insilico團(tuán)隊(duì)開始研究GAN是否可以用于發(fā)現(xiàn)用得上的新型化學(xué)結(jié)構(gòu)或分子。從生成鳥類圖片和DeepFakes走向創(chuàng)建超精密設(shè)計(jì)新的分子,聽起來(lái)似乎是沒(méi)什么邏輯的一步,但我們?nèi)〉昧讼喈?dāng)大的成功,我們?cè)?016年發(fā)表了一些早期同行評(píng)審論文,隨后還發(fā)布了許多生成方法并且還開始將這些方法與深度強(qiáng)化學(xué)習(xí)結(jié)合在一起。
但盡管我們發(fā)表了幾十篇論文,制藥行業(yè)許多計(jì)算化學(xué)家和藥物化學(xué)家卻仍持懷疑態(tài)度。他們的懷疑也并非一無(wú)是處。要明確證明這些生成方法可以對(duì)制藥業(yè)產(chǎn)生重大影響,唯一的方法就是選一種影響到數(shù)百萬(wàn)人的疾病,而不僅僅是選罕見疾病,然后利用AI方法完全用“無(wú)人干預(yù)”的方式識(shí)別該疾病里新的生物靶標(biāo),再以這種方式利用AI及針對(duì)AI所選擇的目標(biāo)生成新分子,然后在生物學(xué)分析、動(dòng)物研究以及希望能在針對(duì)人類的研究中驗(yàn)證所生成的分子。
▲ 完整的環(huán):靶標(biāo)識(shí)別、小分子生成和驗(yàn)證用于證明AI在藥物發(fā)現(xiàn)中的價(jià)值(圖:Alex Zhavoronkov,Insilico Medicine)
但要這樣做在學(xué)術(shù)界幾乎是不可能的,因?yàn)橘M(fèi)用非常昂貴,而且還需要具備分析開發(fā)和化學(xué)合成在內(nèi)的多種專業(yè)知識(shí),出于同樣的原因,在初創(chuàng)企業(yè)中要這樣做也是很困難的。因此,筆者預(yù)測(cè):我們今年或明年將走到這一步——針對(duì)一種主要疾病的絕對(duì)新靶標(biāo)、絕對(duì)新分子及對(duì)應(yīng)該疾病的實(shí)驗(yàn)驗(yàn)證。并且在兩到三年后,看到這些分子出現(xiàn)在第二期臨床研究中。只有到了這個(gè)時(shí)候,懷疑論者才會(huì)滿意。但這仍需要幾年的時(shí)間。
AI在制藥業(yè)的未來(lái)
總的來(lái)說(shuō),筆者對(duì)AI方法的未來(lái)持樂(lè)觀態(tài)度,它可以生產(chǎn)為了改善健康和治療疾病所急需的藥物。諸如生成強(qiáng)化學(xué)習(xí)之類的方法組合和整合(以及量子計(jì)算的迷人前景),從而令我們對(duì)未來(lái)充滿期盼。但我們務(wù)必對(duì)面臨的挑戰(zhàn)保持清醒態(tài)度。生物學(xué)很復(fù)雜,化學(xué)也很復(fù)雜,臨床試驗(yàn)同樣很復(fù)雜。要在三個(gè)很復(fù)雜的領(lǐng)域同時(shí)獲得成功是件艱巨的任務(wù)!
▲完全整合的“制藥 AI 大腦”:涵蓋了藥物發(fā)現(xiàn)和開發(fā)的所有領(lǐng)域(圖:Alex Zhavoronkov, Insilico Medicine)
因此,制藥AI成功的關(guān)鍵是要打造一個(gè)可用于識(shí)別生物靶標(biāo)的龐大整合系統(tǒng),這樣的系統(tǒng)將有助于設(shè)計(jì)新分子并可以進(jìn)行個(gè)性化治療及預(yù)測(cè)臨床試驗(yàn)結(jié)果。
同時(shí),我們還需要一個(gè)龐大的制藥大腦,可以橫跨十年甚至更長(zhǎng)的發(fā)現(xiàn)和開發(fā)周期,并可以將臨床數(shù)據(jù)重新整合到目標(biāo)發(fā)現(xiàn)里。
要完成這些任務(wù)可能要花幾年的時(shí)間。科學(xué)家為了顯著加速開發(fā)小分子藥物發(fā)現(xiàn)的系統(tǒng),就需要結(jié)合許多策略和方法,所以,他們必須是藥物發(fā)現(xiàn)的多領(lǐng)域?qū)<摇?/p>
拿眼下的新冠疫情來(lái)說(shuō),傳統(tǒng)及AI驅(qū)動(dòng)方法的其實(shí)作用并不突出。筆者預(yù)計(jì),在四個(gè)月內(nèi),所有FDA批準(zhǔn)的藥物里,大約會(huì)有百分之十會(huì)被用做診治療法,畢竟新藥物的開發(fā)的還沒(méi)有取得可觀的臨床結(jié)果。要顯著加速藥物的開發(fā),科學(xué)家們?cè)贏I和實(shí)驗(yàn)室自動(dòng)化方面還需要做大量的工作。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過(guò)讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過(guò)融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問(wèn)題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過(guò)動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。