作者|周雅
在制藥界,流傳著一個(gè)殘酷的“三十定律”:一款新藥的誕生,平均需要耗費(fèi)十年光陰、投入數(shù)十億美金、而最終成功率卻不足10%,這是懸在每一家藥企頭上的達(dá)摩克利斯之劍。在這個(gè)以高投入、高風(fēng)險(xiǎn)、長(zhǎng)周期為標(biāo)簽的行業(yè)里,不確定性,是永恒的主題。
然而,當(dāng)生成式AI的浪潮席卷而來,一些最敏銳的玩家已經(jīng)意識(shí)到,傳統(tǒng)的規(guī)則正在被改寫。
復(fù)星醫(yī)藥,作為本土領(lǐng)先的醫(yī)藥健康產(chǎn)業(yè)集團(tuán),是這場(chǎng)變革中堅(jiān)定的前行者之一。在2025亞馬遜云科技中國(guó)峰會(huì)期間,我們與復(fù)星醫(yī)藥總裁助理兼首席數(shù)智官林錦斌聊了聊,他篤定說道:“隨著生成式AI技術(shù)的快速演進(jìn),復(fù)星醫(yī)藥認(rèn)為必須主動(dòng)擁抱AI這樣的新生產(chǎn)力,特別是對(duì)于生物醫(yī)藥這種高技術(shù)投入、高不確定性的行業(yè)。”
復(fù)星醫(yī)藥總裁助理兼首席數(shù)智官林錦斌
從5分鐘搞定1周工作的“小切口”談起
宏大的敘事固然激動(dòng)人心,但真正的變革,往往始于一個(gè)不起眼卻痛徹心扉的“小切口”。在復(fù)星醫(yī)藥,這個(gè)切口,是一份份讓科學(xué)家們備受折磨的臨床試驗(yàn)報(bào)告。
林錦斌講了這樣的情況:“一個(gè)典型的創(chuàng)新藥臨床試驗(yàn)報(bào)告,整個(gè)數(shù)據(jù)量大概會(huì)有3000多張的表格,我們叫TFL (Table, Figure, Listing),需要把這些表格整合成一個(gè)5萬多字的報(bào)告。”這份工作已經(jīng)足夠復(fù)雜,但更令人崩潰的是,“隨著臨床試驗(yàn)的推進(jìn),這3000多張的表格需要被刷新兩到三次。”
每一次刷新,都意味著一場(chǎng)人工的、繁瑣的、極易出錯(cuò)的“大家來找茬”游戲??茖W(xué)家們,這些本應(yīng)在未知領(lǐng)域探索、與疾病賽跑的寶貴大腦,卻不得不耗費(fèi)長(zhǎng)達(dá)一周的時(shí)間,去逐字逐句地核對(duì)數(shù)據(jù)與報(bào)告內(nèi)容的一致性。“科學(xué)家的時(shí)間非常寶貴,不應(yīng)該浪費(fèi)在簡(jiǎn)單枯燥、又不能出錯(cuò)的工作上。”林錦斌強(qiáng)調(diào)。
這正是復(fù)星醫(yī)藥與亞馬遜云科技合作的第一個(gè)靶點(diǎn)——“臨床試驗(yàn)報(bào)告一致性檢查”。雙方?jīng)]有一開始就去追逐其他場(chǎng)景,而是選擇了這個(gè)最具體、最痛、也最能快速見到成效的場(chǎng)景。
結(jié)果是驚人的。“通過與亞馬遜云科技合作,借助生成式AI技術(shù)對(duì)于文本、檢索和信息處理能力,可以把3000多張表格映射到5萬多字的報(bào)告里, 一鍵式完成報(bào)告初期的一致性檢查。最終,召回率達(dá)到90%以上,準(zhǔn)確率超過60%,工作效率從原來的1個(gè)星期縮短至5分鐘。”
在臨床試驗(yàn)報(bào)告一致性檢查方面,它覆蓋了90%場(chǎng)景,效率提升70%;同時(shí)在另一個(gè)高頻場(chǎng)景——研發(fā)文獻(xiàn)翻譯上,借助亞馬遜云科技生成式AI技術(shù)與智能醫(yī)學(xué)內(nèi)容生成中心,它可在6個(gè)月內(nèi)完成超過1.6億字的翻譯工作,同時(shí)降低30%的成本支出。
這些被林錦斌稱為“容易被忽略的場(chǎng)景”,恰恰是復(fù)星醫(yī)藥AI戰(zhàn)略智慧的體現(xiàn)。他坦言:“我們最開始的時(shí)候野心比較大,我們說能不能一次性完成臨床試驗(yàn)報(bào)告的自動(dòng)化撰寫?后來發(fā)現(xiàn)難度太大了。但是我們并沒有氣餒,而是跟亞馬遜云科技一起合作,把一整個(gè)大場(chǎng)景解構(gòu)成細(xì)顆粒度的小場(chǎng)景。”
“先從具體的子場(chǎng)景做起”這種務(wù)實(shí),貫穿了復(fù)星醫(yī)藥的整個(gè)AI實(shí)踐。林錦斌解釋說,“因?yàn)槊抗タ艘粋€(gè)子場(chǎng)景,就沉淀下一份能力。比如一致性檢查,讓我們沉淀了對(duì)醫(yī)學(xué)術(shù)語、醫(yī)學(xué)數(shù)據(jù)、報(bào)告文法結(jié)構(gòu)的理解;醫(yī)學(xué)文獻(xiàn)翻譯,又沉淀了跨語言信息處理的能力。”
就像拼圖,每一塊看似微小,但當(dāng)它們被一塊塊拼接起來時(shí),最終將構(gòu)成一幅完整的圖景——臨床試驗(yàn)報(bào)告的全自動(dòng)撰寫。“盡管這個(gè)過程充滿了不確定性,”林錦斌說,“但我們依托亞馬遜云科技在全球范圍內(nèi)積累的大量實(shí)踐經(jīng)驗(yàn),特別是和跨國(guó)藥企的合作,能夠助力我們快速高效地探索和前進(jìn)。”
重新定義生命科學(xué)的“多模態(tài)”
如果說解決文檔工作是AI應(yīng)用的表層,那么深入到生命科學(xué)的核心,才是真正的深水區(qū)。當(dāng)被問及如何處理生物醫(yī)藥領(lǐng)域復(fù)雜、海量且多模態(tài)的數(shù)據(jù)時(shí),林錦斌指出:
“從生物醫(yī)藥的視角來看,多模態(tài)的概念更加廣泛,不只是圖像、音頻、視頻,還包括基因序列、蛋白質(zhì)編碼與結(jié)構(gòu)等等,因此復(fù)星醫(yī)藥更加關(guān)注與專注生物醫(yī)藥領(lǐng)域的語言和模態(tài)。”
將基因、蛋白質(zhì)這些生命的基本編碼,視為一種獨(dú)特的“語言”和“模態(tài)”,這意味著,AI需要學(xué)習(xí)的,不僅僅是人類的自然語言,更是生命本身的語言。這背后,隱藏著一個(gè)巨大的機(jī)遇——探索“暗知識(shí)”。
林錦斌引用了王維嘉在《暗知識(shí)》中的觀點(diǎn),即人類世界有大量的知識(shí),是難以傳遞的體系,也就是“暗知識(shí)”。而人體,同樣極端復(fù)雜,還未被完全了解,也是“暗知識(shí)”。“運(yùn)用生成式AI技術(shù)則為我們提供了一條比較好的探索路徑,即用生成式AI技術(shù),以機(jī)器認(rèn)知的方式,我們有很大機(jī)會(huì)去吸收這些暗知識(shí)的能力。”他說道。
雖然這是一條通往新藥發(fā)現(xiàn)的路徑,但它同樣布滿了荊棘,首當(dāng)其沖的挑戰(zhàn)就是「數(shù)據(jù)」。林錦斌坦言,“現(xiàn)在生物醫(yī)藥領(lǐng)域的數(shù)據(jù)體系建設(shè)要進(jìn)一步提升,因?yàn)闆]有一個(gè)系統(tǒng)化的體系告訴我們,應(yīng)該如何處理多方面的數(shù)據(jù)。”原因在于:
第一,基因庫、蛋白質(zhì)結(jié)構(gòu)等數(shù)據(jù)類型的整合,從標(biāo)準(zhǔn)化和整合的角度來看,目前還不能整合到一起辦大事。
第二,臨床試驗(yàn)過程中的數(shù)據(jù)標(biāo)準(zhǔn)化和一體化問題,各個(gè)企業(yè)、醫(yī)院、診療機(jī)構(gòu)、研究團(tuán)隊(duì)等,他們的臨床試驗(yàn)數(shù)據(jù)是否愿意拿出來?以及如何進(jìn)行標(biāo)準(zhǔn)化?
如何改變?cè)摤F(xiàn)狀?林錦斌發(fā)出一個(gè)極具前瞻性的呼吁:“未來在整個(gè)生物醫(yī)藥行業(yè),至少對(duì)中國(guó)來說,需要有一個(gè)聯(lián)盟的數(shù)據(jù)體系來推動(dòng)標(biāo)準(zhǔn)化、一體化、整合式的數(shù)據(jù),從而為生物醫(yī)藥面向AI時(shí)代的未來打下堅(jiān)實(shí)基礎(chǔ)。”
這番話的背后,是一個(gè)清醒的認(rèn)知:?jiǎn)慰恳患移髽I(yè)的數(shù)據(jù),無法喂養(yǎng)出真正強(qiáng)大的行業(yè)大模型,所以這需要超越企業(yè)邊界的合作與遠(yuǎn)見,整合社會(huì)和行業(yè)的數(shù)據(jù)共同孵化,或許能達(dá)到應(yīng)用層的百花齊放。
而對(duì)于大模型廣受詬病的“幻覺”問題,林錦斌的看法與眾不同。他認(rèn)為,如果數(shù)據(jù)質(zhì)量足夠高,“幻覺”未必是負(fù)面詞,“它可能代表了創(chuàng)造力。如果幻覺是以高質(zhì)量的數(shù)據(jù)作為基座來引導(dǎo),甚至能給我們的創(chuàng)新帶來不一樣的思路。”
AI的“皇冠明珠”
在復(fù)星醫(yī)藥的AI戰(zhàn)略中,到底AI的生產(chǎn)力用在哪些領(lǐng)域?復(fù)星醫(yī)藥確定了兩條核心主線:一個(gè)是研發(fā),另一個(gè)是營(yíng)銷。
“在研發(fā)方面,我們每年投入50多億。AI帶給我們兩方面的價(jià)值:其一,大量的數(shù)據(jù)檢索、萃取、分析、匯聚的能力,通過生成式AI我們的效率得到極大提升;其二,我們對(duì)大模型的推理和規(guī)劃能力更加認(rèn)可和期待,因?yàn)檫@解決了一直困擾我們的問題——如何達(dá)成方向大致正確的選擇。”
林錦斌強(qiáng)調(diào)了第二點(diǎn),這才是他眼中AI的“皇冠明珠”,因?yàn)樗P(guān)乎制藥企業(yè)慎之又慎的地方——決策。
他用了一個(gè)比喻來解釋這個(gè)過程。過去,研發(fā)決策更像是一場(chǎng)“豪賭”,依賴于少數(shù)專家的經(jīng)驗(yàn)和直覺。而現(xiàn)在,復(fù)星醫(yī)藥希望借助AI,將決策過程從豪賭變?yōu)榭茖W(xué)。
第一步,是全覆蓋全量的信息輸入,讓AI成為一個(gè)“信息情報(bào)官”。面對(duì)關(guān)鍵抉擇,比如“某一個(gè)管線到底最后做還是不做”,AI要能做到全覆蓋,確保決策者沒有漏掉任何關(guān)鍵的市場(chǎng)信息、競(jìng)爭(zhēng)信息、專利信息或政策信息。
第二步,是全要素的評(píng)估模式,讓AI成為一個(gè)嚴(yán)謹(jǐn)?shù)?ldquo;分析師”。通過AI智能體(Agentic AI)的框架,將影響決策的專利、市場(chǎng)、法規(guī)、集采等所有要素“分門別類羅列清楚”,進(jìn)行“全要素的評(píng)估模式”。
“我們先作為一個(gè)裁判員,給它評(píng)分。隨著AI技術(shù)的深度應(yīng)用,我們的知識(shí)體系、數(shù)據(jù)積累的進(jìn)步深化,后面可以把它轉(zhuǎn)變?yōu)榻叹殕T,我們可以通過對(duì)于某一個(gè)管線的分析給出建議,這樣就能夠確保我們真正的決策是可靠的。”林錦斌總結(jié)說。
除了「研發(fā)端」之外,復(fù)星醫(yī)藥在「營(yíng)銷端」的做法,就比較普適化了。
第一步是“練兵”:對(duì)于客戶數(shù)據(jù)、市場(chǎng)數(shù)據(jù)的匯總,AI系統(tǒng)就像一個(gè)不知疲倦的陪練教練。銷售團(tuán)隊(duì)可以跟它進(jìn)行模擬對(duì)話,反復(fù)練習(xí)推銷技巧,直到滾瓜爛熟。
第二步是“上戰(zhàn)場(chǎng)”:當(dāng)銷售人員真正去見客戶時(shí),這個(gè)AI就從“教練”變成了他們的“全能軍師”和“超級(jí)裝備”。它會(huì)立刻把這位客戶的詳細(xì)資料、過往合作記錄、甚至連這次會(huì)談的策略建議都直接推送到銷售人員眼前,讓他們胸有成竹。“這是我們未來要推進(jìn)的方向,我們內(nèi)部在用AI首先整合數(shù)據(jù),然后嘗試打造整個(gè)智慧化、智能化的商業(yè)物流和渠道管理。”
“快贏”與“詩和遠(yuǎn)方”的平衡術(shù)
不過,現(xiàn)在大家談到AI,尤其是生成式AI,大家都普遍關(guān)心投資回報(bào)率(ROI),或者是實(shí)用性問題,當(dāng)被問及如何評(píng)估“AI的ROI”時(shí),林錦斌坦誠(chéng),這是他作為數(shù)字化決策者時(shí)刻需要思考的問題。他給出了一套清晰的戰(zhàn)略打法:
第一,Quick Win(快贏)。他解釋道,“Quick Win的確定性要高,且會(huì)有明確的量化價(jià)值結(jié)果,從ROI角度來看,我會(huì)對(duì)它的價(jià)值創(chuàng)造的指標(biāo)量化,并提前要求。比如初期達(dá)到0.5,后期可能要達(dá)到1。”
這些“快贏”項(xiàng)目,不僅能沉淀團(tuán)隊(duì)自身對(duì)于AI生產(chǎn)力的應(yīng)用能力,更能將創(chuàng)造出來的價(jià)值“反哺”給更宏大的目標(biāo)。
第二,要瞄準(zhǔn)詩和遠(yuǎn)方。“比如決策智能體,不可能是一蹴而就的,一個(gè)個(gè)決策智能體,要拼成一個(gè)有機(jī)的整體,這個(gè)過程要持續(xù)投入,不過這也是因?yàn)镼uick Win打下了地基。”林錦斌解釋說,“換言之,在Quick Win這塊,我們盡可能鋪開。首先,把果實(shí)摘下來儲(chǔ)備好;然后,再對(duì)平臺(tái)能力進(jìn)行投資。最后,把它打包成一個(gè)完整的、決策層能夠接受的整體戰(zhàn)略方案。”
這是一種高明的平衡術(shù):用一個(gè)個(gè)看得見、摸得著的“快贏”項(xiàng)目,為那些關(guān)乎未來的“詩和遠(yuǎn)方”積蓄糧草和彈藥,確保創(chuàng)新既不因急功近利而迷失方向,也不因好高騖遠(yuǎn)而無以為繼。
“相信,才能看見”
技術(shù)和戰(zhàn)略的背后,終究是人與文化。當(dāng)被問及為何在眾多合作方中選擇亞馬遜云科技時(shí),林錦斌的回答超越了技術(shù)和商業(yè)層面,直指一個(gè)更深層次的詞——“相信”。
“對(duì)于創(chuàng)新文化,我們與亞馬遜云科技同頻共振,而以下這種創(chuàng)新文化的導(dǎo)入對(duì)復(fù)星醫(yī)藥來說非常重要。” 他提到了一個(gè)細(xì)節(jié):在前一段時(shí)間,雙方曾共同組織工作坊,核心阻力就是創(chuàng)新的方法論——“大家對(duì)于AI技術(shù)應(yīng)用的認(rèn)知要達(dá)成幾個(gè)共識(shí):首先,不能極度保守,要保持開放的心態(tài);其次,不能認(rèn)為它是一個(gè)神器,對(duì)結(jié)果不能過于樂觀。”
具體的做法是:首先,從認(rèn)知和預(yù)期上,跟科學(xué)家達(dá)成共識(shí);然后,根據(jù)具體的創(chuàng)新方法論,找準(zhǔn)問題并設(shè)定相應(yīng)的指標(biāo),它應(yīng)該是可量化、可跟蹤、可動(dòng)員的,一步一步地往前推進(jìn),碰到問題之后以混合團(tuán)隊(duì)的方式進(jìn)行討論,得出一個(gè)大家有共識(shí)的結(jié)論,再往下一步進(jìn)行。
這種“同頻共振”,體現(xiàn)在對(duì)試錯(cuò)文化的擁抱上。林錦斌深知,生成式AI項(xiàng)目落地后,會(huì)產(chǎn)生大量“不理想的案例”,這需要持續(xù)的運(yùn)營(yíng)和迭代。“比如碰到企業(yè)知識(shí)資產(chǎn)的逐步迭代、生成式AI的幻覺問題等,我們需要持續(xù)跟蹤和運(yùn)營(yíng)這些不理想的案例,擁抱試錯(cuò)的文化,才能確保業(yè)務(wù)能夠持久地跑下去,并越跑越好。”
而亞馬遜云科技愿意在這種“不確定”中投入,與復(fù)星醫(yī)藥共同探索,而非僅僅追求短期的大額訂單,這在林錦斌看來至關(guān)重要。“有的時(shí)候,相信才能看見,”他感慨道,“我覺得亞馬遜云科技屬于后者,所以說我們能夠快速達(dá)成共識(shí),往前推進(jìn)。”
當(dāng)然,光有文化和方法論還不夠,必須要有好用的工具。林錦斌表示,復(fù)星醫(yī)藥正在雙管齊下:
“第一,對(duì)于我們的技術(shù)人員,他應(yīng)該要有一個(gè)好用的工程化的開發(fā)平臺(tái)。”他透露,團(tuán)隊(duì)正在全球范圍內(nèi)尋找最佳方案,包括基于亞馬遜云科技的和優(yōu)秀的開源軟件。
“第二,對(duì)于業(yè)務(wù)人員,我們希望構(gòu)建一個(gè)低門檻的、便捷的眾創(chuàng)平臺(tái),支撐我們的科學(xué)家能夠自主去搭建符合他們個(gè)性化需求的AI系統(tǒng)。”
在這方面,亞馬遜云科技提供堅(jiān)實(shí)的幫助,這家公司表示其一直是醫(yī)療與生命科學(xué)行業(yè)數(shù)字化轉(zhuǎn)型和創(chuàng)新的推動(dòng)者和支持者。早在2013年,亞馬遜云科技就組建了全球醫(yī)療和生命科學(xué)專業(yè)團(tuán)隊(duì),服務(wù)著數(shù)千家行業(yè)客戶,比如輝瑞、拜爾、羅氏、默沙東等。在中國(guó),他們與數(shù)十家本地伙伴合作,服務(wù)超過400家客戶。除了通用AI服務(wù)Amazon Bedrock、Amazon SageMaker等,他們還針對(duì)行業(yè)特性,構(gòu)建了如Amazon HealthOmics、Amazon Comprehend Medical等專用服務(wù),并進(jìn)一步結(jié)合中國(guó)市場(chǎng)需求,推出了醫(yī)學(xué)內(nèi)容生成中心(Medical Insights Hub)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工作臺(tái)(Protein Folding Workbench)等本地化解決方案。
看向未來,復(fù)星醫(yī)藥的AI戰(zhàn)略將如何演進(jìn)?林錦斌表達(dá)了“開放”的心態(tài):“我們對(duì)于所有能夠給我們帶來價(jià)值創(chuàng)造的合作伙伴,都是非常歡迎的。”
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。
關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會(huì)友,左手硬核科技,右手浪漫主義。