av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁(yè) 伊斯法罕醫(yī)科大學(xué)團(tuán)隊(duì)突破:讓AI像人類一樣"推理"預(yù)測(cè)新藥成敗

伊斯法罕醫(yī)科大學(xué)團(tuán)隊(duì)突破:讓AI像人類一樣"推理"預(yù)測(cè)新藥成敗

2025-09-03 12:28
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-03 12:28 ? 科技行者

這項(xiàng)由伊斯法罕醫(yī)科大學(xué)再生醫(yī)學(xué)研究中心的Mohammadreza Ghaffarzadeh-Esfahani和Ali Motahharynia領(lǐng)導(dǎo)的研究發(fā)表于2025年8月,論文標(biāo)題為"DrugReasoner: Interpretable Drug Approval Prediction with a Reasoning-augmented Language Model"。有興趣深入了解的讀者可以通過(guò)arXiv:2508.18579v1訪問(wèn)完整論文。

開發(fā)一款新藥就像建造一座摩天大樓,需要超過(guò)十年的時(shí)間和將近9億美元的巨額投資。更令人沮喪的是,許多藥物在經(jīng)歷了漫長(zhǎng)的研發(fā)過(guò)程后,最終卻無(wú)法獲得監(jiān)管部門的批準(zhǔn)上市。這就像花費(fèi)巨資建造一座大樓,卻在最后一刻發(fā)現(xiàn)它不符合安全標(biāo)準(zhǔn),只能眼睜睜看著投資打水漂。

傳統(tǒng)的人工智能預(yù)測(cè)系統(tǒng)就像一個(gè)神秘的黑盒子,雖然能給出"這款藥物可能會(huì)被批準(zhǔn)"或"這款藥物可能會(huì)被拒絕"的答案,但它們無(wú)法解釋為什么會(huì)得出這樣的結(jié)論。這讓制藥公司的研發(fā)人員感到困惑,就好比一個(gè)占卜師告訴你明天會(huì)下雨,但拒絕解釋是根據(jù)什么跡象得出這個(gè)結(jié)論的。

如今,伊斯法罕醫(yī)科大學(xué)的研究團(tuán)隊(duì)開發(fā)出了一個(gè)名為DrugReasoner的全新系統(tǒng),它不僅能預(yù)測(cè)藥物是否會(huì)被批準(zhǔn),更重要的是,它能像一位經(jīng)驗(yàn)豐富的藥物專家一樣,詳細(xì)解釋自己的推理過(guò)程。這個(gè)系統(tǒng)基于著名的LLaMA大型語(yǔ)言模型構(gòu)建,經(jīng)過(guò)特殊訓(xùn)練后,能夠分析藥物的分子特征,并將其與已知的成功和失敗案例進(jìn)行對(duì)比,最終給出預(yù)測(cè)結(jié)果和詳細(xì)的解釋。

研究團(tuán)隊(duì)使用了一種叫做"群體相對(duì)策略優(yōu)化"的訓(xùn)練方法,這就像培養(yǎng)一個(gè)學(xué)生不僅要知道正確答案,還要學(xué)會(huì)清晰地表達(dá)解題思路。經(jīng)過(guò)訓(xùn)練的DrugReasoner在驗(yàn)證集上取得了0.732的AUC值和0.729的F1分?jǐn)?shù),在測(cè)試集上也保持了0.725和0.718的優(yōu)秀表現(xiàn)。更令人印象深刻的是,在獨(dú)立的外部數(shù)據(jù)集測(cè)試中,DrugReasoner明顯超越了傳統(tǒng)方法和最近開發(fā)的ChemAP模型,顯示出強(qiáng)大的實(shí)際應(yīng)用潛力。

一、解密藥物審批預(yù)測(cè)的核心挑戰(zhàn)

藥物研發(fā)就像一場(chǎng)漫長(zhǎng)而昂貴的馬拉松比賽。從實(shí)驗(yàn)室中發(fā)現(xiàn)一個(gè)有潛力的化合物開始,到最終獲得監(jiān)管部門批準(zhǔn)上市,整個(gè)過(guò)程通常需要超過(guò)十年時(shí)間,耗資近9億美元。更讓人心痛的是,這場(chǎng)馬拉松的完成率極低,大部分"選手"都會(huì)在途中倒下。

傳統(tǒng)的機(jī)器學(xué)習(xí)方法雖然在預(yù)測(cè)藥物成敗方面顯示出了一定的潛力,但它們就像一臺(tái)復(fù)雜的計(jì)算器,只能給出冰冷的數(shù)字結(jié)果,卻無(wú)法解釋背后的邏輯。研發(fā)人員面對(duì)這些預(yù)測(cè)結(jié)果時(shí),就像站在一扇緊閉的門前,知道門后有答案,卻不知道如何推開這扇門。

近年來(lái),一個(gè)名為ChemAP的模型試圖解決這個(gè)問(wèn)題。它采用了一種叫做"知識(shí)蒸餾"的技術(shù),就像讓一位經(jīng)驗(yàn)豐富的老師將自己的知識(shí)傳授給學(xué)生一樣。ChemAP的"老師"模型整合了多種信息,然后將這些知識(shí)傳遞給只需要分析化學(xué)結(jié)構(gòu)的"學(xué)生"模型。雖然這種方法取得了一定進(jìn)展,但仍然存在解釋能力不足的問(wèn)題。

與此同時(shí),大型語(yǔ)言模型的興起為解決這個(gè)問(wèn)題帶來(lái)了新的希望。這些模型就像擁有廣博知識(shí)的學(xué)者,能夠理解和處理人類語(yǔ)言,并且具備一種叫做"鏈?zhǔn)剿季S推理"的能力。這種能力讓它們能夠像人類專家一樣,一步步展示自己的思考過(guò)程,而不僅僅是給出最終答案。

在藥物發(fā)現(xiàn)領(lǐng)域,已經(jīng)出現(xiàn)了一些運(yùn)用推理能力的AI系統(tǒng)。比如DrugReAlign和DrugAgent這樣的框架,它們像擁有專業(yè)工具的探索者,能夠檢索信息、整合知識(shí),并為藥物重新定位提供決策支持。另外,MolReasoner和Mol-R1等模型專注于利用推理能力進(jìn)行分子設(shè)計(jì),就像擁有創(chuàng)造力的建筑師,能夠設(shè)計(jì)出具有理想特性的新分子結(jié)構(gòu)。

在這樣的背景下,DrugReasoner應(yīng)運(yùn)而生。它不僅繼承了大型語(yǔ)言模型的推理能力,更專門針對(duì)藥物審批預(yù)測(cè)進(jìn)行了優(yōu)化。這個(gè)系統(tǒng)能夠分析藥物的分子特征,與相似的已批準(zhǔn)和未批準(zhǔn)化合物進(jìn)行對(duì)比,然后像一位經(jīng)驗(yàn)豐富的藥物審評(píng)專家一樣,詳細(xì)解釋自己的判斷依據(jù),同時(shí)給出預(yù)測(cè)結(jié)果和置信度評(píng)分。

二、DrugReasoner的工作原理揭秘

DrugReasoner的工作過(guò)程就像一位經(jīng)驗(yàn)豐富的藥物專家在分析新藥申請(qǐng)時(shí)的思考過(guò)程。當(dāng)面對(duì)一個(gè)新的化合物時(shí),這位"AI專家"首先會(huì)仔細(xì)觀察這個(gè)化合物的各種特征,就像醫(yī)生檢查病人時(shí)會(huì)注意各種體征一樣。

這個(gè)分析過(guò)程的第一步是特征提取。DrugReasoner會(huì)計(jì)算目標(biāo)化合物的各種分子描述符,包括分子量、脂溶性、極性表面積、氫鍵供體和受體數(shù)量、可旋轉(zhuǎn)鍵數(shù)量等等。這些參數(shù)就像化合物的"身份證",記錄著它的基本"生理特征"。除了這些基礎(chǔ)信息,系統(tǒng)還會(huì)進(jìn)行結(jié)構(gòu)預(yù)警檢查,就像安檢員檢查是否攜帶危險(xiǎn)品一樣,識(shí)別化合物中可能存在的有害結(jié)構(gòu)片段。

接下來(lái)是最關(guān)鍵的比較分析環(huán)節(jié)。DrugReasoner不會(huì)孤立地分析目標(biāo)化合物,而是會(huì)在龐大的化合物數(shù)據(jù)庫(kù)中尋找與它最相似的"親戚"。這個(gè)過(guò)程使用了一種巧妙的方法:研究團(tuán)隊(duì)訓(xùn)練了一個(gè)XGBoost模型來(lái)識(shí)別化合物之間的相似性。這就像訓(xùn)練一只獵犬,讓它能夠根據(jù)氣味找到相似的目標(biāo)。

具體來(lái)說(shuō),系統(tǒng)會(huì)為每個(gè)化合物找到五個(gè)最相似的已批準(zhǔn)藥物和五個(gè)最相似的未批準(zhǔn)化合物。這種比較方式非常符合人類專家的思維習(xí)慣。當(dāng)藥物專家評(píng)估一個(gè)新化合物時(shí),他們經(jīng)常會(huì)想:"這個(gè)化合物讓我想起了某某藥物,那個(gè)藥物當(dāng)年是如何被評(píng)估的呢?"

為了避免數(shù)據(jù)泄露問(wèn)題,研究團(tuán)隊(duì)做出了一個(gè)重要決定:不直接使用SMILES(簡(jiǎn)化分子線性輸入規(guī)范)字符串。SMILES就像化合物的"化學(xué)語(yǔ)言"寫法,但由于大型語(yǔ)言模型可能在訓(xùn)練時(shí)見過(guò)這些字符串,直接使用可能會(huì)讓模型"作弊"。因此,DrugReasoner只使用從分子結(jié)構(gòu)計(jì)算得出的物理化學(xué)特征,這樣既保證了預(yù)測(cè)的公正性,也提高了結(jié)果的可解釋性。

訓(xùn)練DrugReasoner的過(guò)程采用了一種叫做"群體相對(duì)策略優(yōu)化"(GRPO)的先進(jìn)方法。這種方法就像訓(xùn)練一個(gè)辯論隊(duì),不僅要求隊(duì)員給出正確答案,還要求他們能夠清晰地表達(dá)自己的論證過(guò)程。在訓(xùn)練過(guò)程中,模型需要為每個(gè)輸入生成多個(gè)可能的回答,然后根據(jù)一套復(fù)雜的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)這些回答進(jìn)行評(píng)分。

這套評(píng)價(jià)標(biāo)準(zhǔn)包含五個(gè)方面。首先是正確性,就像考試中的標(biāo)準(zhǔn)答案,預(yù)測(cè)對(duì)了就得高分。其次是格式規(guī)范,要求模型的輸出必須遵循特定的XML格式,包含思考過(guò)程、預(yù)測(cè)標(biāo)簽和置信度分?jǐn)?shù)三個(gè)部分。第三是格式兼容性,即使格式略有偏差,只要主要結(jié)構(gòu)正確也能獲得部分分?jǐn)?shù)。第四是可解釋性,要求模型給出的標(biāo)簽必須是語(yǔ)義上有效的"批準(zhǔn)"或"未批準(zhǔn)"。最后是置信度對(duì)齊,這個(gè)最有意思:如果模型預(yù)測(cè)正確且非常自信,會(huì)獲得最高獎(jiǎng)勵(lì);如果預(yù)測(cè)錯(cuò)誤但承認(rèn)不確定,也能獲得一定獎(jiǎng)勵(lì);但如果預(yù)測(cè)錯(cuò)誤還很自信,則會(huì)受到嚴(yán)厲"懲罰"。

經(jīng)過(guò)14500步的訓(xùn)練,研究團(tuán)隊(duì)在第12500步選擇了最終模型。這個(gè)選擇就像挑選運(yùn)動(dòng)員的最佳狀態(tài),既要考慮各項(xiàng)指標(biāo)的平衡,也要確保輸出格式的完全合規(guī)。最終的DrugReasoner不僅能夠準(zhǔn)確預(yù)測(cè),還能保持穩(wěn)定的置信度評(píng)分,平均置信度穩(wěn)定在0.87左右。

三、突出的預(yù)測(cè)性能表現(xiàn)

DrugReasoner的性能測(cè)試就像一場(chǎng)全方位的考試,研究團(tuán)隊(duì)設(shè)計(jì)了多個(gè)層次的評(píng)估來(lái)驗(yàn)證這個(gè)AI專家的能力。整個(gè)測(cè)試過(guò)程使用了一個(gè)包含2255個(gè)已批準(zhǔn)藥物和2255個(gè)未批準(zhǔn)化合物的平衡數(shù)據(jù)集,這些數(shù)據(jù)按照8比1比1的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

在驗(yàn)證集的測(cè)試中,DrugReasoner展現(xiàn)出了令人印象深刻的綜合實(shí)力。它獲得了0.732的AUC值,這個(gè)數(shù)字可能看起來(lái)抽象,但實(shí)際意義很清晰:如果隨機(jī)選擇一個(gè)批準(zhǔn)藥物和一個(gè)未批準(zhǔn)化合物讓DrugReasoner排序,它有73.2%的概率能夠正確地把批準(zhǔn)藥物排在前面。同時(shí),它的準(zhǔn)確率達(dá)到了73.2%,意味著在100次預(yù)測(cè)中大約能答對(duì)73次。

更值得關(guān)注的是DrugReasoner在各項(xiàng)指標(biāo)上的平衡表現(xiàn)。它的召回率為72.1%,這意味著在所有真正會(huì)被批準(zhǔn)的藥物中,它能夠正確識(shí)別出72.1%。精確度為73.8%,表示在它預(yù)測(cè)為"會(huì)被批準(zhǔn)"的藥物中,有73.8%確實(shí)獲得了批準(zhǔn)。特異性為74.2%,顯示它在識(shí)別不會(huì)被批準(zhǔn)的化合物方面也很準(zhǔn)確。F1分?jǐn)?shù)為72.9%,這是精確度和召回率的綜合指標(biāo),反映了整體的預(yù)測(cè)質(zhì)量。

與傳統(tǒng)機(jī)器學(xué)習(xí)方法的對(duì)比更突出了DrugReasoner的優(yōu)勢(shì)。在同樣的驗(yàn)證集上,k近鄰算法、邏輯回歸、支持向量機(jī)等傳統(tǒng)方法的表現(xiàn)都不如DrugReasoner。即使是表現(xiàn)最好的XGBoost,雖然在某些單項(xiàng)指標(biāo)上可能接近DrugReasoner,但在整體平衡性上仍有差距。

在測(cè)試集上,DrugReasoner繼續(xù)保持了穩(wěn)定的性能。AUC值為0.725,準(zhǔn)確率同樣是72.5%,顯示出良好的泛化能力。特別值得注意的是,它在召回率方面達(dá)到了70.2%,這在所有比較的方法中是最高的。這意味著DrugReasoner在識(shí)別真正有潛力獲得批準(zhǔn)的藥物方面具有獨(dú)特優(yōu)勢(shì),這對(duì)于制藥公司來(lái)說(shuō)是非常寶貴的,因?yàn)殄e(cuò)過(guò)一個(gè)有潛力的藥物可能意味著巨大的機(jī)會(huì)成本。

真正的考驗(yàn)來(lái)自于外部獨(dú)立數(shù)據(jù)集的測(cè)試。這個(gè)數(shù)據(jù)集來(lái)自ChemAP研究中使用的數(shù)據(jù),包含17個(gè)已批準(zhǔn)藥物和8個(gè)未批準(zhǔn)化合物。在這個(gè)"陌生"的測(cè)試環(huán)境中,DrugReasoner的表現(xiàn)更加令人矚目。它獲得了0.728的AUC值,F(xiàn)1分?jǐn)?shù)高達(dá)77.4%,精確度更是達(dá)到了85.7%。這些數(shù)字不僅顯著超越了所有傳統(tǒng)基線方法,也明顯優(yōu)于最近開發(fā)的ChemAP模型。

特別值得關(guān)注的是傳統(tǒng)機(jī)器學(xué)習(xí)方法在外部數(shù)據(jù)集上的表現(xiàn)急劇下降。它們的AUC值只有0.529到0.618之間,召回率更是低至23.5%或以下,盡管特異性達(dá)到了100%。這種極端的表現(xiàn)模式表明這些傳統(tǒng)方法在面對(duì)新數(shù)據(jù)時(shí)過(guò)于保守,寧可錯(cuò)過(guò)真正的陽(yáng)性樣本也不愿冒險(xiǎn)。相比之下,ChemAP雖然比傳統(tǒng)方法稍好,但AUC值只有0.64,召回率為52.9%,特異性為75%,明顯不如DrugReasoner的全面表現(xiàn)。

這些測(cè)試結(jié)果揭示了DrugReasoner的一個(gè)重要特點(diǎn):它不僅在訓(xùn)練相關(guān)的數(shù)據(jù)上表現(xiàn)良好,在完全獨(dú)立的外部數(shù)據(jù)上也保持了優(yōu)秀的性能,這證明了它具有強(qiáng)大的泛化能力和實(shí)際應(yīng)用潛力。

四、推理能力的革命性突破

DrugReasoner最引人注目的特點(diǎn)不僅在于它的預(yù)測(cè)準(zhǔn)確性,更在于它能夠像人類專家一樣進(jìn)行推理和解釋。這種能力的實(shí)現(xiàn)依靠了鏈?zhǔn)剿季S推理技術(shù),讓AI能夠展示自己的"思考過(guò)程"。

當(dāng)DrugReasoner分析一個(gè)化合物時(shí),它會(huì)按照類似人類專家的思維路徑進(jìn)行推理。首先,它會(huì)仔細(xì)分析目標(biāo)化合物的理化性質(zhì),就像一位化學(xué)家在實(shí)驗(yàn)臺(tái)前觀察樣品的各種特征。然后,它會(huì)將這些特征與數(shù)據(jù)庫(kù)中最相似的已批準(zhǔn)和未批準(zhǔn)化合物進(jìn)行對(duì)比,這個(gè)過(guò)程類似于經(jīng)驗(yàn)豐富的藥物審評(píng)專家回憶類似案例的過(guò)程。

整個(gè)推理過(guò)程被規(guī)范化為三個(gè)明確的輸出組件。第一個(gè)是"思考"部分,DrugReasoner在這里會(huì)詳細(xì)闡述自己的分析過(guò)程,解釋為什么某些分子特征是重要的,為什么與某些已知化合物的相似性支持或反對(duì)批準(zhǔn)決定。第二個(gè)是"標(biāo)簽"部分,給出明確的"批準(zhǔn)"或"未批準(zhǔn)"預(yù)測(cè)。第三個(gè)是"分?jǐn)?shù)"部分,提供一個(gè)0到1之間的置信度評(píng)分,表明模型對(duì)自己預(yù)測(cè)的確信程度。

這種設(shè)計(jì)的巧妙之處在于它模擬了人類專家的決策過(guò)程。真正的藥物審評(píng)專家在評(píng)估一個(gè)新藥申請(qǐng)時(shí),也會(huì)經(jīng)歷類似的思維過(guò)程:分析化合物特征、回憶相似案例、權(quán)衡各種因素、做出決定、評(píng)估自己的確信程度。DrugReasoner將這個(gè)過(guò)程數(shù)字化,使其變得可重現(xiàn)、可分析。

訓(xùn)練過(guò)程中采用的群體相對(duì)策略優(yōu)化方法進(jìn)一步強(qiáng)化了推理能力。這種方法不僅要求模型給出正確答案,還要求它能夠生成連貫、有邏輯的推理過(guò)程。通過(guò)多目標(biāo)獎(jiǎng)勵(lì)函數(shù),系統(tǒng)學(xué)會(huì)了在保證預(yù)測(cè)準(zhǔn)確性的同時(shí),也要保證推理過(guò)程的質(zhì)量和可讀性。

置信度對(duì)齊是推理能力的一個(gè)重要組成部分。DrugReasoner學(xué)會(huì)了誠(chéng)實(shí)地評(píng)估自己的不確定性,這在實(shí)際應(yīng)用中非常有價(jià)值。當(dāng)模型給出高置信度的預(yù)測(cè)時(shí),研發(fā)人員可以更加信任這個(gè)結(jié)果;當(dāng)模型表示不確定時(shí),這本身就是有價(jià)值的信息,提示需要更多的實(shí)驗(yàn)驗(yàn)證或?qū)<覍徸h。

這種推理能力在藥物發(fā)現(xiàn)的實(shí)際應(yīng)用中具有重要意義。制藥公司的研發(fā)人員不僅需要知道一個(gè)化合物是否可能被批準(zhǔn),更需要理解為什么。DrugReasoner提供的詳細(xì)推理過(guò)程可以幫助研發(fā)團(tuán)隊(duì)識(shí)別化合物的潛在問(wèn)題,指導(dǎo)進(jìn)一步的結(jié)構(gòu)優(yōu)化,或者為監(jiān)管申請(qǐng)準(zhǔn)備更充分的論證材料。

與傳統(tǒng)的黑盒子預(yù)測(cè)模型相比,DrugReasoner的可解釋性大大提高了AI輔助藥物發(fā)現(xiàn)的實(shí)用價(jià)值。研發(fā)人員可以審查模型的推理過(guò)程,驗(yàn)證其邏輯是否合理,甚至從中學(xué)到新的洞察。這種透明性對(duì)于建立對(duì)AI系統(tǒng)的信任至關(guān)重要,特別是在藥物研發(fā)這樣的高風(fēng)險(xiǎn)、高投入領(lǐng)域。

五、技術(shù)創(chuàng)新的深層機(jī)制

DrugReasoner的技術(shù)架構(gòu)體現(xiàn)了多項(xiàng)創(chuàng)新的巧妙結(jié)合。整個(gè)系統(tǒng)構(gòu)建在LLaMA-3.1-8B-Instruct模型的基礎(chǔ)上,這就像在一個(gè)強(qiáng)大的通用智能大腦上添加了專門的藥物分析模塊。

數(shù)據(jù)處理的創(chuàng)新首先體現(xiàn)在分子嵌入技術(shù)的使用上。研究團(tuán)隊(duì)采用了MOLFORMER,這是一個(gè)專門針對(duì)分子結(jié)構(gòu)訓(xùn)練的transformer模型。MOLFORMER能夠?qū)⒒瘜W(xué)結(jié)構(gòu)的SMILES表示轉(zhuǎn)換為768維的向量,這個(gè)過(guò)程就像將復(fù)雜的分子結(jié)構(gòu)翻譯成AI能夠理解的數(shù)字語(yǔ)言。通過(guò)掩碼語(yǔ)言建模訓(xùn)練,MOLFORMER學(xué)會(huì)了理解分子結(jié)構(gòu)中的各種模式和關(guān)系。

相似性搜索機(jī)制是另一個(gè)技術(shù)亮點(diǎn)。研究團(tuán)隊(duì)沒(méi)有簡(jiǎn)單地使用化學(xué)相似性指標(biāo),而是訓(xùn)練了一個(gè)XGBoost模型來(lái)學(xué)習(xí)與藥物批準(zhǔn)相關(guān)的相似性模式。這種方法的優(yōu)勢(shì)在于它不僅考慮了化學(xué)結(jié)構(gòu)的相似性,還考慮了與審批結(jié)果相關(guān)的特征模式。XGBoost模型被訓(xùn)練為一個(gè)二分類器,用MOLFORMER生成的分子嵌入作為輸入特征,學(xué)習(xí)區(qū)分已批準(zhǔn)和未批準(zhǔn)化合物。

訓(xùn)練好的XGBoost模型被用來(lái)生成葉節(jié)點(diǎn)嵌入,這是一種獨(dú)特的相似性度量方法。每個(gè)分子在XGBoost的決策樹中會(huì)走過(guò)一條特定的路徑,最終到達(dá)某個(gè)葉節(jié)點(diǎn)。具有相似葉節(jié)點(diǎn)軌跡的分子被認(rèn)為是相似的,這種相似性不僅反映了化學(xué)結(jié)構(gòu)特征,還反映了與審批決策相關(guān)的特征模式。

群體相對(duì)策略優(yōu)化的實(shí)現(xiàn)細(xì)節(jié)也體現(xiàn)了技術(shù)創(chuàng)新。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法通常需要復(fù)雜的價(jià)值函數(shù)估計(jì),而GRPO通過(guò)群體內(nèi)比較簡(jiǎn)化了這個(gè)過(guò)程。對(duì)于每個(gè)輸入,模型生成四個(gè)不同的輸出,然后基于多目標(biāo)獎(jiǎng)勵(lì)函數(shù)對(duì)這些輸出進(jìn)行評(píng)分。群體內(nèi)的平均獎(jiǎng)勵(lì)作為基線,每個(gè)輸出的優(yōu)勢(shì)通過(guò)與這個(gè)基線的差值來(lái)計(jì)算。

獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)特別巧妙,它包含了五個(gè)不同的目標(biāo)。正確性獎(jiǎng)勵(lì)確保模型學(xué)會(huì)給出正確的預(yù)測(cè),XML格式獎(jiǎng)勵(lì)和軟格式兼容性獎(jiǎng)勵(lì)確保輸出結(jié)構(gòu)的規(guī)范性,可解釋性獎(jiǎng)勵(lì)鼓勵(lì)生成有意義的標(biāo)簽,置信度對(duì)齊獎(jiǎng)勵(lì)則培養(yǎng)模型誠(chéng)實(shí)評(píng)估自己的不確定性。這種多目標(biāo)設(shè)計(jì)確保了模型在各個(gè)方面都得到優(yōu)化。

為了防止數(shù)據(jù)泄露,研究團(tuán)隊(duì)特意排除了SMILES字符串的使用,而是依賴于RDKit計(jì)算的分子描述符。這些描述符包括分子量、LogP值、拓?fù)錁O性表面積、氫鍵供體和受體數(shù)量、可旋轉(zhuǎn)鍵數(shù)量、分子折射率、手性中心、重原子、環(huán)數(shù)量和形式電荷等。此外,還進(jìn)行了結(jié)構(gòu)預(yù)警檢查,使用泛分析干擾化合物和Brenk過(guò)濾器識(shí)別不良子結(jié)構(gòu)。

訓(xùn)練過(guò)程采用了多種優(yōu)化技術(shù)來(lái)提高效率。使用了4位量化技術(shù)減少內(nèi)存占用,采用低秩適應(yīng)(LoRA)技術(shù)只對(duì)關(guān)鍵的注意力投影層進(jìn)行微調(diào),同時(shí)使用unsloth庫(kù)和paged_adamw_8bit優(yōu)化器來(lái)加速訓(xùn)練過(guò)程。整個(gè)訓(xùn)練過(guò)程在單個(gè)NVIDIA V100 GPU上進(jìn)行了約794小時(shí),生成了多個(gè)檢查點(diǎn)供選擇。

檢查點(diǎn)選擇策略結(jié)合了獎(jiǎng)勵(lì)軌跡監(jiān)控和驗(yàn)證集性能評(píng)估。每500步進(jìn)行一次評(píng)估,使用包括AUC、F1分?jǐn)?shù)、精確度、召回率、特異性和準(zhǔn)確率在內(nèi)的多個(gè)指標(biāo)。最終選擇的第12500步檢查點(diǎn)不僅在各項(xiàng)指標(biāo)上表現(xiàn)優(yōu)秀,還實(shí)現(xiàn)了100%的輸出格式合規(guī)率。

六、實(shí)際應(yīng)用價(jià)值與影響

DrugReasoner的開發(fā)不僅僅是一項(xiàng)技術(shù)成就,更重要的是它為藥物研發(fā)行業(yè)帶來(lái)的實(shí)際價(jià)值和潛在影響。在一個(gè)平均需要十多年時(shí)間和近9億美元投入的藥物開發(fā)過(guò)程中,能夠在早期階段準(zhǔn)確預(yù)測(cè)成功概率的工具具有巨大的商業(yè)和社會(huì)價(jià)值。

從制藥公司的角度來(lái)看,DrugReasoner可以顯著改善投資決策的質(zhì)量。傳統(tǒng)的藥物開發(fā)就像在黑暗中摸索,公司往往需要基于有限的信息做出巨額投資決定。DrugReasoner提供的不僅是預(yù)測(cè)結(jié)果,更重要的是詳細(xì)的推理過(guò)程,這讓決策者能夠理解每個(gè)化合物的優(yōu)勢(shì)和風(fēng)險(xiǎn)點(diǎn)。當(dāng)模型預(yù)測(cè)某個(gè)化合物有高概率獲得批準(zhǔn)時(shí),公司可以更有信心地增加投資;當(dāng)模型指出潛在問(wèn)題時(shí),公司可以提前調(diào)整策略或重新設(shè)計(jì)分子結(jié)構(gòu)。

研發(fā)效率的提升是另一個(gè)重要價(jià)值。DrugReasoner可以幫助研究團(tuán)隊(duì)在化合物庫(kù)中快速篩選出最有前途的候選藥物,避免在低概率成功的項(xiàng)目上浪費(fèi)時(shí)間和資源。這種早期篩選能力特別有價(jià)值,因?yàn)樵皆绨l(fā)現(xiàn)問(wèn)題,調(diào)整成本越低。在藥物發(fā)現(xiàn)的hit-to-lead和lead optimization階段,DrugReasoner的預(yù)測(cè)可以指導(dǎo)化學(xué)家的合成策略,優(yōu)先考慮那些不僅具有良好生物活性,也更可能通過(guò)監(jiān)管審批的化合物。

對(duì)于監(jiān)管機(jī)構(gòu)而言,DrugReasoner的推理能力可能有助于提高審批過(guò)程的效率和一致性。雖然AI系統(tǒng)不能替代人類專家的判斷,但它可以作為一個(gè)有價(jià)值的參考工具,幫助審評(píng)人員快速識(shí)別關(guān)鍵問(wèn)題,確保審評(píng)過(guò)程的全面性和一致性。模型提供的詳細(xì)推理過(guò)程可以作為討論的起點(diǎn),促進(jìn)更深入的科學(xué)交流。

從學(xué)術(shù)研究的角度看,DrugReasoner代表了AI在藥物發(fā)現(xiàn)領(lǐng)域應(yīng)用的一個(gè)重要進(jìn)步。它展示了如何將大型語(yǔ)言模型的推理能力與特定領(lǐng)域知識(shí)結(jié)合,創(chuàng)造出既準(zhǔn)確又可解釋的預(yù)測(cè)系統(tǒng)。這種方法可能激發(fā)更多類似的研究,推動(dòng)整個(gè)AI輔助藥物發(fā)現(xiàn)領(lǐng)域的發(fā)展。

DrugReasoner的社會(huì)影響也值得關(guān)注。通過(guò)提高藥物開發(fā)的效率和成功率,這類技術(shù)最終可能有助于降低新藥成本,加速重要藥物的上市時(shí)間。對(duì)于患有罕見疾病或急需新治療方案的患者來(lái)說(shuō),這意味著可能更早獲得有效的治療選擇。

然而,DrugReasoner的實(shí)際應(yīng)用也面臨一些挑戰(zhàn)和限制。首先是數(shù)據(jù)質(zhì)量和代表性的問(wèn)題。模型的性能很大程度上依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量,如果訓(xùn)練數(shù)據(jù)存在偏差或不夠全面,可能影響預(yù)測(cè)的準(zhǔn)確性。其次是監(jiān)管接受度的問(wèn)題。監(jiān)管機(jī)構(gòu)對(duì)AI工具在藥物審批中的作用仍然比較謹(jǐn)慎,需要時(shí)間來(lái)建立相應(yīng)的指導(dǎo)原則和驗(yàn)證標(biāo)準(zhǔn)。

技術(shù)層面的限制也需要考慮。當(dāng)前版本的DrugReasoner主要基于分子的理化性質(zhì)進(jìn)行預(yù)測(cè),雖然這避免了數(shù)據(jù)泄露問(wèn)題,但也可能錯(cuò)過(guò)一些重要的結(jié)構(gòu)信息。研究團(tuán)隊(duì)已經(jīng)意識(shí)到這個(gè)限制,并在討論中提出了未來(lái)改進(jìn)的方向,包括在控制數(shù)據(jù)泄露風(fēng)險(xiǎn)的前提下整合更多結(jié)構(gòu)信息。

計(jì)算資源的需求是另一個(gè)實(shí)際考慮因素。DrugReasoner的訓(xùn)練需要大量計(jì)算資源,雖然一旦訓(xùn)練完成,推理過(guò)程相對(duì)高效,但初始開發(fā)和持續(xù)更新仍需要相當(dāng)?shù)募夹g(shù)投入。這可能限制了中小型制藥公司或?qū)W術(shù)機(jī)構(gòu)的使用。

盡管存在這些挑戰(zhàn),DrugReasoner所代表的技術(shù)方向無(wú)疑具有巨大的潛力。隨著技術(shù)的不斷改進(jìn)和應(yīng)用經(jīng)驗(yàn)的積累,這類AI工具很可能成為未來(lái)藥物研發(fā)流程中的標(biāo)準(zhǔn)組件,為更高效、更智能的藥物發(fā)現(xiàn)開辟新的可能性。

歸根結(jié)底,DrugReasoner的價(jià)值不僅在于它能夠做出準(zhǔn)確的預(yù)測(cè),更在于它為藥物研發(fā)帶來(lái)了前所未有的透明度和可解釋性。在一個(gè)傳統(tǒng)上依賴直覺(jué)和經(jīng)驗(yàn)的領(lǐng)域中,這種基于數(shù)據(jù)和推理的方法提供了新的視角和工具,有望推動(dòng)整個(gè)行業(yè)向更科學(xué)、更高效的方向發(fā)展。當(dāng)然,AI系統(tǒng)永遠(yuǎn)不會(huì)完全取代人類專家的智慧和判斷,但它們可以成為強(qiáng)有力的助手,幫助我們更好地理解復(fù)雜的藥物研發(fā)過(guò)程,最終為患者帶來(lái)更多更好的治療選擇。

Q&A

Q1:DrugReasoner是什么?它與傳統(tǒng)的藥物預(yù)測(cè)工具有什么不同?

A:DrugReasoner是由伊斯法罕醫(yī)科大學(xué)開發(fā)的AI系統(tǒng),專門用于預(yù)測(cè)新藥是否能獲得監(jiān)管部門批準(zhǔn)。與傳統(tǒng)工具最大的不同是,它不僅能給出預(yù)測(cè)結(jié)果,還能像人類專家一樣詳細(xì)解釋自己的推理過(guò)程,告訴你為什么這個(gè)藥物可能成功或失敗,而不是只給一個(gè)冰冷的數(shù)字答案。

Q2:DrugReasoner的預(yù)測(cè)準(zhǔn)確率如何?在實(shí)際應(yīng)用中表現(xiàn)怎么樣?

A:DrugReasoner在多項(xiàng)測(cè)試中表現(xiàn)優(yōu)異,驗(yàn)證集上AUC值達(dá)到0.732,測(cè)試集為0.725。更重要的是,在獨(dú)立的外部數(shù)據(jù)集測(cè)試中,它明顯超越了傳統(tǒng)方法和最新的ChemAP模型,AUC值達(dá)到0.728,F(xiàn)1分?jǐn)?shù)高達(dá)77.4%,顯示出強(qiáng)大的實(shí)際應(yīng)用潛力。

Q3:制藥公司如何使用DrugReasoner?它能帶來(lái)什么實(shí)際好處?

A:制藥公司可以用DrugReasoner在早期階段篩選候選藥物,避免在低成功率的項(xiàng)目上浪費(fèi)時(shí)間和金錢。由于每個(gè)新藥開發(fā)需要十多年和近9億美元投入,DrugReasoner提供的預(yù)測(cè)和詳細(xì)解釋能幫助公司做出更明智的投資決策,提高研發(fā)效率,最終可能加速新藥上市并降低成本。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-