這5條重要提示,也許能幫助各位制藥業(yè)高管打開通往數(shù)據(jù)科學(xué)之旅的大門。以此為引導(dǎo),你將逐步了解如何選擇正確的分析項目、保障資金供給、建立早期團(tuán)隊、獲取數(shù)據(jù)并選擇有效的實現(xiàn)技術(shù)。
2011年,谷歌內(nèi)部對于深度學(xué)習(xí)技術(shù)的潛力仍普遍持懷疑態(tài)度。很明顯,時任Google Brain團(tuán)隊負(fù)責(zé)人的吳恩達(dá)要說服大家在這一全新人工智能(AI)方向上投入資源,必須克服艱巨的挑戰(zhàn)。
吳恩達(dá)決定從小處入手消解阻力。
他最先在語音識別團(tuán)隊中獲得了初步支持。該團(tuán)隊在谷歌中的關(guān)注度遠(yuǎn)不及搜索或廣告業(yè)務(wù)部門,但吳恩達(dá)至少以此為起點幫助第一位內(nèi)部客戶獲得了價值回報,讓深度學(xué)習(xí)在谷歌語音搜索中得到早期應(yīng)用。也正是憑借這成功的第一步,深度學(xué)習(xí)技術(shù)得到了在谷歌地圖中一試身手的機(jī)會,負(fù)責(zé)提高數(shù)據(jù)質(zhì)量。
每個項目的成功都在鞏固人們的信心。最終,飛輪效應(yīng)全面啟動,令深度學(xué)習(xí)成為谷歌之內(nèi)一股不可阻擋的洪流。如今,深度學(xué)習(xí)已經(jīng)為谷歌的大多數(shù)產(chǎn)品提供著強(qiáng)大的支持,包括搜索、相冊、YouTube乃至地圖等等。
這個故事同樣能夠為制藥行業(yè)的高管們提供寶貴經(jīng)驗,啟發(fā)大家立足所在組織一步步探索數(shù)據(jù)科學(xué)領(lǐng)域。
每一家希望掌握高級分析之力的組織,都必須經(jīng)歷五大關(guān)鍵步驟。雖然說起來非常簡單,但不同行業(yè)的高管人士往往未能對這些步驟給予應(yīng)有的重視。
TPS Global臨床與戰(zhàn)略運(yùn)營執(zhí)行副總裁Syed Shah表示,“令我感到驚訝的是,藥學(xué)領(lǐng)域一直存在大量可用數(shù)據(jù),但真正得到成功使用的數(shù)據(jù)量卻非常有限。”通過示例,我們將共同了解這五個步驟如何幫助您為制藥行業(yè)建立起可靠的數(shù)據(jù)科學(xué)實踐。
1. 克制挑戰(zhàn)“登月”的雄心,先從唾手可得的成果中做出選擇
在選擇數(shù)據(jù)科學(xué)之旅的啟動項目方面,企業(yè)往往會犯下同一類錯誤——傾向于選擇那些緊急但缺乏戰(zhàn)略影響,或者說有趣但鮮有實際回報的項目。
更糟糕的是,企業(yè)最終選擇的項目往往過于復(fù)雜。請注意,最重要的是應(yīng)該通過早期的一個個小成功快速展示業(yè)務(wù)價值,而非一上來就選擇那些前景無比宏偉、但卻充滿不確定性風(fēng)險的“登月”級項目。
Roche Diagnostics公司商務(wù)智能兼分析主管K.M.A. Omar表示,“在制藥企業(yè)中選擇啟動項目時,并不一定非得從營銷、銷售或者財務(wù)等角度切入。研究等領(lǐng)域的實施阻力往往更低,而且同樣能夠為患者帶來可觀的價值。此外,這部分員工們對于生物統(tǒng)計學(xué)乃至數(shù)據(jù)的應(yīng)用概念擁有良好的理解。實際上,他們往往對組織在高級分析方法方面的嘗試充滿熱情。”
2. 通過量化業(yè)務(wù)投資回報、而非給出模糊的預(yù)測結(jié)果,保障資金供給
根據(jù)Gartner的調(diào)查,數(shù)據(jù)分析項目中的資金短缺已經(jīng)成為首席數(shù)據(jù)官(CDO)們面臨的最大障礙之一。Syed Shah指出,“為了獲取資金,首先需要明確項目的最終收益。”
Shah補(bǔ)充道,“然而,確實有不少項目缺乏明確的投資回報(ROI)或者成本節(jié)約效用。對于這類項目,最重要的自然是歸納其帶來的無形收益,例如消除由低質(zhì)量產(chǎn)品帶來的返工成本。”
舉例來說,假定你已經(jīng)建立起一套數(shù)據(jù)科學(xué)解決方案,可以自動對細(xì)胞進(jìn)行計數(shù)以加快藥物發(fā)現(xiàn)速度。一般認(rèn)為,這類解決方案能夠縮短研發(fā)周期或者降低生物學(xué)家們的工作強(qiáng)度。對此,最合理的方法自然是計算項目帶來的潛在成本節(jié)約與投資回報。只要以由此得出的近似估算值作為投資回報起點,你的項目就能在企業(yè)中獲得必要的關(guān)注與預(yù)算支持。
3. 為你的早期數(shù)據(jù)科學(xué)團(tuán)隊配備技術(shù)通才,而非急于引入純數(shù)據(jù)科學(xué)家
每個數(shù)據(jù)科學(xué)團(tuán)隊都需要五種專業(yè)角色。但在早期階段,通才往往比特定領(lǐng)域的專家更具價值。一般來說,通才屬于公司內(nèi)的現(xiàn)有人員,而且對制藥領(lǐng)域及組織動態(tài)都擁有深刻的理解。
美國食品藥監(jiān)局CDO Ram C Iyer表示,“很多新任領(lǐng)導(dǎo)者都低估了組織內(nèi)已經(jīng)擁有的人才儲備。大多數(shù)與健康相關(guān)的組織都擁有著掌握各類分析技術(shù)與工具知識的高級知識分子乃至博士群體。”
數(shù)據(jù)領(lǐng)導(dǎo)者們必須發(fā)揮自己的人才發(fā)掘能力,快速找到那些精通數(shù)字、充滿好奇心且樂于學(xué)習(xí)的員工。Iyer還補(bǔ)充道,這部分人才將成為啟動初期項目、建立長期數(shù)據(jù)科學(xué)部門當(dāng)中的重要基礎(chǔ)。
4. 從少量數(shù)據(jù)起步,不要坐等完美數(shù)據(jù)倉庫的落實
如果沒有規(guī)??捎^、質(zhì)量穩(wěn)定且經(jīng)過良好組織化的數(shù)據(jù)作為依托,數(shù)據(jù)科學(xué)根本無法實現(xiàn)。但在早期階段,大多數(shù)組織都拿不出如此奢侈的資源儲備。那么,制藥行業(yè)的高管們是不是該推遲自己的數(shù)據(jù)科學(xué)探索,直至準(zhǔn)備好強(qiáng)大的數(shù)據(jù)工程層?
Omar認(rèn)為,“我強(qiáng)烈建議大家不要等待,因為所謂完美的數(shù)據(jù)可用性永遠(yuǎn)不可能到來。”
他還補(bǔ)充稱,這些早期項目可以幫助大家建立起可重用數(shù)據(jù)資產(chǎn)創(chuàng)建案例。你可以借此吸引到人們對于數(shù)據(jù)質(zhì)量問題的關(guān)注。從起步階段開始,大家就必須關(guān)注數(shù)據(jù)架構(gòu)層面的差距,并將這部分問題充分體現(xiàn)在數(shù)據(jù)工程的待辦清單當(dāng)中。
例如,你可以使用臨床試驗數(shù)據(jù)表格發(fā)現(xiàn)關(guān)于患者行為、募集與留存的可行性洞見。你需要評估數(shù)據(jù)的可用性與質(zhì)量,并在確定這些指標(biāo)均高于可接受閾值后正式啟動高級分析之旅。
5. 在運(yùn)用AI力量之前,先從簡單的數(shù)據(jù)分析方法入手
我們能不能在第一個數(shù)據(jù)科學(xué)項目中就充分運(yùn)用人工智能的潛力?Shah認(rèn)為,“千萬別被那些流行語和趨勢性表述所誤導(dǎo)。請堅持您的直覺判斷、不斷探索真相、總結(jié)出自己的洞見并據(jù)此做出決定。在大多數(shù)情況下,初步探索并不需要特別復(fù)雜的技術(shù)或者統(tǒng)計數(shù)據(jù)。”
在Roche Diagnostics,“AI本身并不屬于獨立的議程,它只是我們用于實現(xiàn)戰(zhàn)略目標(biāo)的工具與部分功能。”根據(jù)該公司CIO Werner Boeing在《麻省理工學(xué)院斯隆管理評論》中發(fā)表的報告,正是這種將AI視為常規(guī)工具之一的舉措,幫助Roche Diagnostics獲得了結(jié)合實際需求使用AI功能的靈活性。
例如,計算機(jī)視覺可以檢查視頻源中是否存在藥品生產(chǎn)或包裝問題,借此提高藥品制造質(zhì)量。但作為更適合的起步項目,大家不妨先嘗試通過簡單的回歸算法快速提高藥物良品率。
數(shù)據(jù)科學(xué)之旅中的第一波沖刺
選擇正確的數(shù)據(jù)科學(xué)項目、獲取資金供給、組建團(tuán)隊、獲取數(shù)據(jù)并產(chǎn)生可行洞見,這些都是相當(dāng)艱難的挑戰(zhàn)。而即使完成了這些目標(biāo),數(shù)據(jù)科學(xué)的探索之旅仍然沒有徹底完成。
只有將解決方案應(yīng)用于實際決策,數(shù)據(jù)科學(xué)才能真正為大家創(chuàng)造價值。要想沖過這道終點線,大家需要保證你的項目已經(jīng)得到用戶們的實際采用,包括與業(yè)務(wù)支持者們通力合作、為最終用戶提供影響并不斷獲得一項項成果,借此在制藥企業(yè)之內(nèi)維持住良好的數(shù)據(jù)科學(xué)發(fā)展勢頭。
Shah總結(jié)道,“只有當(dāng)領(lǐng)導(dǎo)者們能夠看到自己的數(shù)據(jù),體會到數(shù)據(jù)背后那一個個引人入勝、但以往根本沒有被發(fā)現(xiàn)過的故事時,他們才算真正體會到數(shù)據(jù)科學(xué)的現(xiàn)實力量。”
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學(xué)習(xí)外觀和運(yùn)動信息,顯著解決了當(dāng)前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運(yùn)動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報,準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。