時(shí)至今日,機(jī)器學(xué)習(xí)與深度學(xué)習(xí)已經(jīng)成為各類日常應(yīng)用程序中的重要組成部分。而正是通過(guò)制定正確的策略、將機(jī)器學(xué)習(xí)算法集成到運(yùn)營(yíng)與流程當(dāng)中,眾多企業(yè)才得以快速實(shí)現(xiàn)蓬勃發(fā)展。與之對(duì)應(yīng),任何忽略了人工智能重大進(jìn)步的競(jìng)爭(zhēng)對(duì)手,都將在市場(chǎng)上失去立足之地。
但掌握機(jī)器學(xué)習(xí)知識(shí)是個(gè)困難的過(guò)程。大家需要從扎實(shí)的線性代數(shù)與微積分知識(shí)入手,掌握Python等編程語(yǔ)言,同時(shí)精通Numpy、Scikit-learn、TensorFlow以及PyTorch等數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)庫(kù)。
如果你需要?jiǎng)?chuàng)建具備集成與擴(kuò)展能力的機(jī)器學(xué)習(xí)系統(tǒng),還需要熟悉Amazon AWS、微軟Azure以及Google Cloud等云平臺(tái)。
很明顯,不少朋友壓根不打算把自己培養(yǎng)成機(jī)器學(xué)習(xí)工程師。但我們得承認(rèn),這些數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)知識(shí)確實(shí)能給業(yè)務(wù)或組織負(fù)責(zé)人帶來(lái)不少助益。好消息是,目前已經(jīng)有幾門課程提供關(guān)于機(jī)器學(xué)習(xí)及深度學(xué)習(xí)的宏觀概述,而且不要求各位深入研究數(shù)學(xué)和編碼技能。
但結(jié)合自己的經(jīng)驗(yàn),要想真正建立起對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的認(rèn)知,必須在算法方面具有一定實(shí)踐經(jīng)驗(yàn)。在這方面,微軟Excel無(wú)疑是一款極具價(jià)值、但卻經(jīng)常被忽視的工具。
圖注:Hong Zhou撰寫(xiě)的《通過(guò)Excel學(xué)習(xí)數(shù)據(jù)挖掘:逐步理解機(jī)器學(xué)習(xí)方法》
對(duì)大多數(shù)人來(lái)說(shuō),微軟Excel只是一款電子表格應(yīng)用程序,負(fù)責(zé)以表格形式存儲(chǔ)數(shù)據(jù)并執(zhí)行比較基礎(chǔ)的數(shù)學(xué)運(yùn)算。但實(shí)際上,Excel是一款能夠解決復(fù)雜問(wèn)題的強(qiáng)大計(jì)算工具,其中包含的不少功能甚至允許您直接在工作簿中創(chuàng)建機(jī)器學(xué)習(xí)模型。
雖然我本人多年來(lái)一直在使用Excel數(shù)學(xué)工具,但直到接觸到《通過(guò)Excel學(xué)習(xí)數(shù)據(jù)挖掘:逐步理解機(jī)器學(xué)習(xí)方法》(Learn Data Mining Through Excel: A Step-by-Step Approach for Understanding Machine Learning Methods )中Hong Zhou提出的學(xué)習(xí)方法,我才意識(shí)到Excel在數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)習(xí)與應(yīng)用意義。
文中介紹了如何通過(guò)Excel一步步掌握機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí),同時(shí)也展示了如何使用Excel基礎(chǔ)函數(shù)與高級(jí)工具實(shí)現(xiàn)多種算法。
雖然Excel絕對(duì)無(wú)法取代Python機(jī)器學(xué)習(xí),但它仍是學(xué)習(xí)AI基礎(chǔ)知識(shí)并解決各類基本問(wèn)題、同時(shí)又無(wú)需編寫(xiě)代碼的絕佳入門選項(xiàng)。
使用Excel進(jìn)行線性回歸機(jī)器學(xué)習(xí)
線性回歸是一種簡(jiǎn)單的機(jī)器學(xué)習(xí)算法,在分析數(shù)據(jù)與預(yù)測(cè)結(jié)果方面有著重要用途。具體來(lái)講,線性回歸特別適合處理那些整齊排列的表格式數(shù)據(jù)。Excel提供多項(xiàng)功能,可幫助您通過(guò)電子表格中的數(shù)據(jù)創(chuàng)建回歸模型。
作為一款直觀工具,數(shù)據(jù)圖表工具能夠提供強(qiáng)大的數(shù)據(jù)可視化功能。例如,你可以通過(guò)散點(diǎn)圖在笛卡爾平面上顯示數(shù)據(jù)的值。但除了顯示數(shù)據(jù)分布之外,Excel圖表工具還可以創(chuàng)建機(jī)器學(xué)習(xí)模型,用以預(yù)測(cè)數(shù)據(jù)值的變化。這項(xiàng)功能名為趨勢(shì)線,可根據(jù)您的數(shù)據(jù)創(chuàng)建回歸模型。你可以在趨勢(shì)線選定多種回歸算法,包括線性、多項(xiàng)式、對(duì)數(shù)與指數(shù)。你還可以配置圖表以顯示機(jī)器學(xué)習(xí)模型中的參數(shù),借此預(yù)測(cè)新的觀察結(jié)果。
當(dāng)然,你還可以將多個(gè)趨勢(shì)線添加至同一圖表當(dāng)中,借此快速測(cè)試并比較不同機(jī)器學(xué)習(xí)模型在同一批數(shù)據(jù)上的性能。
圖注:Excel中的趨勢(shì)線功能可根據(jù)數(shù)據(jù)創(chuàng)建回歸模型。
除了體驗(yàn)圖表工具之外,《通過(guò)Excel學(xué)習(xí)數(shù)據(jù)挖掘》還提供其他一些體驗(yàn)流程,幫助您開(kāi)發(fā)出更高級(jí)的回歸模型。其中涵蓋LINEST與LINREG等公式,可根據(jù)您的訓(xùn)練數(shù)據(jù)為機(jī)器學(xué)習(xí)模型計(jì)算出必要參數(shù)。
作者還引領(lǐng)大家逐步使用其他Excel基礎(chǔ)公式(例如SUM與SUMPRODUCT)創(chuàng)建線性回歸模型。整本書(shū)都遵循類似的套路:介紹機(jī)器學(xué)習(xí)模型中使用的數(shù)學(xué)公式,了解其背后的基本原理,并通過(guò)將值與公式組合在多個(gè)單元格及單元格數(shù)組中逐步創(chuàng)建出模型。
這一切距離生產(chǎn)級(jí)數(shù)據(jù)科學(xué)工作還很遙遠(yuǎn),但在學(xué)習(xí)機(jī)器學(xué)習(xí)方面卻是效果拔群,足以幫助大家快速掌握各類常用的機(jī)器學(xué)習(xí)算法。
通過(guò)Excel掌握其他機(jī)器學(xué)習(xí)算法
除了回歸模型,你還可以在Excel上應(yīng)用其他機(jī)器學(xué)習(xí)算法?!锻ㄟ^(guò)Excel學(xué)習(xí)數(shù)據(jù)挖掘》中還提供豐富的監(jiān)督與無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法,包括k均值聚類、k最近鄰、樸素貝葉斯分類與決策樹(shù)等等。
雖然整個(gè)過(guò)程可能顯得有點(diǎn)混亂,但只要按章節(jié)進(jìn)行,大家會(huì)很快摸索出其中的邏輯。以k均值聚類為例,我們將在這一章中通過(guò)多個(gè)工作表使用大量Excel公式與函數(shù)(INDEX, IF, AVERAGEIF, ADDRESS等),借此計(jì)算聚類中心并對(duì)其進(jìn)行優(yōu)化。這并不是最有效的聚類方法,但在通過(guò)一個(gè)個(gè)工作表對(duì)聚類進(jìn)行不斷完善的過(guò)程中,您將獲得良好的觀察與研究機(jī)會(huì)。更重要的是,這種體驗(yàn)與傳統(tǒng)編程書(shū)籍大不相同。一般的編程書(shū)籍往往引導(dǎo)讀者直接使用數(shù)據(jù)點(diǎn)與機(jī)器學(xué)習(xí)庫(kù)函數(shù),借此直接輸出聚類及其屬性。
圖注:在Excel上進(jìn)行k均值聚類時(shí),可以在連續(xù)的工作表上進(jìn)行聚類細(xì)化。
在決策樹(shù)一章中,我們將首先計(jì)算熵,再為機(jī)器學(xué)習(xí)模型中的各個(gè)分支選擇特征。這個(gè)過(guò)程非常緩慢而且需要大量人為操作,但卻能給各位帶來(lái)有效的機(jī)器學(xué)習(xí)算法理解視角與體驗(yàn)。
在本書(shū)的多數(shù)章節(jié)中,我們都會(huì)使用求解器工具嘗試實(shí)現(xiàn)損失函數(shù)最小化。在這里,大家會(huì)深刻體會(huì)到Excel的局限性——即使是只包含十幾項(xiàng)參數(shù)的簡(jiǎn)單模型,也可能令計(jì)算機(jī)陷入緩慢的抓取當(dāng)中。而一旦數(shù)據(jù)樣本多達(dá)幾百行,速度更是令人抓狂。但在對(duì)機(jī)器學(xué)習(xí)模型參數(shù)進(jìn)行調(diào)優(yōu)的過(guò)程中,求解器能夠表現(xiàn)出強(qiáng)大的功能。
圖注:Excel的求解器工具能夠調(diào)優(yōu)模型參數(shù)并實(shí)現(xiàn)損失函數(shù)最小化。
通過(guò)Excel進(jìn)行深度學(xué)習(xí)與自然語(yǔ)言處理
《通過(guò)Excel學(xué)習(xí)數(shù)據(jù)挖掘》還提到,Excel甚至能夠?qū)崿F(xiàn)某些高級(jí)機(jī)器學(xué)習(xí)算法。其中一章專門研究如何精心設(shè)計(jì)深度學(xué)習(xí)模型。首先,我們將創(chuàng)建一套包含約10項(xiàng)參數(shù)的單層人工神經(jīng)網(wǎng)絡(luò)。接下來(lái),我們擴(kuò)展其概念,創(chuàng)建出包含隱藏層的深度學(xué)習(xí)模型。雖然整個(gè)計(jì)算過(guò)程緩慢且效率低下,但確實(shí)可以正常起效,通過(guò)單元格值、公式以及強(qiáng)大的求解器工具實(shí)現(xiàn)深度學(xué)習(xí)推理。
圖注:使用微軟Excel進(jìn)行深度學(xué)習(xí),可幫助你深入理解深度神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式。
在最后一章中,我們將使用Excel創(chuàng)建一款最基礎(chǔ)的自然語(yǔ)言處理(NLP)應(yīng)用程序,借此建立情感分析機(jī)器學(xué)習(xí)模型。大家需要使用公式創(chuàng)建“詞袋模型”,借此對(duì)酒店評(píng)論進(jìn)行預(yù)處理與令牌化,而后根據(jù)肯定與否定關(guān)鍵字的密度對(duì)內(nèi)容進(jìn)行分類。在此過(guò)程中,大家將學(xué)到很多關(guān)于當(dāng)代AI如何處理語(yǔ)言內(nèi)容,以及AI與人類在處理局面及口頭語(yǔ)言方面有何不同的專業(yè)知識(shí)。
Excel——強(qiáng)大的機(jī)器學(xué)習(xí)工具
無(wú)論你身為企業(yè)中的決策者、來(lái)自人力資源部門還是負(fù)責(zé)管理供應(yīng)鏈及制造工廠,要想與數(shù)據(jù)科學(xué)家及AI技術(shù)人員協(xié)同合作,掌握機(jī)器學(xué)習(xí)方面的基礎(chǔ)知識(shí)都非常重要。同樣的,如果你身為報(bào)道AI動(dòng)態(tài)的記者,或者身在為企業(yè)內(nèi)機(jī)器學(xué)習(xí)團(tuán)隊(duì)發(fā)聲的公關(guān)部門,理解相關(guān)工作原理也是編撰報(bào)道文章的重要基礎(chǔ)。在我看來(lái),《通過(guò)Excel學(xué)習(xí)數(shù)據(jù)挖掘》是一本易于閱讀且節(jié)奏順暢的好書(shū),足以幫助大家一鼓作氣上完這關(guān)于AI知識(shí)的第一課。
除了學(xué)習(xí)基礎(chǔ)知識(shí)之外,Excel還可以作為我們機(jī)器學(xué)習(xí)工具集的強(qiáng)大補(bǔ)充。雖然它不適合處理龐大的數(shù)據(jù)集與復(fù)雜的算法,但足以針對(duì)小批量數(shù)據(jù)完成可視化及分析。你從Excel快速挖掘中獲得的結(jié)果,將為后續(xù)的探索方向與機(jī)器學(xué)習(xí)算法選擇提供重要洞見(jiàn),最終引導(dǎo)你走上解決問(wèn)題的正確道路。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。