和數(shù)據(jù)科學(xué)。
“自動化對人工智能和機器學(xué)習(xí)生命周期的影響”這個話題很感興趣,并與Amini博士集中討論了AutoAI的下一代功能。
AutoAI自動執(zhí)行高度復(fù)雜的任務(wù),為數(shù)據(jù)尋找并優(yōu)化最好的機器學(xué)習(xí)模型、特征和模型超參數(shù)。AutoAI完成了原本需要專業(yè)數(shù)據(jù)科學(xué)家團隊和其他專業(yè)資源才能完成的工作,且速度要快得多。
圖:“數(shù)據(jù)科學(xué)家想要多自動化?”(圖片來源/IBM)
在模型訓(xùn)練開始之前,必須獲取、評估數(shù)據(jù),并對其進行預(yù)處理,以識別并糾正數(shù)據(jù)質(zhì)量問題。
它需要一個訓(xùn)練有素的資源團隊,他們要了解數(shù)據(jù)科學(xué),還要有了解模型目的和輸出的主題專家。
理和建模階段進行無數(shù)次優(yōu)化調(diào)整。
管道的高度復(fù)雜性使其成為自動化的首要對象。
自動化功能包括數(shù)據(jù)準備、模型開發(fā)、特征工程和超參數(shù)優(yōu)化。
圖片來源/IBM
以下是AutoAI的部分功能列表:
自動分析數(shù)據(jù),并針對預(yù)測建模問題自動生成個性化的模型管道。
、算法和參數(shù)設(shè)置時迭代創(chuàng)建的。
結(jié)果顯示在排行榜上,并根據(jù)問題優(yōu)化目標,對自動生成的模型管道進行排名。
從數(shù)據(jù)準備,到算法選擇,再到模型創(chuàng)建,流程的每個階段都提供可視化。
用戶只需單擊鼠標,即可輕松部署模型,或為任何管道生成Python notebook。
用于持續(xù)模型改進的自動化任務(wù),可以在需要時,將AI模型API集成到應(yīng)用程序中。
只需點擊幾下鼠標,即使是只有基本數(shù)據(jù)科學(xué)技能的人,也可以使用自定義數(shù)據(jù)自動選擇、訓(xùn)練并調(diào)優(yōu)高性能機器學(xué)習(xí)模型。
無需從頭開始編寫管道代碼。
未來的人工智能自動化項目
IBM Research正在開展多個下一代人工智能自動化項目,例如處理新數(shù)據(jù)類型的下一代算法,實現(xiàn)新的自動化質(zhì)量和公平性,并顯著提高規(guī)模和性能。
AutoAI for Decisions和Semantic Data Science。
用于改進決策的AutoAI
數(shù)據(jù)集的時間維度使分析變得困難并且需要更高級的數(shù)據(jù)處理。
為訓(xùn)練準備數(shù)據(jù)集
根據(jù)數(shù)據(jù)類型確定需要哪種模型,例如分類還是回歸
將適當?shù)牟逖a轉(zhuǎn)換器置入管道中以處理丟失的數(shù)據(jù)
通過確定哪些數(shù)據(jù)列能夠最好地支持問題來進行特征選擇
測試各種超參數(shù)調(diào)整選項以獲得最佳結(jié)果
根據(jù)準確性和精確度等因素生成管道并對其排名。
Amini博士解釋說,在許多環(huán)境中,創(chuàng)建時間序列預(yù)測之后,下一步是利用預(yù)測來改進決策。
例如,數(shù)據(jù)科學(xué)家可能會建立一個“時間序列預(yù)測模型”預(yù)測產(chǎn)品需求,但是該模型也可以作為庫存補貨決策的輸入,通過減少成本、高昂的大量庫存積壓、或者避免由于庫存告罄造成的銷售損失,實現(xiàn)利潤最大化。
在另一些情況下,我們會用被稱為“決策優(yōu)化”的更系統(tǒng)性方法來構(gòu)建規(guī)范性模型,以補充時間序列預(yù)測模型。
然而,像AutoAI生成預(yù)測模型那樣直接根據(jù)數(shù)據(jù)自動化生成決策優(yōu)化管道的產(chǎn)品,目前還不存在。
多模型管道
這樣的產(chǎn)品同樣需要資源協(xié)作。
深度強化學(xué)習(xí)自動化
因此,它們需要大量的專業(yè)知識和手動工作對它們進行調(diào)整,以適應(yīng)特定的問題和數(shù)據(jù)集。
它還可以使用高級搜索策略,為模型選擇最佳的超參數(shù)配置。
該系統(tǒng)支持各種類型的強化學(xué)習(xí),包括在線和離線學(xué)習(xí)以及無模型和基于模型的算法。
自動擴展人工智能
強化學(xué)習(xí)自動化解決了在企業(yè)中擴展人工智能的兩個緊迫問題。
首先,它為順序決策問題提供了自動化,在這類問題中,不確定性可能會削弱啟發(fā)式甚至是不使用歷史數(shù)據(jù)的正規(guī)優(yōu)化模型。
其次,它為具有挑戰(zhàn)性的強化學(xué)習(xí)模型構(gòu)建領(lǐng)域帶來了一種自動化、系統(tǒng)化的方法。
Semantic Data Science(語義數(shù)據(jù)科學(xué))
自動化方法目前依靠統(tǒng)計技術(shù)來探索特征空間。
例如,如果數(shù)據(jù)是關(guān)于汽車的,則特征空間可能是福特、特斯拉、寶馬。
盡管如此,要知道哪些特征和轉(zhuǎn)換是相關(guān)的,用戶必須具備足夠的技術(shù)技能來破譯和翻譯代碼和文檔。
數(shù)據(jù)科學(xué)家的新語義能力
一旦AutoAI檢測到正確的語義概念,程序就會使用這些概念廣泛搜索現(xiàn)有代碼、數(shù)據(jù)和文獻中可能存在的相關(guān)特征和特征工程操作。
AutoAI可以使用這些新的、語義豐富的特征來提高生成模型的準確性,并通過這些生成的特征提供可供人類閱讀的解釋。
但是,想要理解發(fā)現(xiàn)的語義概念,可以使用Semantic Feature Discovery(語義特征發(fā)現(xiàn))可視化資源管理器來探索發(fā)現(xiàn)的關(guān)系。
用戶只需單擊Sources超鏈接,即可直接從可視化資源管理器進入新功能生成的Python代碼或文檔,如下圖所示。
甚至可以在IBM的API Hub上試用其中一些功能。
Amini博士用一句話總結(jié)了IBM對AutoAI投入的大量研究工作,并以此結(jié)束了我們的談話:
”
要點總結(jié)
好文章,需要你的鼓勵
新加坡國立大學(xué)研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟大學(xué)團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設(shè)備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓(xùn)練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓(xùn)練效率,已在多個任務(wù)上驗證有效性。
科技行者旗下編譯團隊,聚焦海外新技術(shù)、新觀點、新風(fēng)向。