▲ 圖片來源:Getty
數(shù)據(jù)顯示,人工智能(AI)預計將在經(jīng)濟領(lǐng)域創(chuàng)造數(shù)萬億美元的價值。不過,盡管人工智能技術(shù)正在成為我們?nèi)粘I畹囊徊糠?,很多人仍然對它抱有懷疑態(tài)度。他們的顧忌是,很多AI解決方案的運作就像個黑匣子,無法解釋為什么似乎就奇跡般地產(chǎn)生了洞察結(jié)果。
而與此同時,眾多行業(yè)現(xiàn)在都認為知識圖譜是一種數(shù)據(jù)管理、元數(shù)據(jù)管理和豐富數(shù)據(jù)的有效方式,并且正在越來越多地應用于數(shù)據(jù)整合技術(shù)。此外,知識圖也正在成為AI策略的組成部分,通過所謂的人在回路(HITL,human-in-the-loop)設計原則達到可解釋AI的目的。
>>> 為什么人工智能的運作是個黑盒子?
AI基于諸如深度學習一類的機器學習算法,其強項就是從大數(shù)據(jù)集里自動提取模式和規(guī)則。這樣做非常適合于一些特定的問題,在許多情況下可以幫助完成自動分類任務。至于為什么一些物體被歸到某一類或另一類卻是不可解釋的。因為機器學習不能提取因果關(guān)系,機器學習也就不能歸納抽取某些規(guī)則的原因。
機器學習算法是從歷史數(shù)據(jù)中進行學習,但機器學習算法無法從歷史數(shù)據(jù)里得到新的見解。在日益變化的環(huán)境里,這個問題常常會受到質(zhì)疑,因為深度學習的全部方法都是基于有足夠數(shù)據(jù)的假設。在許多行業(yè)(如金融和醫(yī)療保?。├?,有一點越來越重要——要實現(xiàn)的AI系統(tǒng)必須能夠提供可解釋的、透明的決定以及可以快速地與新的條件和監(jiān)管框架接軌(如歐盟關(guān)于人工智能倫理的指引:https://www.europarl.europa.eu/RegData/etudes/BRIE/2019/640163/EPRS_BRI\(2019\)640163_EN.pdf)
>>> 我們能構(gòu)建可以信任的AI應用嗎?
如果沒有可解釋性,就沒有信任可言??山忉屝砸馕吨到y(tǒng)里存在值得信賴的因子,這些因子能夠理解和解釋由AI系統(tǒng)作出的決定。但在目前情況下,除了讓人工智能的決策更透明以外沒有其他選擇。不幸的是,一些最流行的機器學習算法是基于無法解釋的計算規(guī)則,這些計算規(guī)則無外乎 “既成事實”。
要擺脫這種困境,唯一方法就是從根本上再構(gòu)造有關(guān)的基本架構(gòu),不僅要用知識圖譜作為計算的前提,還要提供相應的解釋。
>>> 語義AI是什么?
語義AI是符號和統(tǒng)計AI背后的推動力。它結(jié)合了機器學習、知識建模、自然語言處理、文本挖掘和互聯(lián)網(wǎng)語義各方面的方法,以及AI策略的優(yōu)勢(主要是語義推理和神經(jīng)網(wǎng)絡方面的優(yōu)勢)。
需要強調(diào)的是語義AI是目前構(gòu)建基于AI系統(tǒng)主要方法的擴展,不是替代辦法。該方法不僅提供戰(zhàn)略選擇,還會提供一個直接好處:可以更快地從小訓練數(shù)據(jù)進行學習,比如在開發(fā)開發(fā)聊天機器人時克服所謂的冷啟動問題。
>>> 知識科學家是什么樣的科學家?
基于完全不同的方法,語義AI引入了具有互補技能的附加利益相關(guān)者。傳統(tǒng)的機器學習主要由數(shù)據(jù)科學家完成,而參與語義AI或可解釋AI的則是知識科學家。二者的區(qū)別是什么?
從本質(zhì)上看,數(shù)據(jù)科學家絕大多數(shù)的時間都花在收集和處理不受控制的數(shù)據(jù)上,目的是從數(shù)據(jù)里得到有益的信息,工作的重點是利用無關(guān)的數(shù)據(jù)構(gòu)建平鋪數(shù)據(jù)文件,生成的數(shù)據(jù)特征與現(xiàn)實世界的關(guān)系并不強。
還有另一種方法,就是通過開發(fā)一些工具,然后由知識科學家用工具直接處理企業(yè)的知識圖并從中提取數(shù)據(jù)的子集,進而迅速轉(zhuǎn)化為分析結(jié)構(gòu)。分析結(jié)果的本身可以被重復使用,并構(gòu)建成為更豐富的知識圖譜。
相較而言,語義AI方法建立的是一個連續(xù)的循環(huán),由機器學習科學家和知識科學家作為這個循環(huán)上不可或缺的一部分。知識圖在之間充當接口并提供高品質(zhì)數(shù)據(jù)和歸一化數(shù)據(jù)之間的鏈接。
>>> 新的人工智能方法會得出更好的結(jié)果嗎?
知識圖的使用除了可以用于構(gòu)建值得信賴和被廣泛接受的可解釋AI外,還可以連同富含語義和鏈接的數(shù)據(jù)對機器學習算法進行訓練。
該方法有許多優(yōu)點。比如,可以在少量訓練數(shù)據(jù)的前提下獲取具足夠精度的結(jié)果,這在冷啟動階段特別很有用。除此之外,該方法的訓練數(shù)據(jù)集可重用性也更好,這將有助于節(jié)省數(shù)據(jù)準備過程里的成本。與此同時,該方法還可以為現(xiàn)有的訓練數(shù)據(jù)補充背景知識,通過自動推理進而可迅速獲取更豐富的訓練數(shù)據(jù),還可以幫助避免在特定領(lǐng)域中提取從根本上就是錯誤的規(guī)則。
>>> 開發(fā)和關(guān)注語義AI
綜上所述,如果讀者是數(shù)據(jù)科學家或數(shù)據(jù)經(jīng)理,或是如果你管理的人處在這樣的位置,那就務必開始著手語義AI研究和發(fā)展與語義AI工作相關(guān)所需的技能。
語義豐富的數(shù)據(jù)是高質(zhì)量數(shù)據(jù)的基礎(chǔ),可為特征提取提供更多的機會。而由機器學習算法計算得到預測和分類精度就會更高。此外,語義AI應該建立基礎(chǔ)架構(gòu)以克服AI系統(tǒng)開發(fā)商和其他利益相關(guān)者的信息不對稱性,其中的利益相關(guān)者包括消費者和政策制定者等等。從這方面來說,語義AI最終將在技術(shù)、倫理和法律三個層面上的工作達到AI治理的目的。
雖然,目前大多數(shù)機器學習算法在數(shù)據(jù)是文本或結(jié)構(gòu)化數(shù)據(jù)時都可以很好的運作。但語義數(shù)據(jù)模型的引入將發(fā)揮更大的作用。
好文章,需要你的鼓勵
新加坡國立大學研究團隊開發(fā)了SPIRAL框架,通過讓AI與自己對弈零和游戲來提升推理能力。實驗顯示,僅訓練AI玩簡單撲克游戲就能讓其數(shù)學推理能力提升8.6%,通用推理提升8.4%,且無需任何數(shù)學題目作為訓練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學解題中,為AI訓練提供了新思路。
同濟大學團隊開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學習和數(shù)學優(yōu)化方法,在合成數(shù)據(jù)集上實現(xiàn)37.9%的精度提升,并在真實設備上展現(xiàn)出色泛化能力,為機器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學研究團隊通過對比實驗發(fā)現(xiàn),經(jīng)過強化學習訓練的視覺語言模型雖然表現(xiàn)出"頓悟時刻"現(xiàn)象,但這些自我糾錯行為并不能實際提升推理準確率。研究揭示了AI模型存在"生成-驗證差距",即生成答案的能力強于驗證答案質(zhì)量的能力,且模型在自我驗證時無法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動態(tài)稀疏性實現(xiàn)大語言模型訓練加速1.6倍,計算成本降低2.2倍。該方法使用SVD稀疏性估計器智能選擇重要計算部分,在保持模型性能的同時顯著提升訓練效率,已在多個任務上驗證有效性。