▲ 圖片來(lái)源:Getty
數(shù)據(jù)顯示,人工智能(AI)預(yù)計(jì)將在經(jīng)濟(jì)領(lǐng)域創(chuàng)造數(shù)萬(wàn)億美元的價(jià)值。不過(guò),盡管人工智能技術(shù)正在成為我們?nèi)粘I畹囊徊糠?,很多人仍然?duì)它抱有懷疑態(tài)度。他們的顧忌是,很多AI解決方案的運(yùn)作就像個(gè)黑匣子,無(wú)法解釋為什么似乎就奇跡般地產(chǎn)生了洞察結(jié)果。
而與此同時(shí),眾多行業(yè)現(xiàn)在都認(rèn)為知識(shí)圖譜是一種數(shù)據(jù)管理、元數(shù)據(jù)管理和豐富數(shù)據(jù)的有效方式,并且正在越來(lái)越多地應(yīng)用于數(shù)據(jù)整合技術(shù)。此外,知識(shí)圖也正在成為AI策略的組成部分,通過(guò)所謂的人在回路(HITL,human-in-the-loop)設(shè)計(jì)原則達(dá)到可解釋AI的目的。
>>> 為什么人工智能的運(yùn)作是個(gè)黑盒子?
AI基于諸如深度學(xué)習(xí)一類的機(jī)器學(xué)習(xí)算法,其強(qiáng)項(xiàng)就是從大數(shù)據(jù)集里自動(dòng)提取模式和規(guī)則。這樣做非常適合于一些特定的問(wèn)題,在許多情況下可以幫助完成自動(dòng)分類任務(wù)。至于為什么一些物體被歸到某一類或另一類卻是不可解釋的。因?yàn)闄C(jī)器學(xué)習(xí)不能提取因果關(guān)系,機(jī)器學(xué)習(xí)也就不能歸納抽取某些規(guī)則的原因。
機(jī)器學(xué)習(xí)算法是從歷史數(shù)據(jù)中進(jìn)行學(xué)習(xí),但機(jī)器學(xué)習(xí)算法無(wú)法從歷史數(shù)據(jù)里得到新的見(jiàn)解。在日益變化的環(huán)境里,這個(gè)問(wèn)題常常會(huì)受到質(zhì)疑,因?yàn)樯疃葘W(xué)習(xí)的全部方法都是基于有足夠數(shù)據(jù)的假設(shè)。在許多行業(yè)(如金融和醫(yī)療保?。├铮幸稽c(diǎn)越來(lái)越重要——要實(shí)現(xiàn)的AI系統(tǒng)必須能夠提供可解釋的、透明的決定以及可以快速地與新的條件和監(jiān)管框架接軌(如歐盟關(guān)于人工智能倫理的指引:https://www.europarl.europa.eu/RegData/etudes/BRIE/2019/640163/EPRS_BRI\(2019\)640163_EN.pdf)
>>> 我們能構(gòu)建可以信任的AI應(yīng)用嗎?
如果沒(méi)有可解釋性,就沒(méi)有信任可言??山忉屝砸馕吨到y(tǒng)里存在值得信賴的因子,這些因子能夠理解和解釋由AI系統(tǒng)作出的決定。但在目前情況下,除了讓人工智能的決策更透明以外沒(méi)有其他選擇。不幸的是,一些最流行的機(jī)器學(xué)習(xí)算法是基于無(wú)法解釋的計(jì)算規(guī)則,這些計(jì)算規(guī)則無(wú)外乎 “既成事實(shí)”。
要擺脫這種困境,唯一方法就是從根本上再構(gòu)造有關(guān)的基本架構(gòu),不僅要用知識(shí)圖譜作為計(jì)算的前提,還要提供相應(yīng)的解釋。
>>> 語(yǔ)義AI是什么?
語(yǔ)義AI是符號(hào)和統(tǒng)計(jì)AI背后的推動(dòng)力。它結(jié)合了機(jī)器學(xué)習(xí)、知識(shí)建模、自然語(yǔ)言處理、文本挖掘和互聯(lián)網(wǎng)語(yǔ)義各方面的方法,以及AI策略的優(yōu)勢(shì)(主要是語(yǔ)義推理和神經(jīng)網(wǎng)絡(luò)方面的優(yōu)勢(shì))。
需要強(qiáng)調(diào)的是語(yǔ)義AI是目前構(gòu)建基于AI系統(tǒng)主要方法的擴(kuò)展,不是替代辦法。該方法不僅提供戰(zhàn)略選擇,還會(huì)提供一個(gè)直接好處:可以更快地從小訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),比如在開(kāi)發(fā)開(kāi)發(fā)聊天機(jī)器人時(shí)克服所謂的冷啟動(dòng)問(wèn)題。
>>> 知識(shí)科學(xué)家是什么樣的科學(xué)家?
基于完全不同的方法,語(yǔ)義AI引入了具有互補(bǔ)技能的附加利益相關(guān)者。傳統(tǒng)的機(jī)器學(xué)習(xí)主要由數(shù)據(jù)科學(xué)家完成,而參與語(yǔ)義AI或可解釋AI的則是知識(shí)科學(xué)家。二者的區(qū)別是什么?
從本質(zhì)上看,數(shù)據(jù)科學(xué)家絕大多數(shù)的時(shí)間都花在收集和處理不受控制的數(shù)據(jù)上,目的是從數(shù)據(jù)里得到有益的信息,工作的重點(diǎn)是利用無(wú)關(guān)的數(shù)據(jù)構(gòu)建平鋪數(shù)據(jù)文件,生成的數(shù)據(jù)特征與現(xiàn)實(shí)世界的關(guān)系并不強(qiáng)。
還有另一種方法,就是通過(guò)開(kāi)發(fā)一些工具,然后由知識(shí)科學(xué)家用工具直接處理企業(yè)的知識(shí)圖并從中提取數(shù)據(jù)的子集,進(jìn)而迅速轉(zhuǎn)化為分析結(jié)構(gòu)。分析結(jié)果的本身可以被重復(fù)使用,并構(gòu)建成為更豐富的知識(shí)圖譜。
相較而言,語(yǔ)義AI方法建立的是一個(gè)連續(xù)的循環(huán),由機(jī)器學(xué)習(xí)科學(xué)家和知識(shí)科學(xué)家作為這個(gè)循環(huán)上不可或缺的一部分。知識(shí)圖在之間充當(dāng)接口并提供高品質(zhì)數(shù)據(jù)和歸一化數(shù)據(jù)之間的鏈接。
>>> 新的人工智能方法會(huì)得出更好的結(jié)果嗎?
知識(shí)圖的使用除了可以用于構(gòu)建值得信賴和被廣泛接受的可解釋AI外,還可以連同富含語(yǔ)義和鏈接的數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練。
該方法有許多優(yōu)點(diǎn)。比如,可以在少量訓(xùn)練數(shù)據(jù)的前提下獲取具足夠精度的結(jié)果,這在冷啟動(dòng)階段特別很有用。除此之外,該方法的訓(xùn)練數(shù)據(jù)集可重用性也更好,這將有助于節(jié)省數(shù)據(jù)準(zhǔn)備過(guò)程里的成本。與此同時(shí),該方法還可以為現(xiàn)有的訓(xùn)練數(shù)據(jù)補(bǔ)充背景知識(shí),通過(guò)自動(dòng)推理進(jìn)而可迅速獲取更豐富的訓(xùn)練數(shù)據(jù),還可以幫助避免在特定領(lǐng)域中提取從根本上就是錯(cuò)誤的規(guī)則。
>>> 開(kāi)發(fā)和關(guān)注語(yǔ)義AI
綜上所述,如果讀者是數(shù)據(jù)科學(xué)家或數(shù)據(jù)經(jīng)理,或是如果你管理的人處在這樣的位置,那就務(wù)必開(kāi)始著手語(yǔ)義AI研究和發(fā)展與語(yǔ)義AI工作相關(guān)所需的技能。
語(yǔ)義豐富的數(shù)據(jù)是高質(zhì)量數(shù)據(jù)的基礎(chǔ),可為特征提取提供更多的機(jī)會(huì)。而由機(jī)器學(xué)習(xí)算法計(jì)算得到預(yù)測(cè)和分類精度就會(huì)更高。此外,語(yǔ)義AI應(yīng)該建立基礎(chǔ)架構(gòu)以克服AI系統(tǒng)開(kāi)發(fā)商和其他利益相關(guān)者的信息不對(duì)稱性,其中的利益相關(guān)者包括消費(fèi)者和政策制定者等等。從這方面來(lái)說(shuō),語(yǔ)義AI最終將在技術(shù)、倫理和法律三個(gè)層面上的工作達(dá)到AI治理的目的。
雖然,目前大多數(shù)機(jī)器學(xué)習(xí)算法在數(shù)據(jù)是文本或結(jié)構(gòu)化數(shù)據(jù)時(shí)都可以很好的運(yùn)作。但語(yǔ)義數(shù)據(jù)模型的引入將發(fā)揮更大的作用。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長(zhǎng)篇音頻故事。該系統(tǒng)結(jié)合大語(yǔ)言模型的敘事推理能力與音頻生成技術(shù),通過(guò)交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場(chǎng)景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開(kāi)辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過(guò)讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問(wèn)題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測(cè)試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語(yǔ)言模型人性化對(duì)話問(wèn)題。該研究創(chuàng)建了包含20萬(wàn)高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測(cè)基準(zhǔn),通過(guò)創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開(kāi)發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測(cè)模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過(guò)學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測(cè)方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來(lái)了效率和精度的雙重突破。