企業(yè)對(duì)AI科技的應(yīng)用不斷增長(zhǎng)和擴(kuò)張,AI開發(fā)人員也在努力證明機(jī)器學(xué)習(xí)為不同業(yè)務(wù)區(qū)間增加價(jià)值的強(qiáng)勁能力??梢韵胍?,作為一個(gè)關(guān)注以文本及視覺形式交流思想的行業(yè),新聞業(yè)必然要積極采用數(shù)據(jù)科學(xué)工具與技術(shù)以支持?jǐn)?shù)據(jù)分析及可視化。
《紐約時(shí)報(bào)》自2012年起就建立起數(shù)據(jù)科學(xué)小組,但這支隊(duì)伍經(jīng)過近十年的發(fā)展才剛剛走出實(shí)驗(yàn)階段,開始在企業(yè)之內(nèi)扮演重要角色——即通過機(jī)器學(xué)習(xí)增加價(jià)值?!都~約時(shí)報(bào)》數(shù)據(jù)科學(xué)總監(jiān)Colin Russel運(yùn)用自己在預(yù)測(cè)建模與設(shè)計(jì)方面的深厚背景,配合機(jī)器學(xué)習(xí)算法將《紐約時(shí)報(bào)》的大量數(shù)據(jù)融入模型及可視化體系當(dāng)中,借此為各個(gè)部門提供有力支持。
AI應(yīng)用
《紐約時(shí)報(bào)》已經(jīng)投資建立起多支機(jī)器學(xué)習(xí)團(tuán)隊(duì),將數(shù)據(jù)科學(xué)、數(shù)據(jù)分析與工程等要素結(jié)合起來(lái)。這些團(tuán)隊(duì)又具體分為不同的數(shù)據(jù)科學(xué)小組,一部分面向新聞編輯室工作、一部分面向團(tuán)隊(duì)營(yíng)銷、也有一部分負(fù)責(zé)各類業(yè)務(wù)運(yùn)營(yíng)。雖然各個(gè)小組分別只面向企業(yè)整體業(yè)務(wù)中的特定方面,但他們都在努力構(gòu)建起一套統(tǒng)一的機(jī)器學(xué)習(xí)平臺(tái),將所有彼此重疊的部署與基礎(chǔ)設(shè)施開發(fā)成果集中起來(lái)以供整體使用。
在傳統(tǒng)上,由于存在明顯的利益沖突,新聞編輯部及編輯業(yè)務(wù)往往與企業(yè)業(yè)務(wù)部門互不往來(lái),在創(chuàng)收活動(dòng)及新聞活動(dòng)等工作上也明確保持分離。由于這種分離,大型企業(yè)在AI領(lǐng)域的探索往往面臨挑戰(zhàn),特別是難以在AI實(shí)施的流程與目標(biāo)方面進(jìn)行清晰且持續(xù)的跨部門溝通。
但面對(duì)阻力,《紐約時(shí)報(bào)》仍努力將運(yùn)用數(shù)據(jù)推動(dòng)決策及洞見的習(xí)慣在整個(gè)組織內(nèi)傳播,著力通過數(shù)據(jù)分析制定業(yè)務(wù)決策、培養(yǎng)新聞與編輯洞察能力。在如今這個(gè)多數(shù)人每天通過社交媒體獲取新聞的時(shí)代,新聞編輯室自然也需要關(guān)注數(shù)據(jù)、把握《紐約時(shí)報(bào)》受眾的興趣所在。同樣的,運(yùn)營(yíng)部門也高度關(guān)注數(shù)據(jù)驅(qū)動(dòng)型洞見,希望提高廣告宣傳效果、向讀者提供優(yōu)化內(nèi)容,并提升各類運(yùn)營(yíng)及產(chǎn)品宣傳的可見性。
AI技術(shù)
雖然不少企業(yè)選擇AI工具外包,但《紐約時(shí)報(bào)》更強(qiáng)調(diào)原研開發(fā)而非直接購(gòu)買。AI技術(shù)的實(shí)施往往不是項(xiàng)目中最困難的部分,真正的挑戰(zhàn)大多來(lái)自在數(shù)據(jù)設(shè)計(jì)、組織及操作層面進(jìn)行有效建模。遙想立項(xiàng)之初,數(shù)據(jù)可謂無(wú)處不在,數(shù)據(jù)科學(xué)家只能從浩如煙海的記錄當(dāng)中逐一收集來(lái)自企業(yè)內(nèi)不同部門的憑證。數(shù)據(jù)獲取難度再加上確定適用于模型的具體數(shù)據(jù)內(nèi)容,反而令A(yù)I的具體實(shí)現(xiàn)技術(shù)成為相對(duì)簡(jiǎn)單的部分。
由于企業(yè)內(nèi)不同部門間的關(guān)注重點(diǎn)與優(yōu)先事項(xiàng)各不相同,因此AI開發(fā)者必須弄清楚如何在相互競(jìng)爭(zhēng)當(dāng)中取得平衡?!都~約時(shí)報(bào)》最近進(jìn)行了一輪大規(guī)模整改,希望能將數(shù)據(jù)整合至云端。如此一來(lái),他們就能從零起步,輕松上傳不同部門的后續(xù)數(shù)據(jù)。
應(yīng)對(duì)變量
數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)模型都要經(jīng)歷驗(yàn)證與評(píng)估過程,旨在衡量基準(zhǔn)性能并測(cè)試開發(fā)中的模型、確定還有哪些改進(jìn)空間。AI應(yīng)用的一大難題,在于很難量化目標(biāo)并選定需要優(yōu)化的指標(biāo)。在新聞與雜志行業(yè),新聞周期本身就存在巨大的波動(dòng)性。例如,新冠疫情給企業(yè)帶來(lái)了突如其來(lái)的沖擊,要求民眾隨時(shí)都能免費(fèi)訪問疫情趨勢(shì)的相關(guān)新聞。這意味著原本以吸引付費(fèi)訂閱用戶為核心的業(yè)務(wù)體系,突然就具備了某種程度的公共服務(wù)屬性,甚至需要在發(fā)布大量可以免費(fèi)訪問的信息。這些都是新聞行業(yè)以往從未面對(duì)過的態(tài)勢(shì)。
另外,某些特定推薦算法在不同類型的新聞周期中反應(yīng)更好,因此需要根據(jù)協(xié)議對(duì)模型進(jìn)行重新訓(xùn)練,確保模型性能與新聞周期密切關(guān)聯(lián)。為了評(píng)估模型質(zhì)量,數(shù)據(jù)科學(xué)團(tuán)隊(duì)需要充分評(píng)估新聞周期與環(huán)境影響,這一切又延長(zhǎng)了模型的籌備時(shí)間。目前Colin和他的團(tuán)隊(duì)正在努力攻克不同新聞周期中適用使用哪些模型這道現(xiàn)實(shí)難關(guān)。
對(duì)于任何企業(yè),AI與機(jī)器學(xué)習(xí)算法的實(shí)施和應(yīng)用都絕非易事,與之對(duì)應(yīng)的技術(shù)、指標(biāo)及數(shù)據(jù)確認(rèn)工作同樣復(fù)雜異常?!都~約時(shí)報(bào)》每天都在處理這類問題,并將在即將召開的Data for AI大會(huì)上分享更多細(xì)節(jié)與洞見,敬請(qǐng)期待。
好文章,需要你的鼓勵(lì)
新加坡國(guó)立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架,通過讓AI與自己對(duì)弈零和游戲來(lái)提升推理能力。實(shí)驗(yàn)顯示,僅訓(xùn)練AI玩簡(jiǎn)單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%,通用推理提升8.4%,且無(wú)需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中,為AI訓(xùn)練提供了新思路。
同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息,創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系,結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法,在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升,并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力,為機(jī)器人、AR和自動(dòng)駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語(yǔ)言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象,但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距",即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力,且模型在自我驗(yàn)證時(shí)無(wú)法有效利用視覺信息,為AI多模態(tài)推理發(fā)展提供了重要啟示。
MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù),通過動(dòng)態(tài)稀疏性實(shí)現(xiàn)大語(yǔ)言模型訓(xùn)練加速1.6倍,計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分,在保持模型性能的同時(shí)顯著提升訓(xùn)練效率,已在多個(gè)任務(wù)上驗(yàn)證有效性。