企業(yè)對(duì)AI科技的應(yīng)用不斷增長和擴(kuò)張,AI開發(fā)人員也在努力證明機(jī)器學(xué)習(xí)為不同業(yè)務(wù)區(qū)間增加價(jià)值的強(qiáng)勁能力??梢韵胍姡鳛橐粋€(gè)關(guān)注以文本及視覺形式交流思想的行業(yè),新聞業(yè)必然要積極采用數(shù)據(jù)科學(xué)工具與技術(shù)以支持?jǐn)?shù)據(jù)分析及可視化。
《紐約時(shí)報(bào)》自2012年起就建立起數(shù)據(jù)科學(xué)小組,但這支隊(duì)伍經(jīng)過近十年的發(fā)展才剛剛走出實(shí)驗(yàn)階段,開始在企業(yè)之內(nèi)扮演重要角色——即通過機(jī)器學(xué)習(xí)增加價(jià)值?!都~約時(shí)報(bào)》數(shù)據(jù)科學(xué)總監(jiān)Colin Russel運(yùn)用自己在預(yù)測建模與設(shè)計(jì)方面的深厚背景,配合機(jī)器學(xué)習(xí)算法將《紐約時(shí)報(bào)》的大量數(shù)據(jù)融入模型及可視化體系當(dāng)中,借此為各個(gè)部門提供有力支持。
AI應(yīng)用
《紐約時(shí)報(bào)》已經(jīng)投資建立起多支機(jī)器學(xué)習(xí)團(tuán)隊(duì),將數(shù)據(jù)科學(xué)、數(shù)據(jù)分析與工程等要素結(jié)合起來。這些團(tuán)隊(duì)又具體分為不同的數(shù)據(jù)科學(xué)小組,一部分面向新聞編輯室工作、一部分面向團(tuán)隊(duì)營銷、也有一部分負(fù)責(zé)各類業(yè)務(wù)運(yùn)營。雖然各個(gè)小組分別只面向企業(yè)整體業(yè)務(wù)中的特定方面,但他們都在努力構(gòu)建起一套統(tǒng)一的機(jī)器學(xué)習(xí)平臺(tái),將所有彼此重疊的部署與基礎(chǔ)設(shè)施開發(fā)成果集中起來以供整體使用。
在傳統(tǒng)上,由于存在明顯的利益沖突,新聞編輯部及編輯業(yè)務(wù)往往與企業(yè)業(yè)務(wù)部門互不往來,在創(chuàng)收活動(dòng)及新聞活動(dòng)等工作上也明確保持分離。由于這種分離,大型企業(yè)在AI領(lǐng)域的探索往往面臨挑戰(zhàn),特別是難以在AI實(shí)施的流程與目標(biāo)方面進(jìn)行清晰且持續(xù)的跨部門溝通。
但面對(duì)阻力,《紐約時(shí)報(bào)》仍努力將運(yùn)用數(shù)據(jù)推動(dòng)決策及洞見的習(xí)慣在整個(gè)組織內(nèi)傳播,著力通過數(shù)據(jù)分析制定業(yè)務(wù)決策、培養(yǎng)新聞與編輯洞察能力。在如今這個(gè)多數(shù)人每天通過社交媒體獲取新聞的時(shí)代,新聞編輯室自然也需要關(guān)注數(shù)據(jù)、把握《紐約時(shí)報(bào)》受眾的興趣所在。同樣的,運(yùn)營部門也高度關(guān)注數(shù)據(jù)驅(qū)動(dòng)型洞見,希望提高廣告宣傳效果、向讀者提供優(yōu)化內(nèi)容,并提升各類運(yùn)營及產(chǎn)品宣傳的可見性。
AI技術(shù)
雖然不少企業(yè)選擇AI工具外包,但《紐約時(shí)報(bào)》更強(qiáng)調(diào)原研開發(fā)而非直接購買。AI技術(shù)的實(shí)施往往不是項(xiàng)目中最困難的部分,真正的挑戰(zhàn)大多來自在數(shù)據(jù)設(shè)計(jì)、組織及操作層面進(jìn)行有效建模。遙想立項(xiàng)之初,數(shù)據(jù)可謂無處不在,數(shù)據(jù)科學(xué)家只能從浩如煙海的記錄當(dāng)中逐一收集來自企業(yè)內(nèi)不同部門的憑證。數(shù)據(jù)獲取難度再加上確定適用于模型的具體數(shù)據(jù)內(nèi)容,反而令A(yù)I的具體實(shí)現(xiàn)技術(shù)成為相對(duì)簡單的部分。
由于企業(yè)內(nèi)不同部門間的關(guān)注重點(diǎn)與優(yōu)先事項(xiàng)各不相同,因此AI開發(fā)者必須弄清楚如何在相互競爭當(dāng)中取得平衡?!都~約時(shí)報(bào)》最近進(jìn)行了一輪大規(guī)模整改,希望能將數(shù)據(jù)整合至云端。如此一來,他們就能從零起步,輕松上傳不同部門的后續(xù)數(shù)據(jù)。
應(yīng)對(duì)變量
數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)模型都要經(jīng)歷驗(yàn)證與評(píng)估過程,旨在衡量基準(zhǔn)性能并測試開發(fā)中的模型、確定還有哪些改進(jìn)空間。AI應(yīng)用的一大難題,在于很難量化目標(biāo)并選定需要優(yōu)化的指標(biāo)。在新聞與雜志行業(yè),新聞周期本身就存在巨大的波動(dòng)性。例如,新冠疫情給企業(yè)帶來了突如其來的沖擊,要求民眾隨時(shí)都能免費(fèi)訪問疫情趨勢(shì)的相關(guān)新聞。這意味著原本以吸引付費(fèi)訂閱用戶為核心的業(yè)務(wù)體系,突然就具備了某種程度的公共服務(wù)屬性,甚至需要在發(fā)布大量可以免費(fèi)訪問的信息。這些都是新聞行業(yè)以往從未面對(duì)過的態(tài)勢(shì)。
另外,某些特定推薦算法在不同類型的新聞周期中反應(yīng)更好,因此需要根據(jù)協(xié)議對(duì)模型進(jìn)行重新訓(xùn)練,確保模型性能與新聞周期密切關(guān)聯(lián)。為了評(píng)估模型質(zhì)量,數(shù)據(jù)科學(xué)團(tuán)隊(duì)需要充分評(píng)估新聞周期與環(huán)境影響,這一切又延長了模型的籌備時(shí)間。目前Colin和他的團(tuán)隊(duì)正在努力攻克不同新聞周期中適用使用哪些模型這道現(xiàn)實(shí)難關(guān)。
對(duì)于任何企業(yè),AI與機(jī)器學(xué)習(xí)算法的實(shí)施和應(yīng)用都絕非易事,與之對(duì)應(yīng)的技術(shù)、指標(biāo)及數(shù)據(jù)確認(rèn)工作同樣復(fù)雜異常?!都~約時(shí)報(bào)》每天都在處理這類問題,并將在即將召開的Data for AI大會(huì)上分享更多細(xì)節(jié)與洞見,敬請(qǐng)期待。
好文章,需要你的鼓勵(lì)
騰訊ARC實(shí)驗(yàn)室推出AudioStory系統(tǒng),首次實(shí)現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯(cuò)式推理生成、解耦橋接機(jī)制和漸進(jìn)式訓(xùn)練,能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準(zhǔn)測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時(shí)學(xué)習(xí)外觀和運(yùn)動(dòng)信息,顯著解決了當(dāng)前視頻生成模型中動(dòng)作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個(gè)線性層就能大幅提升運(yùn)動(dòng)質(zhì)量,在多項(xiàng)測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實(shí)用化應(yīng)用奠定了重要基礎(chǔ)。
上海AI實(shí)驗(yàn)室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對(duì)話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評(píng)測基準(zhǔn),通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時(shí)顯著提升人性化交互水平,為AI價(jià)值觀對(duì)齊提供了可行技術(shù)路徑。
谷歌DeepMind團(tuán)隊(duì)開發(fā)的GraphCast是一個(gè)革命性的AI天氣預(yù)測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報(bào),準(zhǔn)確性超越傳統(tǒng)方法90%的指標(biāo)。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù),通過學(xué)習(xí)40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預(yù)測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。