av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號(hào)

  • 科技行者

  • 算力行者

見(jiàn)證連接與計(jì)算的「力量」

首頁(yè) 美國(guó)勞工統(tǒng)計(jì)局使用機(jī)器學(xué)習(xí)自動(dòng)執(zhí)行數(shù)據(jù)編碼

美國(guó)勞工統(tǒng)計(jì)局使用機(jī)器學(xué)習(xí)自動(dòng)執(zhí)行數(shù)據(jù)編碼

2020-08-26 10:15
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2020-08-26 10:15 ? 科技行者

政府機(jī)構(gòu)永遠(yuǎn)充斥著各種文件,其中又不乏大量紙質(zhì)文檔;即使是對(duì)于電子文檔,實(shí)際處理與解讀仍然需要耗費(fèi)大量的人力。為此,聯(lián)邦機(jī)構(gòu)寄希望于AI技術(shù),即通過(guò)高級(jí)機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)以及自然語(yǔ)言處理(NLP)技術(shù)幫助改善這類文檔的處理效率,盡可能將寶貴的人力資源解放出來(lái)。雖然其中不少技術(shù)在其他行業(yè)中早已擁有成熟的應(yīng)用,并被拓展以增強(qiáng)各類工作流程及任務(wù),但在部分政府部門內(nèi),這些技術(shù)還完全屬于新鮮事物。

以美國(guó)勞工統(tǒng)計(jì)局(BLS)為例,該機(jī)構(gòu)的主要職責(zé)在于執(zhí)行職業(yè)傷害與疾病調(diào)查,以確保各類工作場(chǎng)所中常見(jiàn)的健康危害問(wèn)題并協(xié)助制定指導(dǎo)性政策。為了完成這項(xiàng)任務(wù),勞工局在全國(guó)各地的辦公室中設(shè)有數(shù)十名訓(xùn)練有素的員工,專職通過(guò)工作場(chǎng)所內(nèi)的調(diào)查數(shù)據(jù)對(duì)各類傷害及疾病進(jìn)行分類。但是,這方面工作一直以手動(dòng)方式執(zhí)行,并導(dǎo)致各類標(biāo)記、編碼錯(cuò)誤乃至速度與成本瓶頸一直妨礙著整體流程的效率提升。

▲ 圖:Alex Measure, 美國(guó)勞工統(tǒng)計(jì)局經(jīng)濟(jì)學(xué)家

為了簡(jiǎn)化整個(gè)流程,勞工局決定引入機(jī)器學(xué)習(xí)技術(shù)。約十年之前,勞工局經(jīng)濟(jì)學(xué)家Alex Measure決定探索機(jī)器學(xué)習(xí)(ML)技術(shù)如何幫助該機(jī)構(gòu)改進(jìn)流程效率,他本人也與我們分享了將AI技術(shù)納入勞工局乃至整個(gè)聯(lián)邦政府當(dāng)中可能出現(xiàn)的獨(dú)特挑戰(zhàn)、各機(jī)構(gòu)在AI應(yīng)用過(guò)程中面臨的數(shù)據(jù)難題、外加未來(lái)幾年內(nèi)他最為期待的重要發(fā)現(xiàn)。

在本文中,我們將一同了解他對(duì)于將機(jī)器學(xué)習(xí)應(yīng)用于政府業(yè)務(wù)場(chǎng)景,特別是文檔與人工流程中方面的寶貴見(jiàn)解。

問(wèn):勞工局在數(shù)據(jù)收集與處理方面面臨的特殊挑戰(zhàn)是什么?

Alex Measure: 勞工局需要面向眾多方向收集大量專題信息,具體涵蓋就業(yè)、人力成本、工作時(shí)間以及工作場(chǎng)所傷害風(fēng)險(xiǎn)等各個(gè)方面。在調(diào)查當(dāng)中,各領(lǐng)域間唯一的共通點(diǎn)在于,調(diào)查結(jié)果往往以自然語(yǔ)言的形式存在。在信息收集過(guò)程中,無(wú)論是采取訪談、調(diào)查或者還是其他方式,收集到的大部分內(nèi)容都是以語(yǔ)言形式傳達(dá)。為此,我們需要將語(yǔ)言轉(zhuǎn)換為統(tǒng)計(jì)數(shù)據(jù),這就是我們常說(shuō)的編碼過(guò)程。

在此過(guò)程中,我們需要分配標(biāo)準(zhǔn)化分類指標(biāo)以指示值得關(guān)注的關(guān)鍵特征。例如,《職業(yè)傷害與疾病調(diào)查》每年收集數(shù)十萬(wàn)份與工作相關(guān)的傷害與疾病調(diào)查資料。為了回答諸如“門衛(wèi)人員在工作中最常見(jiàn)的傷害原因是什么?”這類問(wèn)題,我們需要認(rèn)真閱讀每一份描述,以編碼方式將對(duì)方的職業(yè)與造成傷害的因素關(guān)聯(lián)起來(lái)。接下來(lái),我們匯總結(jié)果信息以回答實(shí)際問(wèn)題。直到最近,整個(gè)流程仍然相當(dāng)枯燥繁瑣,而且大部分工作需要以手動(dòng)方式完成。

在職業(yè)傷害與疾病調(diào)查方面,我們每年大約需要25000個(gè)工作時(shí)。如果希望盡快完成任務(wù),則意味著需要同時(shí)雇用更多人力、培訓(xùn)更多新雇員,并保證他們能夠以統(tǒng)一的方式對(duì)內(nèi)容做出解讀。這相當(dāng)困難,實(shí)際上我們發(fā)現(xiàn),即使是兩位同樣經(jīng)驗(yàn)豐富的專家,在編寫(xiě)同一份傷害說(shuō)明材料時(shí)也只有70%左右的幾率針對(duì)相同的素材給出完全相同的傷害編碼分類。這樣的挑戰(zhàn)不僅存在于勞工局之內(nèi),也廣泛存在于全球各類從事類似任務(wù)的組織當(dāng)中。

問(wèn):那么勞工局是如何使用機(jī)器學(xué)習(xí)技術(shù)解決這些問(wèn)題的?

Alex Measure: 七年之前,勞工局完成了《職業(yè)傷害與疾病調(diào)查》的全部編碼工作。過(guò)去一年中,我們使用有監(jiān)督機(jī)器學(xué)習(xí)(特別是深度神經(jīng)網(wǎng)絡(luò))自動(dòng)完成了超過(guò)85%的處理任務(wù)。隨后,勞工局開(kāi)始逐步將這些技術(shù)用于處理其他相關(guān)任務(wù),涵蓋從職業(yè)/生產(chǎn)分類,到醫(yī)療福利及工作要求的各個(gè)方面。

問(wèn):多年以來(lái),勞工局對(duì)于AI技術(shù)的看法與應(yīng)用方式經(jīng)歷了哪些轉(zhuǎn)變?

Alex Measure: 我加入勞工局大概是12年前,那時(shí)候人們主要還是在用知識(shí)工程或者基于規(guī)則的方法進(jìn)行素材編碼。其中的基本思路是,如果希望計(jì)算機(jī)執(zhí)行某項(xiàng)操作,則需要明確告知它執(zhí)行任務(wù)所需要的每條規(guī)則與信息。例如,如果要對(duì)職業(yè)進(jìn)行分類,則可能需要?jiǎng)?chuàng)建一份清單,列出所有可能出現(xiàn)的職稱以及與職稱相對(duì)應(yīng)的職業(yè)代碼。

這種方法在處理簡(jiǎn)單及標(biāo)準(zhǔn)化任務(wù)時(shí)表現(xiàn)不錯(cuò),但遺憾的是,即使是在職位分類這種相當(dāng)具體的應(yīng)用領(lǐng)域當(dāng)中,系統(tǒng)也幾乎無(wú)法直接處理人類語(yǔ)言。例如,在《職業(yè)傷害與疾病調(diào)查》中,我們發(fā)現(xiàn)每年收到的職位中約有2000種被系統(tǒng)直接對(duì)應(yīng)為“管理員”。更糟糕的是,總會(huì)出現(xiàn)某些以往從未出現(xiàn)在數(shù)據(jù)中的新職位,而且部分職位與所在行業(yè)緊密相關(guān),具體取決于特定企業(yè)的命名慣例或者行業(yè)中的傳統(tǒng)用語(yǔ)。結(jié)果就是,我們需要制定體量龐大且相當(dāng)復(fù)雜的規(guī)則,而這一切最終也只能支持840多種職業(yè)分類。更要命的是,這套系統(tǒng)的構(gòu)建與維護(hù)都極為困難。

有監(jiān)督機(jī)器學(xué)習(xí)帶來(lái)了一種替代方案——相較于明確告知計(jì)算機(jī)其需要了解以及執(zhí)行的任務(wù)內(nèi)容,現(xiàn)在我們可以引導(dǎo)計(jì)算機(jī)通過(guò)數(shù)據(jù)進(jìn)行學(xué)習(xí),由其自主找到執(zhí)行某些任務(wù)的最佳方法。只要大家擁有成規(guī)模的數(shù)據(jù)素材(多年以來(lái),我們已經(jīng)積累到可觀的數(shù)據(jù)資源),那么往往只需要很少的人工投入就能構(gòu)建起一套效率極高的系統(tǒng)。在我們的案例中,勞工局在短短幾周之內(nèi)就使用自由開(kāi)源軟件構(gòu)建起我們的第一套機(jī)器學(xué)習(xí)系統(tǒng),并發(fā)現(xiàn)其性能遠(yuǎn)遠(yuǎn)超越我們以往長(zhǎng)期使用的、基于規(guī)則的昂貴方案。更令人驚訝的是,其性能甚至比我們的編碼員還要高。

與傳統(tǒng)方案相比,機(jī)器學(xué)習(xí)方法也給自動(dòng)化帶來(lái)了更多發(fā)展空間。如今,勞工局與全球各統(tǒng)計(jì)機(jī)構(gòu)已經(jīng)在類似的任務(wù)中迅速推廣此項(xiàng)技術(shù)。當(dāng)然,機(jī)器學(xué)習(xí)在其他領(lǐng)域也擁有良好表現(xiàn)。我們正使用機(jī)器學(xué)習(xí)技術(shù)自動(dòng)檢測(cè)數(shù)據(jù)錯(cuò)誤,并自動(dòng)匹配并標(biāo)記數(shù)據(jù)集中的缺失記錄。這對(duì)我們可謂意義重大,能夠幫助勞工局通過(guò)更多不同來(lái)源收集到大量數(shù)據(jù)。

問(wèn):AI/ML技術(shù)的介入,給原本的編碼員們帶來(lái)了怎樣的影響?

Alex Measure: 在最初考慮引入自動(dòng)化解決方案時(shí),人們普遍感到擔(dān)心,不少員工抵制自動(dòng)化并將其視為一種威脅。但實(shí)際情況并非如此,我認(rèn)為這得益于我們采取的具體實(shí)施方式以及對(duì)整體狀況的綜合考量。首先,我們很早就做出決定,將自動(dòng)化的重點(diǎn)放在提高數(shù)據(jù)質(zhì)量方面。這非常重要,因?yàn)槌藬?shù)據(jù)質(zhì)量本身的意義之外,這也代表著一種非常新穎的處理方式,要求我們保證編碼流程的正確執(zhí)行、并在出現(xiàn)問(wèn)題時(shí)及時(shí)啟動(dòng)預(yù)先制定的可靠備份計(jì)劃。我們的規(guī)劃基本如下:

第一,將計(jì)算機(jī)最擅長(zhǎng)的工作交由自動(dòng)化處理,將人類最擅長(zhǎng)的工作留給雇員。

第二,逐步引入自動(dòng)化機(jī)制,保證員工有時(shí)間適應(yīng)工作量與工作方式的變化。

第三,由雇員負(fù)責(zé)監(jiān)督自動(dòng)分配的代碼,并在他們認(rèn)為計(jì)算機(jī)存在錯(cuò)誤時(shí)分配人員做出調(diào)整。

第四,將節(jié)約下的資源用于其他重要任務(wù),例如數(shù)據(jù)收集與數(shù)據(jù)審查。

結(jié)果就是,在隨后的六年時(shí)間里,越來(lái)越多的常規(guī)編碼工作逐漸被速度更快、質(zhì)量更好的數(shù)據(jù)審查與收集自動(dòng)化方案所接管。這還帶來(lái)令人意外的結(jié)果,即我們對(duì)常規(guī)手動(dòng)編碼的需求雖然大大減少,但模型無(wú)法處理的高難度情況仍然依賴于人類專家。因此,自動(dòng)化程度越高,能夠處理的總數(shù)據(jù)量就越大,其中需要人為介入處理的數(shù)據(jù)同樣更多。結(jié)果就是,負(fù)責(zé)人為調(diào)整以及驗(yàn)證機(jī)器學(xué)習(xí)系統(tǒng)是否正常運(yùn)行的雇員反而有所增加。

問(wèn):您能否分享一些在勞工局的應(yīng)用場(chǎng)景中,AI技術(shù)發(fā)現(xiàn)的有趣或者令人意外的洞見(jiàn)?

Alex Measure: 就個(gè)人來(lái)看,我認(rèn)為這里有兩個(gè)令人印象深刻的驚喜。首先就是自由開(kāi)源軟件的存在,居然讓機(jī)器學(xué)習(xí)系統(tǒng)的構(gòu)建變得如此輕松,且實(shí)際表現(xiàn)遠(yuǎn)優(yōu)于我們以往使用的高成本、基于規(guī)則的方法。第二點(diǎn)在于,這類系統(tǒng)在編碼分配準(zhǔn)確率方面比經(jīng)過(guò)培訓(xùn)的人類編碼員更高。這一切都是我們剛開(kāi)始難以想象的,事實(shí)上整個(gè)勞工局都花了一段時(shí)間才適應(yīng)如此出色的效果,而且其結(jié)果確實(shí)非常穩(wěn)定。

平均來(lái)看,我們的機(jī)器學(xué)習(xí)系統(tǒng)自上線以來(lái)就一直在編碼準(zhǔn)確率方面超越了人類雇員,而且二者的差距隨著大量數(shù)據(jù)的涌入以及隨之進(jìn)行的后續(xù)訓(xùn)練而越來(lái)越大,這也促使我們逐步轉(zhuǎn)向更強(qiáng)大的機(jī)器學(xué)習(xí)算法——例如深度神經(jīng)網(wǎng)絡(luò)。

問(wèn):我們?cè)跀?shù)據(jù)使用方面面臨著哪些獨(dú)特挑戰(zhàn)?這些挑戰(zhàn)是否會(huì)成為政府機(jī)構(gòu)在使用AI技術(shù)方面的障礙?

Alex Measure:最大的挑戰(zhàn)之一在于數(shù)據(jù)保密性。機(jī)器學(xué)習(xí)需要大量數(shù)據(jù),政府機(jī)構(gòu)則擁有著豐富的實(shí)用性數(shù)據(jù),但卻不能任意公開(kāi)加以使用——這無(wú)疑限制了各機(jī)構(gòu)使用機(jī)器學(xué)習(xí)技術(shù)的具體途徑。例如,在我們第一次嘗試使用深度神經(jīng)網(wǎng)絡(luò)時(shí),我們無(wú)法直接使用云資源,因?yàn)楝F(xiàn)有政策對(duì)此明令禁止。這就構(gòu)成了大問(wèn)題,因?yàn)閯诠ぞ肿陨盹@然沒(méi)有充足的硬件以訓(xùn)練我們需要的各類神經(jīng)網(wǎng)絡(luò)模型。最終,我們通過(guò)內(nèi)部采購(gòu)及安裝必要硬件解決了這個(gè)問(wèn)題,但相當(dāng)一部分其他機(jī)構(gòu)恐怕難以跨過(guò)這道門檻。

另一大重要挑戰(zhàn)在于模型共享。當(dāng)勞工局開(kāi)發(fā)出能夠自動(dòng)對(duì)職業(yè)或傷害進(jìn)行標(biāo)準(zhǔn)化類別劃分的機(jī)器學(xué)習(xí)模型時(shí),這一成果不僅能夠服務(wù)于勞工局自身,對(duì)于其他處理類似任務(wù)的聯(lián)邦機(jī)構(gòu)也同樣意義深遠(yuǎn),甚至能夠給外部研究機(jī)構(gòu)及研究人員帶來(lái)巨大幫助。由于我們掌握著大量相關(guān)數(shù)據(jù),因此勞工局等政府機(jī)構(gòu)在訓(xùn)練這類模型方面擁有著特殊的優(yōu)勢(shì)地位。但有研究表明,這類模型可能在無(wú)意之間透露出訓(xùn)練過(guò)程中所使用的的數(shù)據(jù)信息,這就要求我們?cè)谀P凸蚕矸矫嫘⌒脑傩⌒摹=谄渌芯勘砻髂承┘夹g(shù)有望緩解這些風(fēng)險(xiǎn),勞工局已經(jīng)開(kāi)始進(jìn)行探索,但這仍是一項(xiàng)極為艱難的挑戰(zhàn)。

問(wèn):從更廣泛的角度來(lái)看,聯(lián)邦政府中的哪些領(lǐng)域有望在AI技術(shù)的推動(dòng)下實(shí)現(xiàn)顯著的效率提升?

Alex Measure: 我在政府機(jī)構(gòu)工作的時(shí)間不短了,在我看來(lái)幾乎每個(gè)聯(lián)邦機(jī)構(gòu)都有望利用有監(jiān)督機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)相當(dāng)一部分日常任務(wù)的自動(dòng)化轉(zhuǎn)型。統(tǒng)計(jì)機(jī)構(gòu)就是最典型的一例,他們的主要工作內(nèi)容就是語(yǔ)言編碼與分類。目前,越來(lái)越多的統(tǒng)計(jì)機(jī)構(gòu)已經(jīng)在使用類似的技術(shù)自動(dòng)檢測(cè)錯(cuò)誤,并匹配來(lái)自不同數(shù)據(jù)集的記錄內(nèi)容。

問(wèn):聯(lián)邦機(jī)構(gòu)可以采取哪些措施以吸引那些具備技術(shù)創(chuàng)新能力的高水平勞動(dòng)力?

Alex Measure: 我認(rèn)為聯(lián)邦機(jī)構(gòu)最好的人才吸引方法,就是強(qiáng)調(diào)使命感與榮譽(yù)感。聯(lián)邦機(jī)構(gòu)關(guān)注的往往是那些最重要的任務(wù),一旦成功將造福整個(gè)國(guó)家,這對(duì)于具有強(qiáng)烈公民意識(shí)的人才極具吸引力。畢竟有意義的項(xiàng)目可不是那么容易接觸到的。我還想強(qiáng)調(diào)的是,外部招聘并不是吸引熟練勞動(dòng)力的唯一途徑。勞工局的不少編碼項(xiàng)目及后續(xù)機(jī)器學(xué)習(xí)嘗試依靠的并不是外部AI專家,而是經(jīng)過(guò)培養(yǎng)、對(duì)于自動(dòng)化技術(shù)抱有濃厚興趣的內(nèi)部雇員。當(dāng)然,在此期間Coursera等免費(fèi)在線教育資源也發(fā)揮了重要作用。

勞工局之所以能夠走通這條道路,是因?yàn)閱T工已經(jīng)在統(tǒng)計(jì)領(lǐng)域擁有豐富的經(jīng)驗(yàn)??梢钥隙ǖ氖?,成功的機(jī)器學(xué)習(xí)項(xiàng)目既需要強(qiáng)調(diào)技術(shù)的一面,也需要關(guān)注專業(yè)知識(shí)方面的積累。政府雇員對(duì)專業(yè)的認(rèn)識(shí)已經(jīng)非常深刻,互聯(lián)網(wǎng)上又有著大量能夠自由獲取的資源建立技術(shù)基礎(chǔ),二者就這樣和諧統(tǒng)一了起來(lái)。

問(wèn):展望未來(lái)幾年,您最期待哪些AI技術(shù)成果?

Alex Measure: 我的工作主要依賴于有監(jiān)督機(jī)器學(xué)習(xí),但其中仍存在著一大局限。我們需要豐富的訓(xùn)練數(shù)據(jù)才能獲得良好的性能,這里說(shuō)的不是少量數(shù)據(jù),而是體量龐大、遠(yuǎn)超普通人學(xué)習(xí)所需的數(shù)據(jù)集合。在大多數(shù)情況下,我們需要為模型提供成百上千的訓(xùn)練數(shù)據(jù)示例,才能讓其掌握一種相關(guān)概念。這是個(gè)巨大的障礙,因?yàn)榇蠖鄶?shù)應(yīng)用場(chǎng)景中并不能提供這么豐富的數(shù)據(jù)。

過(guò)去幾年當(dāng)中,研究人員們已經(jīng)在這方面取得了巨大的進(jìn)展。這種進(jìn)展主要來(lái)自兩個(gè)方面:

其一是遷移學(xué)習(xí),即將一項(xiàng)任務(wù)中學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到另一項(xiàng)任務(wù)上,有時(shí)候人們也將其稱為自我監(jiān)督學(xué)習(xí)。這基本上就是將有監(jiān)督學(xué)習(xí)技術(shù)應(yīng)用于無(wú)明確標(biāo)記的數(shù)據(jù)。最近,一種流行的自我監(jiān)督語(yǔ)言任務(wù)開(kāi)始被人們所重視,即首先收集大量文本、而后重復(fù)采樣其中的部分小規(guī)模子集、隱藏采樣中的某些單詞,訓(xùn)練模型根據(jù)上下文預(yù)測(cè)缺失的片段。只要能夠正確完成這一操作,我們即可獲得一套對(duì)語(yǔ)言擁有深刻理解的模型,且不需要任何顯式標(biāo)簽。接下來(lái),我們就能通過(guò)遷移學(xué)習(xí)將該技術(shù)應(yīng)用于指向不同語(yǔ)言處理任務(wù)的模型,例如預(yù)測(cè)傷害分類等。如果一切順利,那么其能夠顯著降低任務(wù)自動(dòng)化所需要的訓(xùn)練數(shù)據(jù)總量。這無(wú)疑為目前由于缺乏訓(xùn)練數(shù)據(jù)而無(wú)法實(shí)現(xiàn)自動(dòng)化的眾多應(yīng)用場(chǎng)景,打開(kāi)了通向機(jī)器學(xué)習(xí)的大門。

我們關(guān)注的另一個(gè)重要領(lǐng)域在于差異化隱私,其在AI內(nèi)部與外部皆有應(yīng)用。最新進(jìn)展已經(jīng)帶來(lái)一種全新機(jī)制,能夠在實(shí)現(xiàn)機(jī)器學(xué)習(xí)模型共享的同時(shí),為基礎(chǔ)訓(xùn)練數(shù)據(jù)提供嚴(yán)格的隱私保護(hù)。一領(lǐng)域的進(jìn)展有望加快受信數(shù)據(jù)收集方之間的自動(dòng)化成果流通(例如經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型以及統(tǒng)計(jì)估計(jì)值),同時(shí)提升基礎(chǔ)數(shù)據(jù)的保密性水平。

分享至
0贊

好文章,需要你的鼓勵(lì)

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-