av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 GPT時代,一位數(shù)據(jù)產(chǎn)業(yè)創(chuàng)業(yè)者的“生存法則”

GPT時代,一位數(shù)據(jù)產(chǎn)業(yè)創(chuàng)業(yè)者的“生存法則”

2023-04-19 22:06
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2023-04-19 22:06 ? 周雅

作者| 周雅
配圖| 關(guān)珊

“Data is the new oil. (數(shù)據(jù)是新型石油)”,這句如今聽起來頗有些陳詞濫調(diào)的話卻是關(guān)于“數(shù)據(jù)”廣為流傳的較早隱喻,17年前這個論調(diào)被英國數(shù)學(xué)家Clive Humby提出時,大家或許還沒有意識到,數(shù)據(jù)和石油其實一樣,都是要經(jīng)過提煉、加工才能變?yōu)?strong>更有價值的產(chǎn)物。

而究其本質(zhì),對石油的再加工,需要一個全新的「化學(xué)工程」行業(yè),并引發(fā)了一些產(chǎn)業(yè)變革。比如上世紀初如果沒有高辛烷值汽油出現(xiàn),就沒有之后的汽車普及。今天,當人們開始對數(shù)據(jù)再加工,同樣需要一個全新的「數(shù)據(jù)工程」行業(yè)。

眾所周知,人工智能的三駕馬車,是算法、算力數(shù)據(jù)。而一份來自UBS Global的報告卻顯示,現(xiàn)如今AI工程師70%-90%的時間都花費在訓(xùn)練數(shù)據(jù)上。所以本質(zhì)上,機器學(xué)習(xí)作為AI的大腦,是一種被數(shù)據(jù)投喂長大的算法技術(shù),伴隨著建模門檻的降低,數(shù)據(jù)的門檻卻越來越高,使得數(shù)據(jù)工程變成了機器學(xué)習(xí)的瓶頸。

所以,我們可以說:AI正在改變世界,而數(shù)據(jù)工程則在改變AI。

在這個過程中,一批批技術(shù)為王的訓(xùn)練數(shù)據(jù)服務(wù)商突出重圍。于是,倍賽科技和它的創(chuàng)始人兼CEO杜霖就出現(xiàn)在了我們的視野當中。

說起來,杜霖和數(shù)據(jù)打交道將近20年。早在大二期間,他就曾創(chuàng)辦過一家數(shù)據(jù)挖掘公司,最后以400萬美金賣掉。甚至在高中,他就自學(xué)了計算機視覺相關(guān)技術(shù),并在核心期刊發(fā)表論文。

而倍賽公司的創(chuàng)立,也源于杜霖發(fā)現(xiàn)了機器學(xué)習(xí)進一步發(fā)展面臨的痛點

GPT時代,一位數(shù)據(jù)產(chǎn)業(yè)創(chuàng)業(yè)者的“生存法則”

創(chuàng)業(yè)雛形:數(shù)據(jù)才是那只木桶的短板

作為AI如今最輝煌的分支,機器學(xué)習(xí)曾經(jīng)多年來卻一直進展緩慢,直到2012年的ImageNet圖像分類競賽中,深度卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet取得了驚人的成績,將錯誤率降低了近一半,使得深度學(xué)習(xí)開始受到廣泛關(guān)注和應(yīng)用。

除了算力的疊加、算法的優(yōu)化之外,高質(zhì)量數(shù)據(jù)集就是不可逾越的一環(huán)。舉例來說,人臉是千變?nèi)f化的,但若沒有包括不同年齡、性別、種族、角度和光照條件下的人臉圖像數(shù)據(jù)集,可能就不會有AI識別模型的性能和準確率。

也是那時候,杜霖敏銳地嗅到了數(shù)據(jù)的前景,深感里面有很多事可做。于是,他火速拉了交大的兩位同學(xué)入伙,開發(fā)了一個完整的AI應(yīng)用場景:一款能識別食材的冰箱,冰箱能識別出120種食材,綜合識別率達89.9%。雖然還不夠完美,但商用也是沒問題的。

在那個年代,這款冰箱開創(chuàng)了圖像識別冰箱的先河。杜霖回憶,“我們試著賣給海爾美的等家電公司,大家都很感興趣,但是誰也付不起費用,因為白電的利潤空間非常薄,這套識別系統(tǒng)軟硬件成本至少1000塊,而一臺冰箱也就賣一兩千塊錢。”“如果不是太過前衛(wèi),倍賽現(xiàn)在可能就是一家智能冰箱解決方案公司了。”

表面上看,是技術(shù)太過前衛(wèi),成本太過高昂,但經(jīng)過仔細反思復(fù)盤,杜霖意識到背后有更通用的痛點:機器學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)工程占據(jù)了絕大部分研發(fā)時間。

算下來,這5個半月的時間里,他們花了3個半月做數(shù)據(jù)標注,真正訓(xùn)練模型也就1個多月時間,其中數(shù)據(jù)標注用了將近30人,而數(shù)據(jù)訓(xùn)練只有一位AI工程師。

杜霖從中總結(jié)出兩條頗有遠見的觀點:第一,所有行業(yè)都會有被機器學(xué)習(xí)滲透的那一天,因為它真的能提效,所以它會隨著數(shù)據(jù)的豐富和建模門檻的降低,變得越來越普及。第二,正因為機器學(xué)習(xí)會普及,圍繞在訓(xùn)練數(shù)據(jù)的工程化一定有巨大潛力。

“解決數(shù)據(jù)問題更重要”,杜霖說。于是,倍賽科技公司就在這樣的背景下誕生了。

公司雖然落成了,但這也只是一個開端。倍賽從2015年便開始研發(fā)自己的數(shù)據(jù)標注系統(tǒng)Origin1,直到2017年底才開始接業(yè)務(wù)。蟄伏了三年,只為讓系統(tǒng)足夠穩(wěn)定成熟。到2018年反哺也聯(lián)袂而至,倍賽科技的營收同比增長了五六倍,達千萬規(guī)模。“當時我們每天都會收到大量的需求。”杜霖說。

戰(zhàn)略轉(zhuǎn)型:黎明之前的至暗時刻

創(chuàng)業(yè)路上有無數(shù)的暗礁,都源于各種第一次,第一次組隊伍,第一次找融資,第一次商業(yè)化……對于倍賽來說,潛伏最深的那塊險地,是第一次技術(shù)化轉(zhuǎn)型

轉(zhuǎn)型,對于任何一家公司包括創(chuàng)業(yè)公司而言,它的考驗程度甚至堪比一場再創(chuàng)業(yè),因為那意味著對舊事物的推翻、對新事物的創(chuàng)建,就勢必會有一個否定自己再證明自己的過程。

在倍賽的發(fā)展歷程中,杜霖曾寫過一封全員信,說公司最難的時候,不是賬上的錢只夠維持兩個月工資,也不是拿著的一個大客戶訂單突然就丟了,最難就是那一場技術(shù)平臺大轉(zhuǎn)型。

那一年,倍賽的核心產(chǎn)品Origin1已經(jīng)穩(wěn)定發(fā)展了4年,但團隊遇到了一些反復(fù)出現(xiàn)的問題——公司的AI項目經(jīng)理和公司的客戶經(jīng)常會花大量時間去磨某一個數(shù)據(jù)該怎么標。

拿一個很簡單的自動駕駛場景舉例,下雨時攝像頭會變臟,這時候就要加一個標簽“攝像頭是否潔凈”,因為它會影響建模。但就是這種常見場景,卻是要求數(shù)據(jù)標注方案迭代很多次。

諸如此類的問題,極大影響了數(shù)據(jù)處理的效率。杜霖進一步發(fā)現(xiàn),這些問題已經(jīng)無法在既有產(chǎn)品上修修補補來解決了,必須做一次重構(gòu),全部推倒重來。

思索再三,杜霖及同事們最終決定對核心產(chǎn)品下手。而且,既然要改,就要改得徹底。作為一款企服的產(chǎn)品,它需要“商業(yè)化友好”,它的底層性能要強大完備;而作為一款國際化視野的平臺,它需要“開發(fā)者友好”,所以用戶體驗也要跟上步伐。

用一句話總結(jié)目標:倍賽需要將公司原來的“數(shù)據(jù)標注”產(chǎn)品Origin1,轉(zhuǎn)型為一個“訓(xùn)練數(shù)據(jù)工程化”開源平臺Xtreme1。

這項重大的產(chǎn)品升級,同時面向N個目標訴求,操作起來必然是牽一發(fā)而動全身。那陣子,這邊Origin1還在不斷商業(yè)化,那邊Xtreme1只是襁褓嬰兒。需要用老產(chǎn)品的“回報”東墻,補新產(chǎn)品的“開發(fā)”西墻。

更難的是,公司上下包括杜霖自己在內(nèi),大家并不知道新產(chǎn)品能否做的出來,何時才能做出來,唯獨只是堅定要持續(xù)投入。那段時間里,整個團隊的士氣進入了一種又迷茫又激進的擰巴狀態(tài)。

作為公司主心骨,杜霖眼前的難處也有一籮筐,包括怎么保持新舊兩邊產(chǎn)品部門的目標協(xié)同一致;怎么做好兩個產(chǎn)品的平穩(wěn)過渡;怎么匹配新戰(zhàn)略,向VC介紹新的商業(yè)邏輯;以及,Origin1做了4年的閉源,突然要從Xtreme1轉(zhuǎn)為開源,雖然迎合了大趨勢,但到底是福是禍?

在前后1年多的時間里,杜霖做了無數(shù)適配,來掌舵這次轉(zhuǎn)型。他在成都創(chuàng)立了研發(fā)中心,從零開始招募第一位員工。而整個團隊,也頻繁往返北京成都兩地,進入高強度工作狀態(tài)。

幸好,倍賽最終有驚無險地闖過了難關(guān)。

經(jīng)過無數(shù)次測試,新一代支持多模態(tài)數(shù)據(jù)的AI訓(xùn)練數(shù)據(jù)平臺Xtreme1橫空出世,并在2021年12月30號加入Linux基金會并實現(xiàn)開源

回看這次轉(zhuǎn)型,杜霖也感慨萬千,他說“這不光是一次產(chǎn)品的升級,更是一次能力的升級,因為公司因此實現(xiàn)了從技術(shù)投入、團隊升級、戰(zhàn)略調(diào)整的一系列蛻變。”

他在那封全員信的最后寫道:所謂的至暗時刻,不是午夜12點,而是黎明沒來、深夜未走的凌晨四五點。

消除誤解:誰說數(shù)據(jù)標注沒有含金量

業(yè)界有一種誤區(qū)認為,數(shù)據(jù)工程的核心就是“數(shù)據(jù)標注”,而數(shù)據(jù)標注只是“處理多少數(shù)據(jù),就有多少人工”的藍領(lǐng)流水線。

杜霖以產(chǎn)品舉例稱,“Xtreme1成為了Linux基金會關(guān)于MLOps版圖中全球首個填補“Annotation&Visualization”空白的產(chǎn)品。”所謂MLOps,是指將DevOps(開發(fā)運營)中的最佳實踐應(yīng)用于機器學(xué)習(xí)的運營。

隨著數(shù)據(jù)的復(fù)雜性增加,以及新算法的不斷涌現(xiàn),機器學(xué)習(xí)模型的部署和運營變得越來越困難。而MLOps通過采用自動化流程和工具,使機器學(xué)習(xí)模型的部署、監(jiān)測和維護變得更容易、高效和可靠。

Xtreme1正是圍繞Data-Centric MLOps的應(yīng)用策略展開,從而更便捷、高效地幫助客戶實現(xiàn)AI應(yīng)用交付。某種程度上,這可以理解為是一種用“人工智能”提升“人工智能開發(fā)”的工作方法。AI helps AI。

產(chǎn)品細節(jié)上,Xtreme1從功能層面由五大板塊構(gòu)成:Ontology Center,Annotation Suite,Dataset Curation,SOTA Models和BasicBot。比如Ontology Center這一功能,當中關(guān)于車的屬性就有很多種,SUV、轎車、卡車、自行車等等,客戶可以基于屬性,生成一個想要的標準方案?;蛘呓Y(jié)合業(yè)務(wù)場景,去定制一個方案。“我們在X1里開發(fā)了一系列自動化工具,去幫助客戶實現(xiàn)數(shù)據(jù)標注方案。”

如今,Xtreme1已經(jīng)成為倍賽科技的拳頭產(chǎn)品,并得到招商銀行、英特爾、南方電網(wǎng)、京東、Bosch、科大訊飛、商湯等近千家頭部企業(yè)客戶的青睞。去年,倍賽科技還拿到英特爾AI百佳創(chuàng)新激勵計劃的“芯銳獎”生態(tài)拓展獎,使用英特爾處理器 IntelXeon®Processor、Intel®OpenvINo™等技術(shù)對產(chǎn)品開展模型訓(xùn)練。

跨物種聯(lián)手:人工智能離不開人類老師

不過,要把AI轉(zhuǎn)化為生產(chǎn)力,不僅要懂AI,更要懂場景。數(shù)據(jù)工程的門檻,不僅在于技術(shù)研發(fā)上,更在于各個行業(yè)的Know-How上。

杜霖說,“我們的產(chǎn)品經(jīng)歷了數(shù)萬項目的打磨,當一接手某種類型的項目,在系統(tǒng)層面,我們就知道它可能會涉及到哪些數(shù)據(jù)標注的規(guī)則,這在內(nèi)部稱之為Data Driven(數(shù)據(jù)驅(qū)動),我們會去理解客戶為什么做這個數(shù)據(jù)、想解決什么問題。

比如同樣都是道路場景,自動配送車、無人駕駛車、配送機器人這三種車輛,標注方案卻是完全不同的。

對于自動駕駛,需要大量補充類似“道路臨時施工的錐子”Corner case數(shù)據(jù);而對于酒店配送機器人,就要去找“電梯上下口特征”的數(shù)據(jù)。“不同的場景有不同的數(shù)據(jù)要求,我們是理解的,因為我們做了太多案例。”

甚至,在杜霖看來,ChatGPT之所以這么驚艷,也是有人類Know-How參與的原因。

也就是說,ChatGPT的背后功臣,除了有實現(xiàn)更大級別模型的「預(yù)訓(xùn)練」,此外把Human in the Loop(或被稱之為RLHF)這件事情做好也是關(guān)鍵。

HITL(Human in the Loop,人機協(xié)同),可以簡單理解為用“人類智能”結(jié)合“機器智能”來創(chuàng)建機器學(xué)習(xí)模型。實際做法就是用“言傳身教”的方法,給機器這個“學(xué)生”配個優(yōu)秀的“人類老師”,把機器學(xué)習(xí)原本的“填鴨式教學(xué)”升級到“答疑式教學(xué)”,來迅速提升它的學(xué)習(xí)成績。

也就是,當生成式AI創(chuàng)造出內(nèi)容后,人類根據(jù)自身Know-How來給結(jié)果打分,幫助機器對齊人類思維。

“當下的機器學(xué)習(xí)大部分是依賴于HITP。”杜霖指出,ChatGPT通過來自人類反饋的強化學(xué)習(xí)(RLHF)生成的InstructGPT模型,比100倍參數(shù)規(guī)模無監(jiān)督的GPT-3模型效果更好,也說明了有監(jiān)督的數(shù)據(jù)標注是大模型應(yīng)用成功的基礎(chǔ)。

反觀回來,作為一家全棧AI數(shù)據(jù)及模型解決方案供應(yīng)商,杜霖所創(chuàng)立的倍賽科技的核心宗旨,就是用更好用的工具更好的達到Human in the Loop,把客戶的建模成本進一步降低,建模效率進一步提升。

杜霖把倍賽的這項業(yè)務(wù)總結(jié)為“Training Data Engineering(訓(xùn)練數(shù)據(jù)工程化)”,其中涉及到的環(huán)節(jié)就包括了:數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標注、數(shù)據(jù)集管理、模型建立、模型部署、應(yīng)用程序構(gòu)造等。

所以,無論是從哪個角度看,數(shù)據(jù)工程不僅是個技術(shù)密集型產(chǎn)業(yè),更是一個要求責(zé)任感很重的產(chǎn)業(yè)。好的數(shù)據(jù)集,就是AI的優(yōu)質(zhì)教科書,賦予AI靈魂的存在。

不過在杜霖看來,國內(nèi)的這個行業(yè)其實被一些新涌入者搞的有些混亂。很多同行一味實施低價策略,甚至是虧錢接活,拼體力搶單,搶到之后再去講融資的故事。“這是一個不健康的業(yè)態(tài)和模式。”

相較而言,在國際市場上,數(shù)據(jù)工程行業(yè)也是高度競爭的,但是大家的競標價格基本都是八九不離十的,客戶最后研判的標準會上升到技術(shù)實力、交付能力、業(yè)務(wù)貼合度等指標,不會一味的只看價格。

最終的結(jié)果是,國際數(shù)據(jù)處理公司的估值動輒幾十億,中國可能只有十分之一,這也讓數(shù)據(jù)工程被誤解甚至邊緣化。

也正因如此,杜霖堅定的將把“更強的技術(shù)能力”和“國際化”作為公司核心方向。“倍賽一直把自己標桿成一個世界級的產(chǎn)品,所以我一直要求產(chǎn)品經(jīng)理去看世界最好的工具,眼光還是要放高。”目前,倍賽全線產(chǎn)品都是中英文雙語,在成都的研發(fā)部門60%以上在英文環(huán)境中工作,非研發(fā)部門90%以上實現(xiàn)英文工作環(huán)境。

他強調(diào)說:“整個數(shù)據(jù)行業(yè)里,未來能走出來的一定是工具能力非常強、且有全球化基因的公司”,因為AI的通用屬性意味著,你的產(chǎn)品總有一天會被放到全球商業(yè)舞臺上去卷。

數(shù)據(jù)獵手:業(yè)務(wù)出海,產(chǎn)品說話

回望整個創(chuàng)業(yè)之旅,杜霖最有成就感的過程,就是帶動全員統(tǒng)一目標,做出有潛力的產(chǎn)品,從而實現(xiàn)從0到1、從1到100的增長過程。

“我一直在試圖把自己所學(xué)的工程能力,轉(zhuǎn)化到現(xiàn)實世界去解決實際問題。我是一個非常典型的喜歡去解決問題的人。”杜霖相信,能解決實際問題的產(chǎn)品就是好產(chǎn)品。

但由于技術(shù)是一個相對抽象的概念,技術(shù)的發(fā)展是個漫漫長路,創(chuàng)業(yè)者如何更好地普及技術(shù)?杜霖頓了頓說道,“我相信倍賽是以產(chǎn)品驅(qū)動增長的公司,就讓產(chǎn)品自己說話吧。”比如前陣子,產(chǎn)品收到了不知名用戶的好評,是來自瑞士理工大學(xué)的某個用戶被挪威某個大學(xué)的校友推薦用了產(chǎn)品,“這讓我很有成就感。”

談及未來發(fā)展,擺在公司面前依然有兩條路可走,是做一個小而精的垂類公司,還是做一個大而美的平臺公司?杜霖說,還是回到最初的定位,就是圍繞多模態(tài)數(shù)據(jù)做好一套訓(xùn)練數(shù)據(jù)工程化(Training Data Engineering)和訓(xùn)練數(shù)據(jù)生命周期管理(Training Data Lifecycle Management),因為這是未來一切可能的地基。

如何看待AI未來?杜霖說,“AI的終極方向,一定是在可控的范圍內(nèi),進一步提升全世界的效率”,如果類比的話,AI只是一次工業(yè)革命,是對生產(chǎn)力的又一次解放,它的跨時代意義跟蒸汽機時代是一樣的。

蒸汽機剛出現(xiàn)時也很笨拙,但是某一天,大家發(fā)現(xiàn)它可以取代馬車、人力,然后被取代的人慢慢就反相變成AI的操作者,比如司機操作方向盤,工人操作機械。

所以,AI所取代的工作,未來依然會有更多的人反向去操作這樣的AI,也就是我們之前所談的Human in the Loop。也正因如此,訓(xùn)練數(shù)據(jù)工程化的工作現(xiàn)在重要,隨著AI在不同行業(yè)的深入,還會變得更加重要。“人類要教AI好的東西,和對的東西。“

在連續(xù)創(chuàng)業(yè)的間隙,杜霖還因為愛好,而當過幾年的海上獵手,甚至后來還因此孵化了一家海釣漁具公司。他說自己喜歡出最遠的海,去釣很大的魚,享受與未知世界斗智斗勇的感覺:“我釣過最大的魚是在西沙的一條接近300多斤大鯊魚,我用手搖竿搖上來的。”

不過,只要了解釣魚這項運動的愛好者都清楚,其中取勝的關(guān)鍵并不是收桿那一刻的拼體能,而是在整個過程的運籌帷幄。

從這個角度看,海上獵手如此,數(shù)據(jù)獵手也如此。

分享至
97贊

好文章,需要你的鼓勵

周雅

Miranda
關(guān)注科技創(chuàng)新、技術(shù)投資。以文會友,左手硬核科技,右手浪漫主義。
推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-