Uber公司是目前對數(shù)據(jù)依賴性最高的組織之一。
每一天,Uber公司在全球700個城市規(guī)劃出數(shù)百萬次行程,而由此產(chǎn)生的關(guān)于交通、首選路線、預計到達/送貨時間以及下車地點的信息,則讓Uber得以為客戶提供更加順暢的乘車體驗。
通過訪問來自出租車、駕駛員以及用戶的豐富數(shù)據(jù)集,Uber一直在投資機器學習與人工智能技術(shù)以增強自身業(yè)務。優(yōu)步AI實驗室由ML研究人員以及眾多從業(yè)者組成,他們負責將最先進的機器學習技術(shù)與優(yōu)勢成果轉(zhuǎn)化為Uber的核心業(yè)務。從計算機視覺到會話型AI,再到識別與感知,Uber公司已經(jīng)成功將ML與AI融入其共享出行平臺當中。
自2017年以來,Uber方面一直在分享與機器學習模型的構(gòu)建、部署以及管理相關(guān)的最佳實踐。他們使用的一系列內(nèi)部工具與框架都建立在高人氣開源項目基礎之上,具體包括Spark、HDFS、Scikit-learn、NumPy、Pandas、TensorFlow以及XGBoost。
下面,讓我們進一步了解Uber公司在機器學習領(lǐng)域的成果。
>>>Michelangelo——ML平臺即服務
Michelangelo 是一套機器學習平臺,通過端到端系統(tǒng)對各個團隊的工作流程與工具進行標準化。它的出現(xiàn),使得整個公司的開發(fā)人員與數(shù)據(jù)科學家都能夠輕松實現(xiàn)機器學習系統(tǒng)的大規(guī)模構(gòu)建與操作。
Michelangelo構(gòu)建于一系列開源組件之上,包括HDFS、Spark、Samza、Cassandra、MLLib、XGBoost以及TensorFlow。其利用Uber的數(shù)據(jù)與計算基礎設施構(gòu)建而成,提供的數(shù)據(jù)湖足以存儲Uber的全部交易與記錄數(shù)據(jù),Kafka以中間人的形式匯集所有Uber服務記錄——包括Samza流式計算引擎、托管Canssandra集群以及Uber的其它內(nèi)部服務供應與部署工具等等。
Michelangelo主要負責實現(xiàn)典型機器學習工作流程中的以下六個階段:
1. 管理數(shù)據(jù)
2. 訓練模型
3. 評估模型
4. 部署模型
5. 做出預測
6. 監(jiān)測預測
這套平臺擁有一個數(shù)據(jù)湖,可供模型在訓練與推理期間進行訪問。通過指預測與在線推理,應用程序?qū)⒛軌蛟L問其集中數(shù)據(jù)存儲。
Michelangelo為訓練中的ML模型提供標準算法,個人開發(fā)者與團隊也都可以輕松向該平臺添加新的算法。在部署模型之前,其會根據(jù)各種指標及參數(shù)對模型的準確性做出評估。Michelangelo通過UI或API提供端到端的模型部署管理支持。其能夠?qū)⑺渴鸬拿總€模型用于在線及離線預測,或者作為與移動應用程序相集成的庫。該平臺會持續(xù)監(jiān)測預測結(jié)果的準確性與速度,從而在必要時觸發(fā)重新訓練。
Michelangelo的用戶能夠直接通過Web UI、REST API以及監(jiān)控與報警工具處直接同該平臺的組件進行交互。
Uber公司通過PyML對Michelangelo項目進行了擴展,使得Python開發(fā)人員能夠更輕松地完成模型訓練與部署。PyML是一個用于處理Michelangelo流水線的高級API,使得團隊能夠獨立于Michelangelo之外提供獨立的自定義算法、框架、工具以及依賴項。
雖然Uber方面并沒有開源Michelangelo,但發(fā)布了相關(guān)說明文檔,其中記錄了關(guān)于實現(xiàn)可擴展機器學習流水線的設計思路與最佳實踐。
>>>Horovod——用于TensorFlow的分布式深度學習框架
Horovod 是一套利用GPU資源用于TensorFlow、Keras、PyTorch以及MXNet的分布式訓練框架。Uber公司已經(jīng)開源了Horovod并將其轉(zhuǎn)交給LF AI——Linux基金會下轄的另一機構(gòu)。順帶一提,LF AI主要關(guān)注人工智能、機器學習以及深度學習類項目的運營。
通過將對代碼內(nèi)容的修改量控制在最低水平,Horovod優(yōu)化了跨多GPU的模型訓練方式,其支持目前各類高人氣深度學習框架,包括TensorFlow、Keras、PyTorch以及Apache MXNet等。
Uber方面還擴展了百度公司在多GPU上實現(xiàn)的分布式訓練成果。百度最初的方案強調(diào)了將標準高性能計算技術(shù)引入深度學習這一基本想法。
Horovod還與英偉達集合通信庫(NCCL)相集成,用以支持跨多個GPU與多臺機器的深度學習模型分布式訓練。Horovod公開的API能夠與各類主流深度學習框架共同配合使用。
Uber的Horovod項目目前以開源形式通過Github 公開交付。
>>>Ludwig——無代碼深度學習工具箱
Ludwig 是Uber旗下最有趣的機器學習項目。這是一套開源深度學習工具箱,以TensorFlow為基礎構(gòu)建而成,允許用戶有無需編寫代碼的前提下實現(xiàn)深度學習模型的訓練與測試。
Ludwig是一套AutoML平臺,其提供一組模型架構(gòu)集合;用戶可以將這些架構(gòu)組合起來,從而為特定用例創(chuàng)建端到端模型。該工具箱要求將數(shù)據(jù)集格式化為一個逗號分隔值(CSV)文件,外加一個用于對特征、標簽以及訓練參數(shù)進行描述的YAML文件。Ludwig還提供一個簡單的Python API,允許開發(fā)人員借此實現(xiàn)模型的訓練或加載,以及獲取關(guān)于新數(shù)據(jù)的預測結(jié)果。
該工具箱支持文本分類、機器翻譯、情緒分析、圖像分類、圖像字幕用例以及其它多種場景。
Ludwig在構(gòu)建之初即考慮到可擴展性原則,基于數(shù)據(jù)類型抽象,能夠輕松添加對新數(shù)據(jù)類型以及新模型架構(gòu)的支持。從業(yè)者可以利用它快速訓練并測試深度學習模型,允許研究人員通過強大的基準進行性能比較,并提供實驗設置選項以通過執(zhí)行標準數(shù)據(jù)預處理及可視化確保可比較性。
Ludwig開源項目已經(jīng)在 Github上公開發(fā)布。
好文章,需要你的鼓勵
騰訊ARC實驗室推出AudioStory系統(tǒng),首次實現(xiàn)AI根據(jù)復雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù),通過交錯式推理生成、解耦橋接機制和漸進式訓練,能夠?qū)碗s指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異,為AI音頻創(chuàng)作開辟新方向。
Meta與特拉維夫大學聯(lián)合研發(fā)的VideoJAM技術(shù),通過讓AI同時學習外觀和運動信息,顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量,在多項測試中超越包括Sora在內(nèi)的商業(yè)模型,為AI視頻生成的實用化應用奠定了重要基礎。
上海AI實驗室發(fā)布OmniAlign-V研究,首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓練數(shù)據(jù)集和MM-AlignBench評測基準,通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法,讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平,為AI價值觀對齊提供了可行技術(shù)路徑。
谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預測模型,能夠在不到一分鐘內(nèi)完成10天全球天氣預報,準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡技術(shù),通過學習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律,在極端天氣預測方面表現(xiàn)卓越,能耗僅為傳統(tǒng)方法的千分之一,為氣象學領(lǐng)域帶來了效率和精度的雙重突破。