av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<cite id="m9e8c"><track id="m9e8c"></track></cite>

<sub id="m9e8c"></sub>

<legend id="m9e8c"></legend>

<cite id="m9e8c"><track id="m9e8c"></track></cite>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計算的「力量」

OpenAI持續(xù)12天發(fā)布會過半，谷歌深夜截胡式炸場：Gemini 2.0來了，一切為了Agent！

Gemini 2.0谷歌GoogleAIAI智能體AI代理OpenAI

OpenAI持續(xù)12天發(fā)布會過半，谷歌深夜截胡式炸場：Gemini 2.0來了，一切為了Agent！

作者：周雅

2024-12-12 11:11

分享至：

就在北京時間12月11日深夜23:30，谷歌正式發(fā)布Gemini 2.0，標志著其向能夠獨立完成復(fù)雜任務(wù)的AI系統(tǒng)邁出了雄心勃勃的一步。并且谷歌基于這次版本更新，一次性發(fā)布多個AI Agent（智能體）成果。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2024-12-12 11:11 ? 周雅

作者｜周雅

這邊OpenAI持續(xù)12天的直播連續(xù)劇還沒完結(jié)，那邊谷歌已經(jīng)坐不住了開始放大招，火藥味溢出屏幕。

就在北京時間12月11日深夜23:30，谷歌正式發(fā)布Gemini 2.0，標志著其向能夠獨立完成復(fù)雜任務(wù)的AI系統(tǒng)邁出了雄心勃勃的一步。并且谷歌基于這次版本更新，一次性發(fā)布多個AI Agent（智能體）成果，包括：

用多模態(tài)理解現(xiàn)實世界的智能體「Project Astra」這次升級了技能；發(fā)布Project Mariner，一個建立在 Gemini 2.0之上的新智能體，可以幫忙瀏覽網(wǎng)頁，并處理復(fù)雜任務(wù)；發(fā)布Jules，一個由 Gemini 2.0驅(qū)動的新型編碼智能體，主要面向開發(fā)者；以及發(fā)布一些用于游戲、機器人、深度研究場景的智能體，用實力詮釋什么叫做“要啥有啥”。除了智能體系列霸屏之外，谷歌此次還官宣了第六代TPU——Trillium正式面向客戶開放。

Google 和 Alphabet 首席執(zhí)行官 Sundar Pichai（桑達爾·皮查伊）在寄語里直言：“Gemini 2.0是谷歌迄今為止最強大的模型，它能夠構(gòu)建新的AI智能體，從而讓我們離構(gòu)建通用助手的愿景更進一步。”桑達爾·皮查伊第一時間發(fā)了推文，向開發(fā)者安利這款模型。

Google 和 Alphabet 首席執(zhí)行官 Sundar Pichai（桑達爾·皮查伊）的社交平臺截圖

不難看出，這次谷歌的強勢出手，都是圍繞一個主軸——AI智能體（Agent）。其實不止谷歌，很多AI巨頭，尤其是以 OpenAI、Anthropic 和谷歌為首，一直是AI智能體的布道者。桑達爾·皮查伊在這次發(fā)布的致辭中，將AI智能體描述為“能夠更多地了解你周圍的世界、提前思考多個步驟、并在你的監(jiān)督下代表你采取行動的模型”。

在這次發(fā)布前夕的媒體溝通會上，Google DeepMind Gemini產(chǎn)品管理總監(jiān)Tulsee Doshi指出：“Google DeepMind研究AI智能體能力已經(jīng)有很長一段時間了，我認為這個特定詞在過去幾個月已經(jīng)有了新的含義。”以Project Astra為例，它的核心原則是擁有眼睛、耳朵和聲音的智能體，可以識別并理解物理世界，并與人交互，幫人做事。

談及背后邏輯，Google DeepMind Project Astra項目產(chǎn)品經(jīng)理徐Bibo Xu在采訪中指出，在技術(shù)發(fā)展方向上，谷歌正在平衡兩個關(guān)鍵領(lǐng)域：一方面繼續(xù)擴大模型規(guī)模，提升基礎(chǔ)性能；另一方面，加強后期訓(xùn)練優(yōu)化和推理技術(shù)的改進，尤其關(guān)注多模態(tài)能力的提升，希望讓AI能更好地理解和處理各類信息。

Google DeepMind團隊透露，明年初將推出Gemini 2.0系列模型的更多版本，大家很快就能見識到Gemini更強大的表現(xiàn)。

Gemini 2.0：為Agent而生

去年年底，Gemini 1.0問世。Gemini 1.0和1.5是谷歌第一個基于多模態(tài)的模型，它支持多模態(tài)和長上下文，可以理解文本、視頻、圖像、音頻和代碼中的信息，并處理更多信息。

一年后的今天，谷歌發(fā)布 Gemini 2.0 系列模型中的第一個版本：Gemini 2.0 Flash 體驗版。在MMLU-Pro基準測試中，2.0 Flash的速度是1.5 Pro的兩倍。

在功能方面，2.0 Flash 除了能夠支持圖片、視頻和音頻等多模態(tài)輸入，它還可以支持多模態(tài)輸出，例如可以直接生成圖像與文本混合的內(nèi)容，以及原生生成可控的多語言文本轉(zhuǎn)語音(TTS)音頻。而且，它還可以原生調(diào)用 Google Search、代碼執(zhí)行以及第三方用戶定義的函數(shù)等工具。

谷歌特別強調(diào)了對開發(fā)者的賦能。官網(wǎng)資料里提到，Gemini 2.0 Flash 現(xiàn)在可以通過谷歌的兩款生成式AI產(chǎn)品—— Google AI Studio 和 Vertex AI 中的 Gemini API 獲取，所有開發(fā)者均可使用「多模態(tài)輸入」和「文本輸出」，可使用原生文本轉(zhuǎn)語音和圖像的生成功能。該產(chǎn)品將于2025年1月份上市，到時候Gemini 2.0將迎來更多版本型號。

為了幫助開發(fā)者構(gòu)建動態(tài)和交互式應(yīng)用程序，谷歌還發(fā)布了最新 Multimodal Live API，它具有實時音頻、視頻流輸入、以及使用多個組合工具的能力。

谷歌強調(diào)，在接下來的幾個月里，將把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平臺。開發(fā)人員可以在Gemini Code Assist中注冊使用Gemini 2.0 Flash，以便在流行的ide（如Visual Studio Code、IntelliJ、PyCharm等）中增強編碼輔助功能。

而對于更廣泛的個人用戶，全球的 Gemini 用戶可以通過在電腦端和移動端網(wǎng)頁的模型下拉菜單中進行選擇，來體驗2.0 Flash 體驗版，并且該版本將很快在 Gemini 移動應(yīng)用中推出。2025年初，谷歌還會將 Gemini 2.0 擴展到更多產(chǎn)品中。

比如，Gemini 2.0 的高級推理能力將融入谷歌搜索中的AI概覽（AI Overviews），以攻克更復(fù)雜的主題和多步驟問題，包括高等數(shù)學(xué)方程、多模態(tài)查詢和編碼。該功能本周已經(jīng)進行了小范圍測試，明年初將在更大范圍推出。

Agent！Agent！還是Agent！

這次發(fā)布或許最重要的是，谷歌推出了一批基于 Gemini 2.0 架構(gòu)的原型 AI智能體，展示了在該領(lǐng)域的野心。其中包括：

1、Project Astra大幅升級，用于探索未來通用AI助手能力的研究原型。

Project Astra的首次亮相是在今年5月份的Google I/O 大會上，當時科技行者在現(xiàn)場目睹了那次發(fā)布，在演示視頻中，Project Astra通過手機攝像頭能看見、能識別、能理解物理世界的周圍環(huán)境，還能解答用戶提問并提供即時反饋。當時在現(xiàn)場收獲了一陣掌聲。

而現(xiàn)在，基于 Gemini 2.0 版本的Project Astra，進行了一系列升級，谷歌對此又發(fā)了一支演示視頻。

看起來，進化后的Project Astra與人交互更自然了，這次的更新具體而言覆蓋了方方面面：

首先，它實現(xiàn)了更流暢的對話。演示視頻中可見，Project Astra可以在多種語言之間進行自然對話，比如法語和泰米爾語，能理解不同口音和生僻單詞。

其次，它能調(diào)用新工具。看起來是通過文本、語音、圖像和視頻回答問題并執(zhí)行任務(wù)，并在需要時調(diào)用現(xiàn)有的谷歌應(yīng)用，如搜索、地圖和攝像頭。“它融合了我們這個時代一些最強大的信息檢索系統(tǒng)。”Bibo Xu在這次媒體溝通會上說道。

第三，它有了更強的記憶力。演示視頻中，Project Astra 能夠記住門禁密碼，并且過了一段時間被問到時，還是能準確回憶起門禁密碼。在整個測試過程中，即使經(jīng)過多個不同場景的對話，Project Astra仍能準確調(diào)取之前存儲的信息。

關(guān)于Project Astra的記憶能力，Bibo Xu在媒體溝通會上介紹，Project Astra 擁有兩種記憶能力，一個是「圖形記憶能力」，最多可以記住10分鐘內(nèi)看到的每一個畫面像素；另一個是「對話記憶能力」，最多可以存儲60段歷史對話，并在需要時調(diào)用這些內(nèi)容。

據(jù)悉，谷歌正在將Project Astra的功能植入自家產(chǎn)品中，比如Gemini app、智能眼鏡等。而且即將開放給一批“受信任的測試人員”，測試 Project Astra 在原型智能眼鏡上的表現(xiàn)。

2、除了Project Astra的升級之外，谷歌此次還發(fā)布一個新的智能體Project Mariner。

Project Mariner能夠理解和推理瀏覽器頁面中的信息（包括像素、文本、代碼、圖像和表單等），然后通過Chrome 擴展程序使用這些信息，為用戶完成復(fù)雜任務(wù)。

谷歌指出，在 WebVoyager 基準測試（該測試針對智能體在端到端的真實世界網(wǎng)頁任務(wù)的性能）中，Project Mariner 作為單個智能體設(shè)置實現(xiàn)了 83.5% 的工作效率，達到了最先進的水平。

從安全性的角度考慮，谷歌在博客中強調(diào)：“正在積極研究新型風險和應(yīng)對措施，始終保持有人類的參與和監(jiān)督。例如，Project Mariner 只能在瀏覽器上的活動標簽頁中鍵入、滾動或單擊，而它在采取某些敏感操作（如購買某物）之前，會要求用戶進行最終確認。”

3、面向開發(fā)者的編碼智能體Jules。

谷歌這次發(fā)布的另一個新智能體，是專門面向開發(fā)者的編碼智能體Jules，它可以直接集成到 GitHub 工作流程中來協(xié)助開發(fā)者工作。

對于開發(fā)者來說，比寫代碼更頭疼的可能是找bug，而現(xiàn)在，可以將Python和Javascript編碼任務(wù)交給Jules，Jules可以處理bug修復(fù)和其他耗時的任務(wù)，它可以有效修改多個文件，甚至拉取請求來直接將修復(fù)返回到GitHub，那么開發(fā)者就可以專注于其他任務(wù)。

4、更多“智能體們”，用于游戲、機器人、研究等更多領(lǐng)域。

除了上述“叫得上名字的”智能體之外，谷歌這次還演示了一些內(nèi)置在Gemini 2.0的“智能體們”，用于游戲、機器人、研究等更多領(lǐng)域。

“Google DeepMind 一直以來都在利用游戲幫助AI模型更好地遵守規(guī)則、進行規(guī)劃、并運用邏輯思維。”谷歌在官網(wǎng)資料里指出。比如在上周，谷歌推出了Genie 2，一個可以從單個圖像創(chuàng)建無限多種可玩 3D 世界的 AI 模型。

而這次，谷歌基于Gemini 2.0 構(gòu)建了一些智能體，專門用于游戲場景。演示視頻中可見，該智能體可以根據(jù)屏幕上的實時畫面，分析游戲情況，并提供下一步操作建議；此外，當被用戶問到游戲知識時，它還能調(diào)用搜索，檢索到相關(guān)知識并給出建議。

為了進一步探索智能體在游戲領(lǐng)域的應(yīng)用，谷歌正在與Supercell等游戲開發(fā)團隊合作，通過測試它們在《部落沖突》、《海島奇兵》等各種游戲中的表現(xiàn)，來評估智能體們理解游戲規(guī)則、應(yīng)對挑戰(zhàn)的能力。

除了探索虛擬世界的智能體能力外，谷歌還將 Gemini 2.0 的空間推理能力應(yīng)用于機器人領(lǐng)域，嘗試讓智能體在現(xiàn)實世界中提供幫助。不過谷歌方面指出，這項研究仍處于初期階段。

此外，谷歌在 Gemini Advanced 中還引入了一項名為“深度研究（Deep Research）”的新代理功能，這是一個研究助手，可以深入研究復(fù)雜主題并為創(chuàng)建包含相關(guān)來源鏈接的報告。該功能自今日起對 Gemini Advanced 用戶開放。

“思維鏈是我們思考如何構(gòu)建模型的重要組成部分。”Tulsee Doshi在媒體采訪中指出，比如AlphaCode和AlphaProof，這些都是能夠展示深度思維和推理時間的真正強大模型，它們能夠在代碼和數(shù)學(xué)方面提升性能。

值得一提的是，谷歌這次依然特別強調(diào)了安全與責任的重要性，為此制定了“負責任的AI”原則，在數(shù)據(jù)處理、模型訓(xùn)練等各個環(huán)節(jié)都實施了嚴格的安全把關(guān)。

谷歌在對外發(fā)布資料里強調(diào)了秉持“負責任的AI”原則

Gemini 2.0背后的功臣：第六代Trillium

如此密集的AI智能體們，以及承載這些智能體的AI大模型們，給硬件基礎(chǔ)設(shè)施帶來了特殊挑戰(zhàn)。因為這些模型需要巨大的計算能力和專門的硬件來有效地處理訓(xùn)練、微調(diào)和推理。

十多年前，谷歌開始開發(fā)定制的人工智能加速器——張量處理單元（TPU），它集成了軟硬件、機器學(xué)習框架、以及大模型，以滿足人工智能工作負載不斷增長的需求，為多模態(tài)人工智能鋪平道路。

桑達爾·皮查伊在寄語里把Gemini 2.0的進展一部分歸功于TPU。他寫道：“Gemini 2.0 的進展得益于我們所特有的長達 10 年全棧式 AI 創(chuàng)新研究的投入，它基于我們定制的硬件第六代 TPU Trillium 構(gòu)建而成。TPU 為 Gemini 2.0 的訓(xùn)練和推理提供 100% 算力支持。”谷歌第六代TPU Trillium發(fā)布于今年5月份的Google I/O大會上。

而現(xiàn)在，谷歌宣布第六代 TPU Trillium正式面向客戶開放。

相比于上一代，第六代Trillium訓(xùn)練成績提高4倍以上，推理吞吐量提高3倍，能源效率提高67%，每個芯片的峰值計算性能提高了4.7倍，HBM （High Bandwidth Memory）容量翻倍，ICI （Interchip Interconnect）帶寬增加一倍。

谷歌Cloud計算與人工智能基礎(chǔ)設(shè)施副總裁Mark Lohmeyer在官方資料里指出，這些增強功能使Trillium能夠在廣泛的人工智能工作負載中脫穎而出，包括：擴展AI訓(xùn)練工作量、培訓(xùn)法學(xué)碩士包括密集和混合專家（MoE）模型、推理性能和集合調(diào)度、Embedding-intensive模型、提供培訓(xùn)和推理性價比等。

谷歌第六代 TPU Trillium

結(jié)合這次整場發(fā)布可以看出，谷歌正在努力平衡AI的加度和深度思考能力，希望找到一個既能快速響應(yīng)、又能進行深度推理的平衡點，目標是將這些先進技術(shù)以最實用的方式帶給用戶和產(chǎn)業(yè)。這個過程雖然充滿挑戰(zhàn)，但也充滿希望。

就像桑達爾·皮查伊在寄語里寫道：“信息是人類進步的基石。26 年來，我們始終專注于我們的使命——整合全球信息，供大眾使用，讓人人受益。這也是我們持續(xù)拓展人工智能前沿領(lǐng)域的原因。我們整合來自世界各地的信息，并通過多樣化的輸出方式，讓這些信息觸手可及，真正為你所用。”

Gemini 2.0谷歌GoogleAIAI智能體AI代理OpenAI

分享至

2贊

好文章，需要你的鼓勵

周雅

Miranda

關(guān)注科技創(chuàng)新、技術(shù)投資。以文會友，左手硬核科技，右手浪漫主義。

推薦文章

音頻生成
大語言模型
多模態(tài)AI

2025-09-10 09:47

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

騰訊ARC實驗室推出AudioStory系統(tǒng)，首次實現(xiàn)AI根據(jù)復(fù)雜指令創(chuàng)作完整長篇音頻故事。該系統(tǒng)結(jié)合大語言模型的敘事推理能力與音頻生成技術(shù)，通過交錯式推理生成、解耦橋接機制和漸進式訓(xùn)練，能夠?qū)?fù)雜指令分解為連續(xù)音頻場景并保持整體連貫性。在AudioStory-10K基準測試中表現(xiàn)優(yōu)異，為AI音頻創(chuàng)作開辟新方向。
視頻生成
深度學(xué)習
多模態(tài)學(xué)習

2025-09-09 13:57

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)合研發(fā)的VideoJAM技術(shù)，通過讓AI同時學(xué)習外觀和運動信息，顯著解決了當前視頻生成模型中動作不連貫、違反物理定律的核心問題。該技術(shù)僅需添加兩個線性層就能大幅提升運動質(zhì)量，在多項測試中超越包括Sora在內(nèi)的商業(yè)模型，為AI視頻生成的實用化應(yīng)用奠定了重要基礎(chǔ)。
多模態(tài)AI
人類價值觀對齊
數(shù)據(jù)集構(gòu)建

2025-09-09 13:56

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室發(fā)布OmniAlign-V研究，首次系統(tǒng)性解決多模態(tài)大語言模型人性化對話問題。該研究創(chuàng)建了包含20萬高質(zhì)量樣本的訓(xùn)練數(shù)據(jù)集和MM-AlignBench評測基準，通過創(chuàng)新的數(shù)據(jù)生成和質(zhì)量管控方法，讓AI在保持技術(shù)能力的同時顯著提升人性化交互水平，為AI價值觀對齊提供了可行技術(shù)路徑。
人工智能
圖神經(jīng)網(wǎng)絡(luò)
天氣預(yù)報

2025-09-09 10:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌DeepMind團隊開發(fā)的GraphCast是一個革命性的AI天氣預(yù)測模型，能夠在不到一分鐘內(nèi)完成10天全球天氣預(yù)報，準確性超越傳統(tǒng)方法90%的指標。該模型采用圖神經(jīng)網(wǎng)絡(luò)技術(shù)，通過學(xué)習40年歷史數(shù)據(jù)掌握天氣變化規(guī)律，在極端天氣預(yù)測方面表現(xiàn)卓越，能耗僅為傳統(tǒng)方法的千分之一，為氣象學(xué)領(lǐng)域帶來了效率和精度的雙重突破。

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

如何讓AI像電影配樂師一樣創(chuàng)作完整的長篇音頻故事——騰訊ARC實驗室團隊AudioStory突破性進展

2025-09-10 09:47

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

Meta與特拉維夫大學(xué)聯(lián)手打造VideoJAM：讓AI生成的視頻動起來不再是奢望

2025-09-09 13:57

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

上海AI實驗室重磅發(fā)布：讓AI看圖"說人話"的神奇訓(xùn)練法，解決多模態(tài)AI與人類價值觀對齊難題

2025-09-09 13:56

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

谷歌研究團隊發(fā)布超級預(yù)測模型：讓AI像天氣預(yù)報員一樣預(yù)測全球大氣變化

2025-09-09 10:56

周雅

主編

關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友，左手硬核科技，右手浪漫主義。
最近文章：
- 釘釘十年，無招終于等來了AI這把“錘子”
- 對話谷歌副總裁Karen Teo：“短劇”“AI應(yīng)用”現(xiàn)象級出海，我們看到中國開發(fā)者的三種內(nèi)核

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報電話：010-62641205　涉未成年人舉報專線：010-62641208 舉報郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報專區(qū)：https://www.12377.cn