av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<cite id="q1pgl"><rp id="q1pgl"></rp></cite>

微信掃一掃，關(guān)注公眾號

科技行者
算力行者

見證連接與計(jì)算的「力量」

有AI的搜索、會規(guī)劃的Agent、更長的上下文，全靠多模態(tài)Gemini｜Google I/O現(xiàn)場全紀(jì)實(shí)

谷歌Google I/O 2024GeminiAI大模型

有AI的搜索、會規(guī)劃的Agent、更長的上下文，全靠多模態(tài)Gemini｜Google I/O現(xiàn)場全紀(jì)實(shí)

作者：周雅

2024-05-15 23:26

分享至：

有AI的地方，就是一個(gè)江湖。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2024-05-15 23:26 ? 周雅

作者｜周雅

有AI的地方，就是一個(gè)江湖。

還是那個(gè)圓形劇場(Shoreline Amphitheatre)，五月的氣候嗖嗖灌著穿堂風(fēng)，但現(xiàn)場氣氛絲毫未受到影響。

反倒是因?yàn)樵?4小時(shí)之前，OpenAI帶著GPT-4o來了場截胡式官宣，把谷歌的這場I/O架在一個(gè)非常尷尬的位置，此刻大家似乎都在等著看谷歌“閣下又該如何應(yīng)對”。

于是谷歌用了整場兩小時(shí)的時(shí)間，來了場特種兵式的發(fā)布，一次性回應(yīng)所有的聲音。

如果用一個(gè)詞形容今年的I/O，那一定是「全」，你能想到的幾乎所有AI場景，谷歌這次都有涉及到：

從基礎(chǔ)模型Gemini的性能增強(qiáng)（包括輕量級模型Gemini 1.5 Flash、200萬tokens超長上下文的Gemini 1.5 Pro）；到開源模型Gemma的進(jìn)展（劇透下一代開源模型Gemma 2）；到支持超過1分鐘、1080P的視頻生成模型Veo；與ChatGPT-4o一樣“長了眼和嘴”的擁有視覺語音交互功能的Gemini Live；還有文生圖模型imagen 3；AI音樂創(chuàng)作工具M(jìn)usic AI Sandbox；以及向其他AI Agent貼臉開大的Project Astra。

這么全，又這么多首發(fā)，很難不讓人猜想，谷歌難道一直在憋大招？

留意到此前Madrona Venture Group合伙人、Amazon Web Services前人工智能高管Jon Turow說，谷歌這次的發(fā)布時(shí)間表較慢是可以理解的，因?yàn)楣雀?"比其他公司(如OpenAI)承擔(dān)更大的責(zé)任"，谷歌是在自家有著數(shù)十億用戶的現(xiàn)有業(yè)務(wù)上做文章，不是從零開始，所以更慎重。“當(dāng)一個(gè)產(chǎn)品達(dá)到其他公司(如OpenAI)可以發(fā)布的標(biāo)準(zhǔn)時(shí)，谷歌也不能草率地發(fā)布。"

總之，“AI全家桶”這個(gè)名號，谷歌這次實(shí)至名歸。

Gemini的完全形態(tài)：多模態(tài)、長上下文、AI Agent

當(dāng)谷歌CEO桑達(dá)爾·皮查伊上臺，好戲正式開始。

谷歌CEO桑達(dá)爾·皮查伊（Sundar Pichai）

“Gemini”“Gemini”“Gemini”這恐怕是整場出現(xiàn)頻率最高的詞，作為谷歌目前最核心的基礎(chǔ)模型，Gemini盡顯谷歌在AI時(shí)代的野心。

1年前，Gemini問世時(shí)谷歌對它定位就很明確：多模態(tài)模型。在那之后，Gemini就朝著該定位，開始火速迭代。去年12月，谷歌推出Gemini 1.0，共有三個(gè)版本：Ultra、Pro 和 Nano。兩個(gè)月后，谷歌又推出Gemini 1.5 Pro，有了更強(qiáng)的性能、100萬token的長上下文。

“谷歌正式邁向Gemini時(shí)代(Google is fully in Gemini era)”，皮查伊直奔主題說：

目前有超過150萬開發(fā)者在工具中使用Gemini，有20億用戶產(chǎn)品在使用Gemini，而谷歌推出安卓和iOS上可用的Gemini Advanced在發(fā)布三個(gè)月后就已經(jīng)收獲超過100萬用戶。

此外，Gemini 1.5 Pro還從原本的100萬token升級到200萬token，這意味著能處理1500頁P(yáng)DF、3萬行代碼、或1小時(shí)視頻文件，即日起Gemini 1.5 Pro將通過Gemini Advanced向全球150多個(gè)國家的用戶正式推送，且支持35種語言。

Gemini 1.5的 200 萬token能力橫評對比

而在現(xiàn)場，Gemini又有更新：谷歌發(fā)布針對端側(cè)的模型Gemini 1.5 flash，同樣有100萬和200萬token版本。相比此前的Gemini 1.5 Pro，該模型的特點(diǎn)是輕量級：更快速高效、多通道推理、長上下文。

價(jià)格方面，Gemini 1.5 Pro為7美元/100萬tokens，對于128k以下的輸入，將降價(jià)50%至3.5美元/100萬tokens，比 OpenAI 的 GPT-4o 便宜約 30%；Gemini 1.5 Flash的價(jià)格為0.35美元/100萬tokens，比OpenAI的任何大模型都便宜。

除了Gemini本身的更新之外，更重要的是，谷歌把Gemini植入到所有產(chǎn)品中，包括搜索、地圖、照片、Workspace、安卓等等。

· 搜索大不同

作為搜索巨頭，要想讓Gemini成長，谷歌自然不會放過搜索這個(gè)現(xiàn)成的數(shù)據(jù)庫，所以，你現(xiàn)在在谷歌的每一次搜索，背后都有Gemini在工作。這個(gè)功能被稱為「AI Overview（AI概述）」，是指AI會根據(jù)你的搜索，給出最佳答案，提升搜索體驗(yàn)。

相比傳統(tǒng)的搜索引擎，AI Overviews功能將為用戶呈現(xiàn)出包括觀點(diǎn)、見解、鏈接的完整答案。谷歌強(qiáng)調(diào)其三大獨(dú)特優(yōu)勢：實(shí)時(shí)信息、排名和質(zhì)量體系、Gemini能力。谷歌引入多步推理功能(Multi-step reasoning)，把大問題一步步分解，并按優(yōu)先順序提供。

例如，用戶想找一個(gè)合適的普拉提工作室，需要考慮時(shí)間、價(jià)格、距離等因素，就可以在谷歌搜索輸入：“在波士頓找到最好的瑜伽工作室，并顯示優(yōu)惠詳情，以及從我家過去的步行時(shí)間”。最終，谷歌搜索將提煉整合出信息，并呈現(xiàn)在AI Overviews中，為用戶節(jié)省時(shí)間。

· 今夏上線的Ask Photos

當(dāng)然，不僅谷歌搜索有Gemini，照片搜索中也有Gemini。皮查伊現(xiàn)場演示了Gemini在Google Photos（谷歌相冊）里如何整活兒，比如你在停車場給車拍了照之后，找不到車停哪兒時(shí)，可以直接問 Gemini “我的車在哪”，它就能幫你自動識別相關(guān)照片中的信息，告訴你車的具體位置。

這個(gè)功能被稱為「Ask Photos」，將于今年夏天正式發(fā)布。

而正是因?yàn)镚emini的多模態(tài)和“長”上下文，Ask Photos不僅能搜索照片，甚至能理解搜出來的內(nèi)容。比如，你在回憶女兒Lucia的高光時(shí)刻，可以直接問Gemini：“Lucia是啥時(shí)候?qū)W會游泳的？”甚至問更復(fù)雜的問題：“Lucia的游泳進(jìn)步了奪少？”

在這背后，Gemini可以根據(jù)“Lucia在游泳池里游泳，到在海洋里浮潛，再到游泳證書上的文字和日期”一系列內(nèi)容，最后告訴你答案。

這一切，都是因?yàn)镚emini的兩大能力——多模態(tài)+長上下文。“多模態(tài)可以解鎖更多知識，并輸出更多答案。而長上下文就能輸入更多信息：數(shù)百頁的文本，數(shù)小時(shí)的音頻，1小時(shí)的視頻，完整的代碼庫……甚至，如果你愿意，引入96個(gè)Cheesecake Factory菜單（編者注：美國的芝樂坊餐廳）也不是不可以。”皮查伊開玩笑說。

更智能的辦公套件

有了上述倆特長，Gemini也被植入到谷歌的辦公套件中。包括在Google Meet中生成會議紀(jì)要，在Gmail的所有郵件中提取關(guān)鍵信息，自動整理郵件中的表格，甚至生成一張數(shù)據(jù)分析表格。

當(dāng)然，僅僅是多模態(tài)+長上下文還不夠，谷歌為Gemini注入了最后一股力量：AI Agent（AI智能體）。

皮查伊舉了一個(gè)“網(wǎng)購”的例子。買鞋是件很有趣的事，但是當(dāng)鞋子不合腳的時(shí)候，退貨就沒那么有趣了。而因?yàn)橛辛薃I智能體，Gemini可以替你完成所有的退貨步驟：在收件箱里搜索收據(jù)-從購買記錄里找訂單號-填退貨單-安排快遞上門取貨，一氣呵成。

至此，Gemini的終極形態(tài)初現(xiàn)——多模態(tài)、長上下文、AI Agent。

Project Astra扛大旗：看似Agent，實(shí)則通向AGI

第二位上場的嘉賓，作為AI界大神級的人物，Google DeepMind創(chuàng)始人Demis Hassabis首次出現(xiàn)在I/O的舞臺上，收獲了臺下陣陣掌聲。

Google DeepMind創(chuàng)始人Demis Hassabis

自從被谷歌收購之后，DeepMind早已成為谷歌的左膀右臂。去年，Google DeepMind實(shí)驗(yàn)室成立，將兩家公司的AI人才整合，也收獲了不少成績，比如上周問世的用于預(yù)測幾乎所有生物分子結(jié)構(gòu)和相互作用的AlphaFold 3就是其中之一。

與現(xiàn)場高漲氣氛相呼應(yīng)的，Demis Hassabis的發(fā)布也相當(dāng)轟動，其中就包括一個(gè)AI Agent(AI智能體)新項(xiàng)目——Project Astra。

從現(xiàn)場的演示視頻來看，其中的一幕是，演示者拿著手機(jī)，讓AI實(shí)時(shí)收集周邊環(huán)境信息，然后在辦公室轉(zhuǎn)了一圈突然問：“你記得我的眼鏡在哪里嗎？”只見它立刻回答：“記得，在桌子上的紅蘋果旁邊。”

要知道，在實(shí)際場景中，哪怕兩個(gè)人類對話，也可能會忽略這些細(xì)節(jié)，但演示中的AI卻精準(zhǔn)捕捉到了眼鏡的位置。這種強(qiáng)大的通用語言與環(huán)境理解能力，瞬間讓現(xiàn)場響起雷鳴掌聲。

Hassabis特別提到，這些演示并非“僅供參考”的演示效果，都是在一次性拍攝中實(shí)時(shí)捕捉。他坦言，其中最受挑戰(zhàn)的是“將響應(yīng)時(shí)間縮短為對話式的內(nèi)容”，為此，DeepMind在Gemini的基礎(chǔ)上開發(fā)了原型Agent，通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時(shí)間線中并緩存，以確保能快速有效調(diào)用，從而更快地處理信息。

“過去幾年里，我們一直在改進(jìn)模型的感知、推理和對話方式，使交互的速度和質(zhì)量更自然。”Hassabis說，有了Astra項(xiàng)目，大家未來可以在手機(jī)或眼鏡上擁有專業(yè)的AI助手。

伴隨著Astra的發(fā)布，Hassabis也強(qiáng)調(diào)了他們的最終目的——AGI。“計(jì)算機(jī)能像人一樣思考，這件事從小就讓我著迷，這也是我研究神經(jīng)科學(xué)的原因，2010年我創(chuàng)辦DeepMind時(shí)，終極目標(biāo)就是AGI，我相信如果負(fù)責(zé)任地開發(fā)這項(xiàng)技術(shù)，它對人類的影響將會是無比深遠(yuǎn)的。”

當(dāng)然，除了對AGI的探索之外，谷歌還介紹了在多模態(tài)領(lǐng)域的新進(jìn)展，從圖像、到音頻、到視頻這三個(gè)主要內(nèi)容源全面出擊：包括能夠生成超過1分鐘、1080P 的視頻生成模型Voe、文生圖模型Imagen 3、以及面向?qū)I(yè)音樂創(chuàng)作者的AI音樂創(chuàng)作工具 Music AI Sandbox。

由谷歌的文生圖模型Imagen 3生成

從Voe的演示視頻來看，它能理解很多電影術(shù)語，如“延時(shí)”“景觀航拍”“時(shí)光倒流(Timelapse)”。谷歌指出，Veo 建立在多年的生成視頻模型的基礎(chǔ)上，包括生成查詢網(wǎng)絡(luò)(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere，以及Transformer 架構(gòu)和Gemini。未來，谷歌還將把Veo的一些功能引入YouTube Shorts和其他產(chǎn)品。

而在AI音樂創(chuàng)作方面，谷歌通過Music AI Sandbox跟音樂家合作，音樂家可以把一段哼唱或彈奏的靈感片段發(fā)給AI，AI生成一首歌或旋律。

有“軟”也有“硬”

作為專門面向開發(fā)者的I/O，除了軟件的密集發(fā)布之外，硬件的同步更新也一直是I/O的保留項(xiàng)目。

這次，谷歌發(fā)布了第六代 TPU 硬件Trilium，計(jì)算能力相比前代提升 4.7 倍，預(yù)計(jì)將在 2024 年底面向用戶推出，谷歌這次發(fā)布的Veo、Imagen 3、Gemini 1.5 Pro 等幾乎所有產(chǎn)品，都是基于這款新硬件。

十多年前，谷歌就意識到，需要一款用于機(jī)器學(xué)習(xí)的芯片。2013年，谷歌開始開發(fā)世界上第一款專用AI加速器TPU v1，隨后在2017年推出了第一個(gè)云TPU。如果沒有TPU，谷歌大量的服務(wù)（如實(shí)時(shí)語音搜索、照片對象識別、交互式語言翻譯），以及最先進(jìn)的基礎(chǔ)模型（如Gemini、Imagen和Gemma）將不可能實(shí)現(xiàn)。

當(dāng)然，除了硬件，安卓系統(tǒng)也不能忽略，尤其是 Gemini 的融入，是否會讓安卓系統(tǒng)煥然一新？

這次 Gemini 在 Android 上的最新進(jìn)展是——Gemini Live，主打一個(gè)用文本、語音或影像等多模態(tài)的交互體驗(yàn)，在實(shí)際對話過程中，你甚至可以像與真人對話一樣，通過打斷對話、提出新問題的方式來更高效的溝通。并且，谷歌透露，基于 Project Astra 實(shí)現(xiàn)的攝像視頻識別功能也將在今年年內(nèi)發(fā)布，所以用戶可以打開攝像頭，讓AI看見周圍的世界并做出實(shí)時(shí)響應(yīng)。

在演講接近尾聲時(shí)，皮查伊提到此前I/O玩過的一個(gè)舊梗：“今天肯定有人數(shù)，我說了多少次AI？”。

“不用數(shù)了，因?yàn)镚emini數(shù)完了。”他接著說。

然后大屏幕顯示120次。

“我竟然說了這么多次AI。”皮查伊笑道。

在皮查伊說出這句話的同時(shí)，屏幕上的數(shù)字變成了 121。

現(xiàn)場笑聲一片。

整場圍觀下來，此次I/O密集的發(fā)布，與其被網(wǎng)傳的說是競爭壓力下的緊迫感，不如看成是面向AI變革下的一種隨時(shí)準(zhǔn)備好的從容。

在這場活動結(jié)束的數(shù)小時(shí)后，谷歌玩了個(gè)“AI點(diǎn)評AI”：

谷歌用剛剛發(fā)布的Astra，解說此前OpenAI發(fā)布會上現(xiàn)場演示的ChatGPT-4o。（也就是用谷歌的AI去評判OpenAI的AI）

從視頻來看，效果拉滿。Astra站在上帝視角，作為觀察者，準(zhǔn)確解讀了被觀察者ChatGPT-4o的動作，預(yù)判后者行動。

最有意思的來了，當(dāng)01分02秒時(shí)，Astra提前解出方程，然后說，“讓我們看ChatGPT-4o能不能算出來”（帶著傲嬌氣），不過，接下來在02分20秒時(shí)，Astra又開啟了夸夸模式，把氣氛拉了回來。

看完之后，一句話出現(xiàn)在我的腦海里：

“人類總是互相競爭，但AIs help AIs？”

谷歌Google I/O 2024GeminiAI大模型

分享至

1贊

好文章，需要你的鼓勵(lì)

周雅

Miranda

關(guān)注科技創(chuàng)新、技術(shù)投資。以文會友，左手硬核科技，右手浪漫主義。

推薦文章

自對弈訓(xùn)練
推理能力提升
零和游戲?qū)W習(xí)

2025-07-02 14:26

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

新加坡國立大學(xué)研究團(tuán)隊(duì)開發(fā)了SPIRAL框架，通過讓AI與自己對弈零和游戲來提升推理能力。實(shí)驗(yàn)顯示，僅訓(xùn)練AI玩簡單撲克游戲就能讓其數(shù)學(xué)推理能力提升8.6%，通用推理提升8.4%，且無需任何數(shù)學(xué)題目作為訓(xùn)練材料。研究發(fā)現(xiàn)游戲中的三種推理模式能成功轉(zhuǎn)移到數(shù)學(xué)解題中，為AI訓(xùn)練提供了新思路。
計(jì)算機(jī)視覺
圖像降噪
3D相機(jī)技術(shù)

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)團(tuán)隊(duì)開發(fā)的GIGA-ToF技術(shù)通過融合多幀圖像的"圖結(jié)構(gòu)"信息，創(chuàng)新性地解決了3D相機(jī)噪聲問題。該技術(shù)利用圖像間的不變幾何關(guān)系，結(jié)合深度學(xué)習(xí)和數(shù)學(xué)優(yōu)化方法，在合成數(shù)據(jù)集上實(shí)現(xiàn)37.9%的精度提升，并在真實(shí)設(shè)備上展現(xiàn)出色泛化能力，為機(jī)器人、AR和自動駕駛等領(lǐng)域提供更可靠的3D視覺解決方案。
人工智能
視覺語言模型
強(qiáng)化學(xué)習(xí)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

伊利諾伊大學(xué)研究團(tuán)隊(duì)通過對比實(shí)驗(yàn)發(fā)現(xiàn)，經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的視覺語言模型雖然表現(xiàn)出"頓悟時(shí)刻"現(xiàn)象，但這些自我糾錯(cuò)行為并不能實(shí)際提升推理準(zhǔn)確率。研究揭示了AI模型存在"生成-驗(yàn)證差距"，即生成答案的能力強(qiáng)于驗(yàn)證答案質(zhì)量的能力，且模型在自我驗(yàn)證時(shí)無法有效利用視覺信息，為AI多模態(tài)推理發(fā)展提供了重要啟示。
大語言模型
稀疏性訓(xùn)練
計(jì)算效率優(yōu)化

2025-07-02 14:25

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT等頂尖機(jī)構(gòu)聯(lián)合提出SparseLoRA技術(shù)，通過動態(tài)稀疏性實(shí)現(xiàn)大語言模型訓(xùn)練加速1.6倍，計(jì)算成本降低2.2倍。該方法使用SVD稀疏性估計(jì)器智能選擇重要計(jì)算部分，在保持模型性能的同時(shí)顯著提升訓(xùn)練效率，已在多個(gè)任務(wù)上驗(yàn)證有效性。

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

AI玩游戲能讓推理變聰明？新加坡國立大學(xué)發(fā)現(xiàn)自對弈訓(xùn)練的神奇效果

2025-07-02 14:26

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

同濟(jì)大學(xué)突破性研究：讓3D相機(jī)告別"噪點(diǎn)困擾"的智能降噪新技術(shù)

2025-07-02 14:26

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

AI視覺推理模型的"頓悟時(shí)刻"真的存在嗎？伊利諾伊大學(xué)研究揭示令人意外的真相

2025-07-02 14:26

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

MIT團(tuán)隊(duì)發(fā)明"智能減肥法"讓AI訓(xùn)練快1.6倍：只需要一半的算力就能教會大模型新技能

2025-07-02 14:25

周雅

主編

關(guān)注科技創(chuàng)新、技術(shù)投資。
以文會友，左手硬核科技，右手浪漫主義。
最近文章：
- 6G靈魂拷問：“更快更好”之外，我們真正要什么？｜對話InterDigital副總裁
- 在亞馬遜云科技的“風(fēng)暴眼”中，我們看到了下一場商業(yè)革命的樣子

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號京ICP備15039648號-9 京公網(wǎng)安備 11010802021500號

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn