av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

微信掃一掃,關(guān)注公眾號

  • 科技行者

  • 算力行者

見證連接與計(jì)算的「力量」

首頁 有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

2024-05-15 23:26
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2024-05-15 23:26 ? 周雅

作者|周雅

有AI的地方,就是一個(gè)江湖。

還是那個(gè)圓形劇場(Shoreline Amphitheatre),五月的氣候嗖嗖灌著穿堂風(fēng),但現(xiàn)場氣氛絲毫未受到影響。

反倒是因?yàn)樵?4小時(shí)之前,OpenAI帶著GPT-4o來了場截胡式官宣,把谷歌的這場I/O架在一個(gè)非常尷尬的位置,此刻大家似乎都在等著看谷歌“閣下又該如何應(yīng)對”。

于是谷歌用了整場兩小時(shí)的時(shí)間,來了場特種兵式的發(fā)布,一次性回應(yīng)所有的聲音。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

如果用一個(gè)詞形容今年的I/O,那一定是「全」,你能想到的幾乎所有AI場景,谷歌這次都有涉及到:

從基礎(chǔ)模型Gemini的性能增強(qiáng)(包括輕量級模型Gemini 1.5 Flash、200萬tokens超長上下文的Gemini 1.5 Pro);到開源模型Gemma的進(jìn)展(劇透下一代開源模型Gemma 2);到支持超過1分鐘、1080P的視頻生成模型Veo;與ChatGPT-4o一樣“長了眼和嘴”的擁有視覺語音交互功能的Gemini Live;還有文生圖模型imagen 3;AI音樂創(chuàng)作工具M(jìn)usic AI Sandbox;以及向其他AI Agent貼臉開大的Project Astra。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

這么全,又這么多首發(fā),很難不讓人猜想,谷歌難道一直在憋大招?

留意到此前Madrona Venture Group合伙人、Amazon Web Services前人工智能高管Jon Turow說,谷歌這次的發(fā)布時(shí)間表較慢是可以理解的,因?yàn)楣雀?"比其他公司(如OpenAI)承擔(dān)更大的責(zé)任",谷歌是在自家有著數(shù)十億用戶的現(xiàn)有業(yè)務(wù)上做文章,不是從零開始,所以更慎重。“當(dāng)一個(gè)產(chǎn)品達(dá)到其他公司(如OpenAI)可以發(fā)布的標(biāo)準(zhǔn)時(shí),谷歌也不能草率地發(fā)布。"

總之,“AI全家桶”這個(gè)名號,谷歌這次實(shí)至名歸。

Gemini的完全形態(tài):多模態(tài)、長上下文、AI Agent

當(dāng)谷歌CEO桑達(dá)爾·皮查伊上臺,好戲正式開始。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)

“Gemini”“Gemini”“Gemini”這恐怕是整場出現(xiàn)頻率最高的詞,作為谷歌目前最核心的基礎(chǔ)模型,Gemini盡顯谷歌在AI時(shí)代的野心。

1年前,Gemini問世時(shí)谷歌對它定位就很明確:多模態(tài)模型。在那之后,Gemini就朝著該定位,開始火速迭代。去年12月,谷歌推出Gemini 1.0,共有三個(gè)版本:Ultra、Pro 和 Nano。兩個(gè)月后,谷歌又推出Gemini 1.5 Pro,有了更強(qiáng)的性能、100萬token的長上下文。

“谷歌正式邁向Gemini時(shí)代(Google is fully in Gemini era)”,皮查伊直奔主題說:

目前有超過150萬開發(fā)者在工具中使用Gemini,有20億用戶產(chǎn)品在使用Gemini,而谷歌推出安卓和iOS上可用的Gemini Advanced在發(fā)布三個(gè)月后就已經(jīng)收獲超過100萬用戶。

此外,Gemini 1.5 Pro還從原本的100萬token升級到200萬token,這意味著能處理1500頁P(yáng)DF、3萬行代碼、或1小時(shí)視頻文件,即日起Gemini 1.5 Pro將通過Gemini Advanced向全球150多個(gè)國家的用戶正式推送,且支持35種語言。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

Gemini 1.5的 200 萬token能力橫評對比

而在現(xiàn)場,Gemini又有更新:谷歌發(fā)布針對端側(cè)的模型Gemini 1.5 flash,同樣有100萬和200萬token版本。相比此前的Gemini 1.5 Pro,該模型的特點(diǎn)是輕量級:更快速高效、多通道推理、長上下文。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

價(jià)格方面,Gemini 1.5 Pro為7美元/100萬tokens,對于128k以下的輸入,將降價(jià)50%至3.5美元/100萬tokens,比 OpenAI 的 GPT-4o 便宜約 30%;Gemini 1.5 Flash的價(jià)格為0.35美元/100萬tokens,比OpenAI的任何大模型都便宜。

除了Gemini本身的更新之外,更重要的是,谷歌把Gemini植入到所有產(chǎn)品中,包括搜索、地圖、照片、Workspace、安卓等等。

· 搜索大不同

作為搜索巨頭,要想讓Gemini成長,谷歌自然不會放過搜索這個(gè)現(xiàn)成的數(shù)據(jù)庫,所以,你現(xiàn)在在谷歌的每一次搜索,背后都有Gemini在工作。這個(gè)功能被稱為「AI Overview(AI概述)」,是指AI會根據(jù)你的搜索,給出最佳答案,提升搜索體驗(yàn)。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

相比傳統(tǒng)的搜索引擎,AI Overviews功能將為用戶呈現(xiàn)出包括觀點(diǎn)、見解、鏈接的完整答案。谷歌強(qiáng)調(diào)其三大獨(dú)特優(yōu)勢:實(shí)時(shí)信息、排名和質(zhì)量體系、Gemini能力。谷歌引入多步推理功能(Multi-step reasoning),把大問題一步步分解,并按優(yōu)先順序提供。

例如,用戶想找一個(gè)合適的普拉提工作室,需要考慮時(shí)間、價(jià)格、距離等因素,就可以在谷歌搜索輸入:“在波士頓找到最好的瑜伽工作室,并顯示優(yōu)惠詳情,以及從我家過去的步行時(shí)間”。最終,谷歌搜索將提煉整合出信息,并呈現(xiàn)在AI Overviews中,為用戶節(jié)省時(shí)間。

· 今夏上線的Ask Photos

當(dāng)然,不僅谷歌搜索有Gemini,照片搜索中也有Gemini。皮查伊現(xiàn)場演示了Gemini在Google Photos(谷歌相冊)里如何整活兒,比如你在停車場給車拍了照之后,找不到車停哪兒時(shí),可以直接問 Gemini “我的車在哪”,它就能幫你自動識別相關(guān)照片中的信息,告訴你車的具體位置。

這個(gè)功能被稱為「Ask Photos」,將于今年夏天正式發(fā)布。

而正是因?yàn)镚emini的多模態(tài)和“長”上下文,Ask Photos不僅能搜索照片,甚至能理解搜出來的內(nèi)容。比如,你在回憶女兒Lucia的高光時(shí)刻,可以直接問Gemini:“Lucia是啥時(shí)候?qū)W會游泳的?”甚至問更復(fù)雜的問題:“Lucia的游泳進(jìn)步了奪少?”

在這背后,Gemini可以根據(jù)“Lucia在游泳池里游泳,到在海洋里浮潛,再到游泳證書上的文字和日期”一系列內(nèi)容,最后告訴你答案。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

這一切,都是因?yàn)镚emini的兩大能力——多模態(tài)+長上下文。“多模態(tài)可以解鎖更多知識,并輸出更多答案。而長上下文就能輸入更多信息:數(shù)百頁的文本,數(shù)小時(shí)的音頻,1小時(shí)的視頻,完整的代碼庫……甚至,如果你愿意,引入96個(gè)Cheesecake Factory菜單(編者注:美國的芝樂坊餐廳)也不是不可以。”皮查伊開玩笑說。

  • 更智能的辦公套件

有了上述倆特長,Gemini也被植入到谷歌的辦公套件中。包括在Google Meet中生成會議紀(jì)要,在Gmail的所有郵件中提取關(guān)鍵信息,自動整理郵件中的表格,甚至生成一張數(shù)據(jù)分析表格。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)


當(dāng)然,僅僅是多模態(tài)+長上下文還不夠,谷歌為Gemini注入了最后一股力量:AI Agent(AI智能體)。

皮查伊舉了一個(gè)“網(wǎng)購”的例子。買鞋是件很有趣的事,但是當(dāng)鞋子不合腳的時(shí)候,退貨就沒那么有趣了。而因?yàn)橛辛薃I智能體,Gemini可以替你完成所有的退貨步驟:在收件箱里搜索收據(jù)-從購買記錄里找訂單號-填退貨單-安排快遞上門取貨,一氣呵成。

至此,Gemini的終極形態(tài)初現(xiàn)——多模態(tài)、長上下文、AI Agent。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

Project Astra扛大旗:看似Agent,實(shí)則通向AGI

第二位上場的嘉賓,作為AI界大神級的人物,Google DeepMind創(chuàng)始人Demis Hassabis首次出現(xiàn)在I/O的舞臺上,收獲了臺下陣陣掌聲。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

Google DeepMind創(chuàng)始人Demis Hassabis

自從被谷歌收購之后,DeepMind早已成為谷歌的左膀右臂。去年,Google DeepMind實(shí)驗(yàn)室成立,將兩家公司的AI人才整合,也收獲了不少成績,比如上周問世的用于預(yù)測幾乎所有生物分子結(jié)構(gòu)和相互作用的AlphaFold 3就是其中之一。

與現(xiàn)場高漲氣氛相呼應(yīng)的,Demis Hassabis的發(fā)布也相當(dāng)轟動,其中就包括一個(gè)AI Agent(AI智能體)新項(xiàng)目——Project Astra。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

從現(xiàn)場的演示視頻來看,其中的一幕是,演示者拿著手機(jī),讓AI實(shí)時(shí)收集周邊環(huán)境信息,然后在辦公室轉(zhuǎn)了一圈突然問:“你記得我的眼鏡在哪里嗎?”只見它立刻回答:“記得,在桌子上的紅蘋果旁邊。”

要知道,在實(shí)際場景中,哪怕兩個(gè)人類對話,也可能會忽略這些細(xì)節(jié),但演示中的AI卻精準(zhǔn)捕捉到了眼鏡的位置。這種強(qiáng)大的通用語言與環(huán)境理解能力,瞬間讓現(xiàn)場響起雷鳴掌聲。

Hassabis特別提到,這些演示并非“僅供參考”的演示效果,都是在一次性拍攝中實(shí)時(shí)捕捉。他坦言,其中最受挑戰(zhàn)的是“將響應(yīng)時(shí)間縮短為對話式的內(nèi)容”,為此,DeepMind在Gemini的基礎(chǔ)上開發(fā)了原型Agent,通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時(shí)間線中并緩存,以確保能快速有效調(diào)用,從而更快地處理信息。

“過去幾年里,我們一直在改進(jìn)模型的感知、推理和對話方式,使交互的速度和質(zhì)量更自然。”Hassabis說,有了Astra項(xiàng)目,大家未來可以在手機(jī)或眼鏡上擁有專業(yè)的AI助手。

伴隨著Astra的發(fā)布,Hassabis也強(qiáng)調(diào)了他們的最終目的——AGI。“計(jì)算機(jī)能像人一樣思考,這件事從小就讓我著迷,這也是我研究神經(jīng)科學(xué)的原因,2010年我創(chuàng)辦DeepMind時(shí),終極目標(biāo)就是AGI,我相信如果負(fù)責(zé)任地開發(fā)這項(xiàng)技術(shù),它對人類的影響將會是無比深遠(yuǎn)的。”

當(dāng)然,除了對AGI的探索之外,谷歌還介紹了在多模態(tài)領(lǐng)域的新進(jìn)展,從圖像、到音頻、到視頻這三個(gè)主要內(nèi)容源全面出擊:包括能夠生成超過1分鐘、1080P 的視頻生成模型Voe、文生圖模型Imagen 3、以及面向?qū)I(yè)音樂創(chuàng)作者的AI音樂創(chuàng)作工具 Music AI Sandbox。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

由谷歌的文生圖模型Imagen 3生成

從Voe的演示視頻來看,它能理解很多電影術(shù)語,如“延時(shí)”“景觀航拍”“時(shí)光倒流(Timelapse)”。谷歌指出,Veo 建立在多年的生成視頻模型的基礎(chǔ)上,包括生成查詢網(wǎng)絡(luò)(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere,以及Transformer 架構(gòu)和Gemini。未來,谷歌還將把Veo的一些功能引入YouTube Shorts和其他產(chǎn)品。

而在AI音樂創(chuàng)作方面,谷歌通過Music AI Sandbox跟音樂家合作,音樂家可以把一段哼唱或彈奏的靈感片段發(fā)給AI,AI生成一首歌或旋律。

有“軟”也有“硬”

作為專門面向開發(fā)者的I/O,除了軟件的密集發(fā)布之外,硬件的同步更新也一直是I/O的保留項(xiàng)目。

這次,谷歌發(fā)布了第六代 TPU 硬件Trilium,計(jì)算能力相比前代提升 4.7 倍,預(yù)計(jì)將在 2024 年底面向用戶推出,谷歌這次發(fā)布的Veo、Imagen 3、Gemini 1.5 Pro 等幾乎所有產(chǎn)品,都是基于這款新硬件。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

十多年前,谷歌就意識到,需要一款用于機(jī)器學(xué)習(xí)的芯片。2013年,谷歌開始開發(fā)世界上第一款專用AI加速器TPU v1,隨后在2017年推出了第一個(gè)云TPU。如果沒有TPU,谷歌大量的服務(wù)(如實(shí)時(shí)語音搜索、照片對象識別、交互式語言翻譯),以及最先進(jìn)的基礎(chǔ)模型(如Gemini、Imagen和Gemma)將不可能實(shí)現(xiàn)。

當(dāng)然,除了硬件,安卓系統(tǒng)也不能忽略,尤其是 Gemini 的融入,是否會讓安卓系統(tǒng)煥然一新?

這次 Gemini 在 Android 上的最新進(jìn)展是——Gemini Live,主打一個(gè)用文本、語音或影像等多模態(tài)的交互體驗(yàn),在實(shí)際對話過程中,你甚至可以像與真人對話一樣,通過打斷對話、提出新問題的方式來更高效的溝通。并且,谷歌透露,基于 Project Astra 實(shí)現(xiàn)的攝像視頻識別功能也將在今年年內(nèi)發(fā)布,所以用戶可以打開攝像頭,讓AI看見周圍的世界并做出實(shí)時(shí)響應(yīng)。

在演講接近尾聲時(shí),皮查伊提到此前I/O玩過的一個(gè)舊梗:“今天肯定有人數(shù),我說了多少次AI?”。

“不用數(shù)了,因?yàn)镚emini數(shù)完了。”他接著說。

然后大屏幕顯示120次。

有AI的搜索、會規(guī)劃的Agent、更長的上下文,全靠多模態(tài)Gemini|Google I/O現(xiàn)場全紀(jì)實(shí)

“我竟然說了這么多次AI。”皮查伊笑道。

在皮查伊說出這句話的同時(shí),屏幕上的數(shù)字變成了 121。

現(xiàn)場笑聲一片。

整場圍觀下來,此次I/O密集的發(fā)布,與其被網(wǎng)傳的說是競爭壓力下的緊迫感,不如看成是面向AI變革下的一種隨時(shí)準(zhǔn)備好的從容。

在這場活動結(jié)束的數(shù)小時(shí)后,谷歌玩了個(gè)“AI點(diǎn)評AI”:

谷歌用剛剛發(fā)布的Astra,解說此前OpenAI發(fā)布會上現(xiàn)場演示的ChatGPT-4o。(也就是用谷歌的AI去評判OpenAI的AI)

從視頻來看,效果拉滿。Astra站在上帝視角,作為觀察者,準(zhǔn)確解讀了被觀察者ChatGPT-4o的動作,預(yù)判后者行動。

最有意思的來了,當(dāng)01分02秒時(shí),Astra提前解出方程,然后說,“讓我們看ChatGPT-4o能不能算出來”(帶著傲嬌氣),不過,接下來在02分20秒時(shí),Astra又開啟了夸夸模式,把氣氛拉了回來。

看完之后,一句話出現(xiàn)在我的腦海里:

“人類總是互相競爭,但AIs help AIs?”

分享至
1贊

好文章,需要你的鼓勵(lì)

周雅

Miranda
關(guān)注科技創(chuàng)新、技術(shù)投資。以文會友,左手硬核科技,右手浪漫主義。
推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-