首頁(yè) > 科技要聞 > 科技> 正文

OpenAI被狙,谷歌Gemini 2.0掀翻牌桌!最強(qiáng)智能體組團(tuán)擊斃o1

新智元 整合編輯:太平洋科技 發(fā)布于:2024-12-13 16:28

OpenAI Day 5,風(fēng)頭被谷歌再一次搶了。

12月12日,谷歌CEO劈柴、DeepMind CEO哈薩比斯、DeepMind CTO Kavukcuoglu三位大佬聯(lián)手官宣:新一代原生多模態(tài)模型Gemini 2.0 Flash正式發(fā)布!

至此,Gemini正式進(jìn)入2.0時(shí)代!

從命名來(lái)看,Gemini 2.0 Flash很可能是新系列的最小杯,但它的性能已經(jīng)超越了上一代大哥1.5 Pro,而且速度提高了一倍。

甚至,它的性能完全超越o1-preview、o1-mini,僅次于GPT-4o(2024-11-20)。

不僅如此,2.0 Flash還具有出色的多語(yǔ)言能力,并可以原生調(diào)用谷歌搜索等工具。

值得一提的是,Gemini 2.0 Flash非常擅長(zhǎng)編碼,在SWE-bench Verified基準(zhǔn)上,直接擊敗完整版o1。

當(dāng)然,除了新模型之外,谷歌還帶來(lái)了一系列基于Gemini 2.0打造的智能體創(chuàng)新:

通用AI助手Project Astra

在瀏覽器中進(jìn)行交互的智能體Project Mariner

為開(kāi)發(fā)者打造的AI代碼智能體Jules

游戲輔助智能體

機(jī)器人智能體

而這僅僅是一個(gè)開(kāi)始。

對(duì)于AI智能體來(lái)說(shuō),2025年將是關(guān)鍵之年,而谷歌將憑借著Gemini 2.0支撐起自己的智能體工作流。

Gemini 2.0,迄今最強(qiáng)大的AI模型

Gemini 1.0和1.5,是第一批原生多模態(tài)模型。

NotebookLM就是很好的例子,說(shuō)明了多模態(tài)和長(zhǎng)上下文可以為人們帶來(lái)什么。

今天,谷歌專為新智能體時(shí)代打造的下一代模型——Gemini 2.0,重磅登場(chǎng)了。

這個(gè)迄今最強(qiáng)大的模型,能使我們構(gòu)建更接近通用助手的全新AI智能體。

下一步,谷歌會(huì)將Gemini 2.0的高級(jí)推理功能引入AI Overviews,解決更復(fù)雜的主題和多步驟問(wèn)題,包括高級(jí)數(shù)學(xué)方程、多模態(tài)查詢和編碼。

Gemini 2.0的進(jìn)步,得益于谷歌對(duì)全棧式AI創(chuàng)新長(zhǎng)達(dá)十年的投資。它基于定制硬件構(gòu)建,比如第六代 TPU Trillium。TPU為Gemini 2.0的訓(xùn)練和推理,提供了100%的支持。

Gemini 2.0支持全新的多模態(tài)AI智能體,它們能看到、聽(tīng)到你周圍的世界,還能思考、計(jì)劃、記住、采取行動(dòng)。

Gemini 2.0 Flash,原生多模態(tài)

今天,谷歌發(fā)布了Gemini 2.0系列模型中的第一個(gè)——Gemini 2.0 Flash的實(shí)驗(yàn)版本。

基于谷歌迄今最受開(kāi)發(fā)者歡迎的1.5 Flash,Gemini 2.0 Flash在保持同樣快速響應(yīng)時(shí)間的同時(shí),提供了更強(qiáng)勁的性能表現(xiàn)。

值得注意的是,2.0 Flash在關(guān)鍵基準(zhǔn)測(cè)試上不僅超越了1.5 Pro的表現(xiàn),而且速度提高了一倍。

除了支持圖像、視頻和音頻等多模態(tài)輸入外,2.0 Flash還支持多模態(tài)輸出,包括原生生成的圖文混合內(nèi)容和可調(diào)控的多語(yǔ)言文本轉(zhuǎn)語(yǔ)音(Text-to-Speech,TTS)功能,并且可以原生調(diào)用多種工具,如谷歌搜索、代碼執(zhí)行以及第三方用戶自定義函數(shù)等。

在各項(xiàng)基準(zhǔn)測(cè)試中,相較于前一代1.5 Pro和1.5 Flash,最新2.0 Flash實(shí)現(xiàn)了全面的提升,尤其是代碼、數(shù)學(xué)、推理能力方面。

不過(guò),在長(zhǎng)上下文、音頻方面,2.0 Flash性能非常有限。

目前,Gemini 2.0 Flash Experimental在Google AI Studio和Vertex AI平臺(tái)上,通過(guò)Gemini API正式向開(kāi)發(fā)者開(kāi)放。多模態(tài)輸入和文本輸出功能,均可使用。

不過(guò),文本轉(zhuǎn)語(yǔ)音、原生圖像生成功能,現(xiàn)僅向首批合作伙伴開(kāi)放。

為支持開(kāi)發(fā)者構(gòu)建動(dòng)態(tài)交互式應(yīng)用,谷歌還同步推出了新的多模態(tài)實(shí)時(shí)API,支持實(shí)時(shí)音頻、視頻流輸入,并能夠集成調(diào)用多種工具組合。

對(duì)于普通用戶來(lái)說(shuō),即日就可直接用上2.0 Flash Experimental(網(wǎng)頁(yè)端),移動(dòng)端很快就會(huì)上線。

另外,正式版模型將于2025年1月份推出,同時(shí)將提供更多模型規(guī)模選擇。

開(kāi)啟智能體新紀(jì)元

Gemini 2.0 Flash的面世,標(biāo)志著AI交互再次進(jìn)入了全新的階段。

最令人興奮的是,2.0 Flash具備了原生的用戶交互界面的能力。

同時(shí),它還在多模態(tài)推理、長(zhǎng)文本理解、復(fù)雜指令執(zhí)行與規(guī)劃組合式函數(shù)調(diào)用、原生工具調(diào)用以及更低的延遲,取得多項(xiàng)技術(shù)突破。

這意味著,用戶可以獲得更加流暢、更直觀的AI交互體智能體體驗(yàn)。

AI智能體的實(shí)際應(yīng)用,是一個(gè)充滿無(wú)限可能的研究領(lǐng)域。

谷歌正通過(guò)不斷原型創(chuàng)新,打造出原生用戶界面新體驗(yàn):

「Project Astra」——探索通用AI助手的未來(lái)

「Project Mariner」——從瀏覽器入手,探索人類與智能體交互的未來(lái)方向

「Jules」——專為開(kāi)發(fā)者打造的AI代碼智能體

Project Astra:讓多模態(tài)AI走入現(xiàn)實(shí)生活

今年I/O大會(huì)上,谷歌大殺器Project Astra首次亮相,在視覺(jué)識(shí)別和語(yǔ)音交互上,與GPT-4o幾乎不相上下。

這一次,得到Gemini 2.0加持后,Project Astra能力也在以下四大方面得到改進(jìn):

- 更強(qiáng)的對(duì)話能力

Project Astra現(xiàn)在不僅能夠使用多種語(yǔ)言進(jìn)行對(duì)話,還支持混合語(yǔ)言交談,同時(shí)對(duì)口音和生僻詞的理解也更加出色。

- 擴(kuò)展的工具集成

通過(guò)Gemini 2.0,Project Astra可以調(diào)用谷歌搜索、Lens和地圖功能,讓其作為日常生活助手變得更加實(shí)用。

- 增強(qiáng)的記憶能力

Project Astra現(xiàn)在可以保持長(zhǎng)達(dá)10分鐘的對(duì)話記憶,并能記住更多用戶之前的對(duì)話內(nèi)容,從而提供更加個(gè)性化的服務(wù)。

- 優(yōu)化的響應(yīng)速度

借助新的流式處理能力和原生音頻理解技術(shù),Project Astra現(xiàn)在可以以近乎人類對(duì)話的速度來(lái)理解語(yǔ)言。

此外,谷歌還計(jì)劃將些功能引入Gemini應(yīng)用等產(chǎn)品,并進(jìn)一步擴(kuò)展到智能眼鏡等其他設(shè)備形式。

在演示視頻中,研究小哥用裝載了Project Astra的測(cè)試版Pixel手機(jī)和智能眼鏡向我們展示了Astra的多模態(tài)能力。

首先,小哥在手機(jī)里打開(kāi)了一封包含公寓信息的郵件,讓Astra幫他識(shí)別并記住門禁碼。

Astra直接讀屏獲取密碼,告訴了他該如何操作開(kāi)門,并記住了這個(gè)密碼。

在視頻的結(jié)尾,研究小哥在倫敦逛了一大圈回來(lái),戴著智能眼鏡向Astra詢問(wèn)門禁碼,Astra準(zhǔn)確地回答了出來(lái)。

小哥讓Astra讀取衣服上的洗滌標(biāo)簽,Astra馬上給出洗衣建議。

接著他又將手機(jī)鏡頭轉(zhuǎn)向洗衣機(jī),詢問(wèn)Astra該如何操作洗衣機(jī),Astra很快地提供了指導(dǎo)。

研究小哥準(zhǔn)備出門,于是拿了一份地點(diǎn)清單,請(qǐng)Astra介紹了幾個(gè)地方。

路過(guò)面包店看到司康(scone),小哥順口問(wèn)了下「scone」發(fā)音的問(wèn)題。

隨便指了個(gè)街邊的雕塑,Astra就能講出它的來(lái)歷。

小哥看到倫敦街頭的山羊絨,詢問(wèn)Astra它適不適合帶回家種。

要知道,小哥在提問(wèn)的時(shí)候并沒(méi)有告訴Astra他的家在紐約,但Astra記得之前的對(duì)話,流暢回答。這體現(xiàn)出Astra的跨會(huì)話記憶能力。

研究小哥還測(cè)試了一下Astra給朋友挑禮物的能力。他在手機(jī)里瀏覽了一遍朋友的書單,讓Astra讀屏識(shí)別,并總結(jié)出這個(gè)朋友的閱讀品味。

然后小哥挑了幾本書,讓Astra從中挑選最適合的一本。

小哥將手機(jī)攝像頭對(duì)著路邊的一輛公交車,詢問(wèn)Astra它是否會(huì)路過(guò)唐人街。

對(duì)于沿途會(huì)路過(guò)的地標(biāo),Astra也能迅速提供相關(guān)信息。

Astra的多語(yǔ)言能力也不容小覷,不僅英語(yǔ)溜,還能用法語(yǔ)和泰米爾語(yǔ)聊天。

除了能在手機(jī)上使用Astra,Astra還能搭載在智能眼鏡上。

視頻中,研究小哥戴著搭載Astra的智能眼鏡上街了,上來(lái)就問(wèn)了一句倫敦的天氣,Astra對(duì)答如流。

騎行時(shí),Astra還能認(rèn)出路過(guò)的公園并介紹它的信息。

小哥準(zhǔn)備騎車回公寓,讓Astra查詢沿途有沒(méi)有超市。

Project Mariner:能幫你完成復(fù)雜任務(wù)的AI智能體

Project Mariner,或許聽(tīng)起來(lái)陌生。

但此前曾有外媒爆料稱,谷歌自研全新智能體項(xiàng)目「Project Jarvis」能夠?qū)hrome任務(wù)自動(dòng)化,并由未來(lái)Gemini 2.0版本驅(qū)動(dòng),預(yù)計(jì)在今年12月發(fā)布。

種種跡象表明,賈維斯項(xiàng)目與Project Mariner有極大的關(guān)聯(lián)。

正如博客所述,Project Mariner是一個(gè)基于Gemini 2.0構(gòu)建的早期「研究原型」。它從瀏覽器入手,探索人工智能與人類交互的未來(lái)。

Project Mariner的核心能力在于,卓越的信息理解和分析,它能夠全面感知瀏覽器屏幕上的各種信息。

比如像素級(jí)精準(zhǔn)識(shí)別,以及網(wǎng)頁(yè)元素(如文本、代碼、圖像、表單等)智能分析。

演示中,打開(kāi)一個(gè)在線谷歌表格——戶外公司,然后喚出Project Mariner(目前是Chrome實(shí)驗(yàn)性擴(kuò)展程序)。

輸入提示「記住這份公司的名單,然后,找到他們的網(wǎng)站,并查找我可以聯(lián)系到他們的郵箱。記住這些方便我日后使用」

隨后,智能體讀取了表格中的內(nèi)容,并了解到了所有公司名稱。

通過(guò)搜索第一家公司名字,AI智能體點(diǎn)擊查詢后,進(jìn)入了Benchingmark Climbing的官網(wǎng)主頁(yè),找到右上角「信息」菜單欄中的「關(guān)于我們」。

一直下滑到網(wǎng)頁(yè)末端,找到了這家公司的郵箱地址。

接下來(lái),是第二家公司Lunkerhunt,同樣搜索找到官網(wǎng),公司信息介紹得到郵件地址。

在右側(cè)對(duì)話欄中,你可以清晰看到智能體的推理過(guò)程,能夠更清晰理解它的操作。

表格中另外兩家公司郵件查找,AI智能體同樣執(zhí)行如上的重復(fù)操作——導(dǎo)航搜索、點(diǎn)擊鏈接、滾動(dòng)頁(yè)面、記錄信息。

在瀏覽完第四個(gè)網(wǎng)站后,智能體完成了任務(wù),并列出了所有的郵箱地址。

以上,我們所看到的能力,其實(shí)與Anthropic所展示的Claude 3.5操作計(jì)算機(jī)界面,執(zhí)行各種任務(wù)的能力幾乎一致。

智能體也是巨頭們將在明年,重點(diǎn)布局的方向之一。

在業(yè)界權(quán)威的WebVoyager基準(zhǔn)測(cè)試中,Project Mariner已交出了令人驚艷的成績(jī)單:

作為單一AI智能體系統(tǒng),它在真實(shí)網(wǎng)絡(luò)任務(wù)的端到端測(cè)試中,取得了驚人的83.5%成功率。

這可能意味著,AI已經(jīng)能夠相對(duì)準(zhǔn)確地模仿人類在互聯(lián)網(wǎng)上,完成任務(wù)的行為。

此外,Project Mariner最大的亮點(diǎn)是其嚴(yán)格的安全設(shè)計(jì),用戶始終可以保持對(duì)系統(tǒng)的控制。

舉例來(lái)說(shuō),其操作權(quán)限僅限當(dāng)前瀏覽器的標(biāo)簽頁(yè),而且僅能執(zhí)行一些基本操作:輸入、滾動(dòng)、點(diǎn)擊。

若在執(zhí)行購(gòu)物等敏感操作之前,必須獲得用戶的最終確認(rèn)。

盡管仍處于早期研究階段,但Project Mariner證明了智能體在瀏覽器中導(dǎo)航的可能性,其意義遠(yuǎn)遠(yuǎn)超過(guò)了技術(shù)本身。

雖然目前在完成任務(wù)時(shí),可能存在準(zhǔn)確度不足和速度較慢的問(wèn)題,但這都將隨著技術(shù)迭代快速得到改善。

Jules:面向開(kāi)發(fā)者的AI智能體

隨著AI代碼助手的迅速發(fā)展,它已從基礎(chǔ)的代碼搜索工具進(jìn)化為深度融入開(kāi)發(fā)者工作流程的智能助手。

如今,在評(píng)測(cè)真實(shí)軟件工程任務(wù)的基準(zhǔn)SWE-bench Verified中,搭載了代碼執(zhí)行工具的2.0 Flash已經(jīng)可以取得51.8%的優(yōu)異成績(jī)。

得益于2.0 Flash超群的推理速度,智能體能夠快速生成和評(píng)估數(shù)百個(gè)潛在解決方案,并通過(guò)現(xiàn)有單元測(cè)試和Gemini自身的判斷,篩選出最優(yōu)方案。

想象一下,你的團(tuán)隊(duì)剛剛完成了一次Bug Bash,現(xiàn)在你面臨著一大堆待修復(fù)的bug。

從今天開(kāi)始,這些讓人頭大的Python和Javascript編程任務(wù),全部都可以交給由Gemini 2.0驅(qū)動(dòng)的AI代碼智能體——Jules去做了。

Jules可以異步工作并與你的GitHub工作流程集成,在你專注于真正想要構(gòu)建的內(nèi)容時(shí),它會(huì)處理bug修復(fù)和其他耗時(shí)的任務(wù)。

Jules會(huì)制定全面的多步驟計(jì)劃來(lái)解決問(wèn)題,高效地修改多個(gè)文件,甚至準(zhǔn)備拉取請(qǐng)求(pull request)直接將修復(fù)合并回 GitHub。

雖然還處于早期階段,但從谷歌內(nèi)部的使用經(jīng)驗(yàn)來(lái)看,Jules可以為開(kāi)發(fā)者帶來(lái)諸多便利:

- 更高的生產(chǎn)力

把問(wèn)題和編程任務(wù)交給 Jules,實(shí)現(xiàn)高效的異步編程。

- 進(jìn)度跟蹤

通過(guò)實(shí)時(shí)更新隨時(shí)了解情況,優(yōu)先處理最需要關(guān)注的任務(wù)。

- 完全的開(kāi)發(fā)者控制

審查Jules制定的計(jì)劃,根據(jù)需要提供反饋或請(qǐng)求調(diào)整,并在合適的時(shí)候?qū)ules編寫的代碼合并到項(xiàng)目當(dāng)中。

游戲、機(jī)器人AI智能體

谷歌DeepMind一直致力于通過(guò)游戲來(lái)提升AI模型在規(guī)則遵循、策略規(guī)劃和邏輯推理方面的能力。

就在上周,能夠僅從一張圖片就創(chuàng)造出無(wú)限種可玩3D世界的Genie 2誕生。

秉承這一研究傳統(tǒng),谷歌基于Gemini 2.0開(kāi)發(fā)了新的AI智能體,能夠協(xié)助玩家在視頻游戲的虛擬世界中探索。

這些「游戲助手」智能體可以單純依靠觀察屏幕上的動(dòng)作來(lái)理解游戲機(jī)制,并通過(guò)實(shí)時(shí)對(duì)話為玩家提供下一步行動(dòng)的建議。

此外,它們還能通過(guò)接入谷歌搜索,幫助你獲取網(wǎng)絡(luò)上海量的游戲攻略和相關(guān)知識(shí)。

目前,谷歌正與Supercell等頂尖游戲開(kāi)發(fā)商展開(kāi)合作,深入研究這些AI智能體的運(yùn)作機(jī)制,并在不同類型的游戲中測(cè)試它們理解游戲規(guī)則和應(yīng)對(duì)挑戰(zhàn)的能力,涵蓋從《部落沖突》等策略游戲到《Hay Day》等農(nóng)場(chǎng)模擬游戲。

除了在虛擬世界中探索AI智能體的應(yīng)用能力,谷歌還在機(jī)器人領(lǐng)域進(jìn)行創(chuàng)新性研究,將Gemini 2.0強(qiáng)大的空間推理能力應(yīng)用其中,開(kāi)發(fā)能在現(xiàn)實(shí)世界中提供實(shí)際幫助的AI智能體。

下面這些demo,展示了Gemini 2.0玩游戲的強(qiáng)大潛力。

注意,過(guò)程中沒(méi)有任何具體的后訓(xùn)練或者游戲集成,Agent就可以對(duì)音頻、游戲視頻和從網(wǎng)絡(luò)獲取的實(shí)時(shí)信息做出響應(yīng)。

在demo中,研究者對(duì)Gemini 2.0說(shuō):「我打算玩游戲了,我想確保完成每周的任務(wù)。你能看到它們嗎?」

Gemini 2.0立刻回答,「是的,我能看見(jiàn),看起來(lái)你需要收集300顆寶石,擊敗10個(gè)boss,你已經(jīng)有10個(gè)寶石了!

因?yàn)檠芯空弑硎咀约航?jīng)常忘記這件事,Gemini 2.0承諾會(huì)在游戲過(guò)程中留意,提醒她關(guān)于任務(wù)的事。

在另一個(gè)demo中,研究者表示在計(jì)劃進(jìn)行一次攻擊,但首先需要訓(xùn)練一支軍隊(duì),請(qǐng)AI幫他推薦一下軍隊(duì)構(gòu)成。

Gemini立刻給出了非常明智的建議: 「根據(jù)屏幕左上角你的可用部隊(duì)和數(shù)量,我們應(yīng)該訓(xùn)練巨人、野蠻人、弓箭手和法師的組合。重點(diǎn)是使用巨人來(lái)吸收傷害,法師可以對(duì)付高輸出防御設(shè)施,野蠻人和弓箭手可以處理較弱的建筑。」

另外,Gemini 2.0還能自己查攻略。比如幫我們選角色,完成「在Reddit上搜索一下Donetta是什么」這樣的任務(wù)。

深度研究,個(gè)人研究助理來(lái)了

在智能體方面,谷歌今天還放出了一個(gè)名為Deep Research研究助理,并在Gemini Advanced中上線。

不過(guò),這項(xiàng)新功能由Gemini 1.5 Pro加持。

它可以深入研究復(fù)雜的主題,創(chuàng)建報(bào)告,并提供相關(guān)來(lái)源的鏈接。

假設(shè)你想要完成一篇機(jī)器學(xué)術(shù)論文,主題是關(guān)于自動(dòng)駕駛傳感器的研究趨勢(shì),直接Deep Research。

它便會(huì)列出一項(xiàng)研究計(jì)劃清單,包含了6個(gè)要點(diǎn)的信息查找、分析網(wǎng)址、創(chuàng)建報(bào)告,點(diǎn)擊「開(kāi)始研究」。

接下來(lái),AI全網(wǎng)搜索分析,并匯總出一份全面詳細(xì)的研究報(bào)告,包括了清晰的表格分析、搜索的62個(gè)網(wǎng)址來(lái)源。

有了Deep Research,能為我們節(jié)省大把的研究時(shí)間。

參考資料:

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message

https://deepmind.google/technologies/project-astra/

本文來(lái)源:新智元

新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部