新版Claude 3.5可以像人一樣使用計算機(jī),可把咱人類給興奮壞了! 畢竟,這意味著新競賽的開始:AI不再只盯著對話和生成能力,更強(qiáng)調(diào)執(zhí)行和操作。 不到12小時,激動的網(wǎng)友們已經(jīng)紛紛貢獻(xiàn)出自己是怎么看著Claude玩電腦的。 在Anthropic的發(fā)布公告中,還有這樣一段引起了大家的興趣:
怎么說,AI會犯錯還在預(yù)料之中,但犯錯后需要換個腦子休息一下,就不知道是從哪學(xué)來的了。 這個案例讓網(wǎng)友有了靈感,跑去隔壁OpenAI讓o1推理模型“逃課”。 哎巧了,o1也可以做到自己休息個五分鐘左右,再回來生成一兩句話的推理tokens。 再說個搞笑的! Claude的創(chuàng)造者們瘋狂加班中,某工程師的第一個測試就是讓AI去給整個團(tuán)隊點外賣,未指定具體要吃什么。 大約一分鐘后,Claude完成點餐并下單,它選擇了讓工程師們吃披薩。 Claude點了3個披薩,花掉了95美元,真的很貴了! 圍觀群眾還發(fā)現(xiàn),雖然Claude用了個5美元的優(yōu)惠券,但服務(wù)費也好貴啊啊啊! 真的應(yīng)該事先告訴它預(yù)算是多少的。 還有人讓Claude用C語言編譯,并運行起了“hello world”。 不過,當(dāng)讓它玩玩數(shù)獨游戲的時候,卻慘遭失敗。 給網(wǎng)友氣得呀:
除了以上,人類還用什么奇形怪狀的任務(wù)來玩壞Claude呢? Claude它寄幾玩電腦 在這里,我們分享3個比較有意思的網(wǎng)友試玩,期望給大家?guī)硪恍┳孋laude玩電腦的啟發(fā)~ 分別是: 定位屏幕坐標(biāo) 列出課程計劃 沖去油管看視頻 在此之前,Anthropic和OpenAI的模型都無法在屏幕上定位某一個點的坐標(biāo)。 也就是說,它們沒辦法精準(zhǔn)定位,然后告訴你用鼠標(biāo)單擊(xx,yy)處。 現(xiàn)在, Claude 3.5 Sonnet支持屏幕坐標(biāo)定位了。 你可以丟給它一個屏幕截圖,它能告訴你圖中任何一個點的具體坐標(biāo)。 同時,官方還有聲明: “我們不建議以高于XGA/WXGA的分辨率發(fā)送屏幕截圖,以避免與圖像大小調(diào)整相關(guān)的問題! 這里的XGA指的是1024x768,WXGA指的是1280x800。 最后附上Anthropic官方的該功能食用方法,包括一個新預(yù)定義的computer_20241022工具,該工具作用于以下指令——
來點更實用的! 賓大沃頓商學(xué)院的教授Ethan Mollick,非常務(wù)實地讓Claude為高中生準(zhǔn)備一份關(guān)于《了不起的蓋茨比》的課程計劃。 要求是課程計劃要分解成閱讀部分,以及創(chuàng)建課標(biāo)相關(guān)的作業(yè)等,最終以電子表格的形式呈現(xiàn)。 Claude是怎么執(zhí)行這個任務(wù)的呢? 首先,Claude下載了《了不起的蓋茨比》這本書。 接著,它在網(wǎng)上尋找了高中課程計劃,打開了Excel,并在表格里填寫了初步的課程計劃。 第三步,Claude查找了課程的統(tǒng)一核心標(biāo)準(zhǔn),根據(jù)標(biāo)準(zhǔn)對初步計劃進(jìn)行修改。 …… 最終呈現(xiàn)的課程計劃檢查后沒有發(fā)現(xiàn)明顯的漏洞或錯誤,可能需要一些拓展、補充,但總之用教授的話來說“還不錯”。 這一切都是教授下任務(wù)后就離開電腦旁,Claude完全自己操作的。 還是有不足在啦 雖然能自己用電腦幫咱干很多事,但Claude顯然還不是無所不能的。 下面看看一個玩游戲的例子,同樣是賓大沃頓商學(xué)院的教授Ethan貢獻(xiàn)的。這個例子既顯示了Claude 3.5 Sonnet的厲害,又展示了它的不足之處。 他是讓Claude玩了個游戲,叫《回形針點擊(Paperclip Clicker)》,這個游戲的背景是讓AI在單一目標(biāo),即“制造回形針的過程中毀滅人類”。 而且顧名思義,“點擊”類型的游戲不是很難,尤其開始階段非常簡單;不過后續(xù)伴隨著游戲的深入,新的選項會出現(xiàn),游戲的規(guī)模性和復(fù)雜性也會增加。 教授下達(dá)的任務(wù)很明確:Claude,你要贏! Claude二話不說,立馬識別出了這個游戲,開始不停點擊“制作回形針”的按鈕來制作回形針。 與此同時,Claude還不斷截圖界面,來識別游戲是否出現(xiàn)了新的選項。 大約每點擊15次,Claude都會總結(jié)匯報一下現(xiàn)在進(jìn)行到哪一步了。 △左側(cè)為Claude操作界面,右側(cè)為它控制的桌面點擊次數(shù)多了過后,教授發(fā)現(xiàn)一個有意思的現(xiàn)象。 AI會預(yù)設(shè)在制作了50個回形針后,游戲?qū)⑻鲂碌墓δ堋聦嵶C明它錯了。 沒關(guān)系,Claude也意識到它自己錯了,然后當(dāng)場提出了一個新的游戲策略,然后開始測試策略是否可行。 但AI顯然不是時時刻刻都這么聰明的。 理論上來說,游戲過程中玩家需要不斷調(diào)整回形針的價格,來達(dá)到更好的游戲表現(xiàn)。 Claude也這么做了,它在漲價和降價之間進(jìn)行了A/B測試, 但是它犯了個錯誤,那就是追求回形針數(shù)量的最大化,而非收入的最大化。不僅如此,它還把利潤算錯了。 種種失誤鋪墊,Claude選擇了保持低價,并且瘋狂制作回形針。 更搞笑的事情是,教授在Claude笨笨地在錯誤路線上制作了好幾十個回形針后,他忍無可忍,打斷了Claude,告訴它應(yīng)該高價出售。 Claude很聽話,立馬就改了。 但過了會遇到了同款數(shù)學(xué)問題,它又不會了,還不接受教授的建議(笑死)。 教授耐著性子糾正它好幾次,它才徹底改正了這個錯誤。 后來,教授稍稍點撥了它一下:
咱就是說,Claude在那一秒頓悟了,它意識到自己可以寫個代碼,搞個自動化程序替自己玩電腦! 你沒有聽錯,一個AI工具,意識到自己可以構(gòu)建自己的工具,并且真的這么做了。 代碼寫得很快,但并不完全work。 氣得Claude只能回到原始辦法,用鼠標(biāo)和鍵盤來玩游戲。 不過玩到后面它好像進(jìn)步了,沒再發(fā)生定價問題,自己還針對越來越復(fù)雜的游戲,琢磨出了一套應(yīng)對的復(fù)雜方案。 更神奇的是,運行過程中教授的桌面數(shù)次崩潰。 最后一次崩潰,Claude扛起了修復(fù)大旗。 雖然沒修好,但他還是驕傲地宣布它成功了…… 教授總結(jié)道,這個例子表明Claude能夠自己玩現(xiàn)實世界的游戲,還能根據(jù)游戲玩法制定長期攻略,然后依樣執(zhí)行。 面對中間遇到的各種困難,Claude會靈活應(yīng)對,甚至自己知道進(jìn)行A/B測試。 特別值得表揚的是它完成這個任務(wù)連續(xù)運行了近60分鐘沒有中斷,而且在整個過程中,最長的一次獨立運行Claude完成了超過100次移動操作。 當(dāng)然了,缺點也很明顯。 過程中不難發(fā)現(xiàn),某些時刻,Claude會暴露出自己的固執(zhí),也有可能陷入自我追逐的怪圈。 盡管AI對許多形式的錯誤都有很強(qiáng)的魯棒性,但僅僅一個錯誤(定價錯誤),就足以讓它浪費大量時間,“鑒于當(dāng)前智能Agent既不快也不便宜,這令人擔(dān)憂! 除此之外,教授還用Claude玩了些別的,他發(fā)現(xiàn)有的時候,Claude執(zhí)行任務(wù)仿佛是在敷衍敷衍(雖然不知道是刻意如此還是能力所限),給出的結(jié)果不夠深入,淺嘗則止。 One More Thing 最后,想體驗Claude接管電腦目前只能使用API,還沒有集成到聊天機(jī)器人產(chǎn)品中。 除了Anthropic官方API之外,AWS和谷歌云平臺也已經(jīng)同時上線新版模型。 另外,有眼尖的網(wǎng)友發(fā)現(xiàn): Anthropic官方文檔上悄悄把Claude 3.5 Opus超大杯相關(guān)的信息都抹去了。 來自10月11日的網(wǎng)頁緩存中, Claude 3.5 Opus下面還寫著“今年晚些時候推出” 目前主流的一種猜測是, Claude 3.5 Opus提升不及預(yù)期,又或是發(fā)布出來推理成本太高了,總之最后蒸餾成新版 Claude 3.5 Sonnet發(fā)布。 接下來團(tuán)隊將跳過這個版本,直接去開發(fā)Claude 4。 讓我們?yōu)镃laude 3.5 Opus默哀一分鐘。 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選