你是個成熟的 AI 了,該學會自己干活了。 這已經不是一句破梗,最近,越來越多的 AI 產品,可以讓我們的手機和電腦自己跑起來。 Anthropic 的「computer use」,像人一樣操縱電腦,工程師讓它幫忙點外賣,它思考了一分鐘,選擇了披薩。 榮耀的 YOYO 智能體,聽到 CEO 說困了,直接在發(fā)布會現場點了一杯咖啡飲品。 智譜的 AutoGLM 應用,更是將我們常用的 app 一網打盡,打車、點外賣、發(fā)微信,它都能代勞。 等等,這不是去年就火了的 agent(智能體)嗎?人類一句話,AI 自己干活。想法驚艷,但模型能力沒跟上,慢慢就沒了水花。 挖了一年的坑,今年有望填上了,以后真的可以說:聽我解釋,是手機自己干的! 讓 AI 代發(fā)微信、加購物車,都能用嘴說 智譜正在內測的應用 AutoGLM,是使用門檻較低的一款 agent,已經可以讓我們動嘴玩手機了。 你盡管說話,AI 語音轉文字,然后按部就班完成任務,當然,如果不方便說話,也可以打字發(fā)送命令。 先發(fā)條微信消息給好友吧,我們幾秒搞定的事情,AI 花了 20 多秒。 但第一次親眼看到 AI 玩手機,實在新鮮。因為「涉及敏感操作」,AI 還知道請示一下我的意見。 AutoGLM 也能發(fā)起語音通話,就是路徑有點繞。等著頁面一次次跳轉,考驗急性子本人。 幫忙打車、購物,AutoGLM 也沒問題,它還會給出追問,主動對齊需求。舉個例子,當我要求打車到廣州南站,AutoGLM 會問我是哪個站口。 至于下單,還是我們自己來。你或許擔心,我們的銀行卡會不會任 AI 宰割,但 AutoGLM 不會幫你「立即打車」。 類似的,在淘寶下單一條優(yōu)衣庫黑色 m 號工裝褲,AutoGLM 會停留在確認訂單的頁面,不會代我們支付。 一些 app 的圖標、菜單、按鈕,AutoGLM 用得比我都熟練。當我要求在大眾點評找到海珠區(qū)三家評價最好的披薩店,AutoGLM 聽懂了,先搜索「披薩店」,然后選擇地點,按好評優(yōu)先排序,最后給出了一個小結。 懂交互的 AutoGLM,也能做一些文字工作,我讓它找到公眾號「愛范兒」最近的一篇文章,點贊并總結內容,或者在小紅書找廣西旅游攻略,收藏三篇并總結內容,雖然速度有些慢,但每個需求都沒有敷衍。 這對大模型來說不算什么,重點在于,我們可以看到手機自主完成整個過程,AI 讓你切身體會「你別做,我來做」的霸總發(fā)言。 AutoGLM 的能力范圍 目前,AutoGLM 能做的并不算多,但確實有了 agent 的模樣,規(guī)劃任務,代人類執(zhí)行操作,解決日常生活中的問題。 以前我們要教長輩玩手機,一步步截圖并加備注、用錄屏記錄操作過程,甚至手繪使用說明書,但 AI 可以直接幫我們玩手機,一步到位,怎么不算一種很新的無障礙體驗? 人和手機的交互,AI 要學的還有很多 當然,作為一個內測產品,AutoGLM 肯定是不成熟的。 不少放上來的例子,我其實試了很多次才成功,失敗的原因主要是任務中斷,其中有不少失敗得很搞笑的素材。 我請 AutoGLM 評論微信好友的最新朋友圈,雖然完成了任務,它卻保留了自證 AI 身份的開頭,措辭也滿滿的機器味。有些智能,但不那么多。 所以,先別指望讓 AI 幫我們一鍵維護人脈了,友誼的小船很難不翻。 語音識別雖然方便,但可能因為個人的普通話水平所限,不夠準確,比如,AutoGLM 把「愛范兒」聽成了「f2」,需要手動修改。 稍微復雜的、涉及多步思考的任務,AutoGLM 可能完不成。 我讓 AutoGLM 點雞蛋瘦肉腸粉和豆?jié){的外賣,AI 試圖添加冰凍豆?jié){的時候,觸發(fā)了驗證碼提示,可能是平臺監(jiān)測到了機器人行為,然后任務就結束了。 更啼笑皆非的事情發(fā)生了,它說雞蛋瘦肉腸粉售罄了,我看了下,這家有肉蛋腸粉,差不多的商品,換個說法就不能理解了,AI 還不夠變通。 努力努力白努力的情況也有,要求 AutoGLM 在攜程找到周四廣州飛北京最低價機票,眼睜睜看著它胡亂操作一通,最后搜索到一些北京美食,大言不慚地說自己完成了。 最讓人共情 AI 的是,AutoGLM 跳不過廣告彈窗,需要我們手動操作,但哪怕我們幫了 AI,任務也很容易中斷。AI就像每個被軟件開屏霸凌的用戶一樣,被困在廣告里。 畢竟,AutoGLM 還在萌芽,問題雖多,卻讓我們直觀地看到了一種新的交互形態(tài)。 我們早已習慣了用手指點擊圖標、按鈕、菜單,自己完成操作,但現在,我們可以通過自然語言、語音指令等方式,直接表達意圖,AI 自動執(zhí)行操作。 從門檻較高的命令行界面,到更直觀的用戶圖形界面,再到更符合人類溝通習慣的自然語言界面,人機交互的進化方向,是變得更自然。不久的未來,除了對話,說不定還可以讓 AI 直接看我眼色行事。 手機的自動駕駛,只有 AI 是不夠的 讓 AutoGLM 在手機跑起來,要在手機設置里授權「無障礙」「懸浮球」等權限,它才能獲取當前頁面信息,與本地應用進行交互。 這也說明,實現 agent,只有大模型是不夠的,AI 需要適配不同設備和應用、獲取上下文的信息,才能執(zhí)行具體的操作。 兜兜轉轉,大模型應用的戰(zhàn)場,回歸了傳統的平臺和硬件。渠道在哪里,用戶信息在哪里,用戶慣性在哪里,他們也往哪里去,智譜和榮耀合作加強端側 AI 就是一個例子。 除了大模型公司,手機廠商也可能需要和應用廠商搞好關系。榮耀 CEO 趙明說過,agent 可以分為兩種,有些不需要第三方,比如點咖啡、打微信電話,但有些就需要介入,比如充值手機話費,調用運營商的大模型進行接管。 除了生態(tài),agent 在今年能遍地開花,當然離不開技術的進步。 去年有個很火的 agent 項目 AutoGPT,可以操縱電腦、上網查資料、使用第三方工具,但英偉達 AI 科學家 Jim Fan 并不看好,認為 AutoGPT 只能解決一些簡單的、明確的任務,這本質是因為 GPT-4 有局限性,就像沒有任何提示詞可以把 GPT-3 變成 GPT-4。 今年就不一樣了,多模態(tài)大語言模型成熟了,同時,各家廠商還在研究相關的架構,讓大模型學習大量的 UI 數據,更好地理解手機和電腦屏幕。 蘋果在 4 月發(fā)布了多模態(tài)大語言模型 Ferret-UI 的論文,為的就是移動端。訓練 Ferret-UI 時,蘋果收集了大量基礎 UI 任務的訓練樣本,為了增強模型的推理能力,還編制了一個用于高級任務的數據集。 為什么要學習這些數據?蘋果給出了幾個原因:手機屏幕長寬比與大多數圖像不同,圖標、按鈕等圖像的尺寸都非常小,以及,模型需要與 app 交互,不能像解釋靜態(tài)圖像那樣,一次性理解信息。 這么一說,當前的蘋果 AI 應該只是前菜,siri 可能真的會迎來「史詩級更新」,而不是能力不夠 GPT 來湊。 最近,Google 也傳出開發(fā) agent 的消息,項目干脆就叫賈維斯,由 Gemini 驅動,可以截取屏幕截圖后解析內容,將網頁任務自動化,執(zhí)行收集研究、購買產品、預定航班等任務。 微軟應該和 Google 很有共鳴,旗下 AI PC 的 Recall,也是每隔幾秒鐘截取一次屏幕截圖,最近還低調開源了 OmniParser,一個基于大模型的屏幕解析工具。 OmniParser,將用戶界面屏幕截圖解析為結構化元素 不過,agent 目前的水平,只是讓人對技術有了實感,不能捧殺,完全自動操作不可靠,仍然需要人類下判斷。 而且,一些簡單的操作,AI 仍然完成得很吃力,Anthropic 就實話實說,操作計算機時,滾動、拖動、縮放,人類像呼吸一樣自然的事情,對 Claude 來說依然是個不小的挑戰(zhàn)。 我也在使用 AutoGLM 時發(fā)現,跨應用的任務完成得磕磕絆絆,讓它在小紅書找到一條帖子,分享鏈接給微信好友,前面很順利,但卡在最后一步「返回小紅書還是留在微信」不動彈了,沒有像往常一樣,給出「完成任務」的提示。 任務其實已經完成,這一步本就不在它的指令范疇之內,卡住了也無可厚非,繼續(xù)學吧,學無止境。 比起「智能體」這種略顯抽象的翻譯,以「主駕駛」理解 agent,和「copilot」(副駕駛)相對,或許會讓我們更心生期待。 汽車駕駛自動化通常分為六個級別,0-2 級為駕駛輔助,3-5 級為自動駕駛,其實,agent 就像手機的「自動駕駛」。 10 月,信通院聯合榮耀,為 AI 手機的智能化,提出了一個類似駕駛自動化的分級標準,分為 L1 到 L5。 目前,agent 的水平更接近 L3,AI 助理,理解并完成用戶的很多指令。 榮耀 CEO 趙明之前在發(fā)布會演示了一個場景,他對著 YOYO 智能體說:「我有些困了,幫我點杯喝的」,提問有些模糊,但智能體可以根據過往的記錄和話中的信息,判斷他需要喝咖啡,加購物車,等待結算確認。 但更多、更復雜的指令還待開發(fā),更多人類干預的地方等待消除,達到 L4 的水平,AI 還得理解我們的潛臺詞,具備一定的反思和自我糾正的能力。 L5 應該長什么樣子?可以聯想到的就是漫威宇宙的賈維斯了,不只是 AI,也是家人,控制盔甲和各種設備,經常秀出幽默感吐槽托尼,又能在鋼鐵俠生死攸關的時刻鎮(zhèn)定地告訴他「先生,請深呼吸」。 畢竟,人類對自己的造物總有一種情結,更懂我,更像我,甚至超越我,又忠誠于我,就像在鋼鐵俠問「你在嗎」的時候,賈維斯回答得那樣:「為你,先生,永遠都在」。 本文來源:Appso |
原創(chuàng)欄目
IT百科
網友評論
聚超值•精選