或許是前段時(shí)間風(fēng)頭太盛,周末時(shí),OpenAI 靜悄悄發(fā)布了新的研究作品:Swarm。一反之前的架勢,這個(gè)新作只在官網(wǎng)的 Cookbook 和 Github 發(fā)布,官推都沒有多講。 除了非常安靜和低調(diào),開發(fā)人員還反復(fù)給自己疊甲:這只是一個(gè)實(shí)驗(yàn)性質(zhì)的框架,只作為分享和教育用途。官方不質(zhì)保,實(shí)用需謹(jǐn)慎! 明明已經(jīng)這么低調(diào),一出來還是被碰瓷了。 什么是 Swarm? Swarm 旨在探索輕量級、可擴(kuò)展、可定制的多代理協(xié)作模式。OpenAI 的研究人員,提出了「routine」和「handoffs」概念,用來表達(dá) agent 之間的任務(wù)傳遞。 然而 Swarm 才發(fā)布一天,麻煩就找上門來:一個(gè)二十多歲的開發(fā)者 Kye Gomez 發(fā)推稱,這個(gè)新作從名字到框架,全都是抄襲他的創(chuàng)業(yè)項(xiàng)目 Swarms。 這條控訴吸引了超過 20 萬的圍觀,不過,圍觀群眾都很冷靜,要求 Kye 提供更明確的證據(jù),并且質(zhì)疑他提出的訴求:「除非 OpenAI 投資我們」,這什么東西。 很快就有網(wǎng)友翻出他的碰瓷前科。而且,從兩邊在 Github 上發(fā)布的 README 文檔來看,顯然也是 OpenAI 更靠譜一點(diǎn)。 我把文檔送進(jìn)了 ChatGPT,用最新的 o1 做了一下分析,OpenAI 提出了更詳實(shí)和具體的想法。 至于說項(xiàng)目重名和一些常用指令重合,比如.run()——這就像是有人說自己的數(shù)學(xué)考卷被抄襲了,因?yàn)閮蛇叺拇痤}框里都有個(gè)「解」字 。 OpenAI 的 Swarm 框架里,重點(diǎn)梳理了在多代理模式里的各種成分,并且提出了兩個(gè)關(guān)鍵概念:例程 (routines) 和交接 (handoffs),還提供了很多便于理解的例子。 例程可以把它理解為由不同步驟組成起來的一套「基本操作」,比如,你搭建了一個(gè)購物助理,那么你就可以規(guī)定一套流程作為例程。 但是一個(gè) agent 能做的事,再多也是有限的。更何況大語言模型本身,多多少少會出幻覺。所以需要不同的 agent、不同的 routine 之間有所交接。 就像一場接力跑,一個(gè)選手跑完一段,就要交接到下一個(gè)選手手上,而且要保證平穩(wěn),不能掉在地上。 這些才是本次發(fā)布里 OpenAI 重點(diǎn)關(guān)注的部分。或許說不上是什么驚為天人的大發(fā)現(xiàn),但硬說抄襲,也是有點(diǎn)碰瓷了——非要追根溯源,那得倒回幾十年前。 多智能體最擅長的,竟然是打游戲 OpenAI 并不是才開始對多智能體協(xié)作發(fā)生興趣的,早在 2018 年,就有過不錯(cuò)的表現(xiàn)——在 Dota 2 職業(yè)比賽上,擊敗了資深的人類玩家。 游戲是一個(gè)天然適合用來測試多智能體的土壤,不同的角色,有不同的技能;面對不同的對手,要有不同的策略,總之,想要贏下一局游戲,勢必要協(xié)調(diào)各個(gè)角色,并且組織好它們之間的協(xié)作能力。 想想你打王者碰到豬隊(duì)友時(shí)有多氣,就知道這個(gè)難度了。 當(dāng)時(shí) OpenAI Five 涉及到的技術(shù)構(gòu)件包括神經(jīng)網(wǎng)絡(luò)、自訓(xùn)練、強(qiáng)化學(xué)習(xí)等,沒有時(shí)下流行的大語言模型,主要是用來試驗(yàn)多智能體協(xié)作。 甚至,那個(gè)時(shí)候每個(gè)英雄各自背后的神經(jīng)網(wǎng)絡(luò),并不互相溝通,而是有一個(gè)負(fù)責(zé)總控的超參數(shù),來協(xié)調(diào)每一個(gè)英雄(主要是背后的神經(jīng)網(wǎng)絡(luò))的表現(xiàn)。 再往深了講就有點(diǎn)太深了,總之,那幾年的經(jīng)歷,讓 OpenAI 連續(xù)三年打贏了幾個(gè) Dota2 的大賽,也在多智能體協(xié)作方面頗有收獲。 到了 2019 年,DeepMind 開發(fā)的 AlphaStar 在《星際爭霸 2》中,水平超過了 99.8%的人類玩家。 在星際里,有人族、神族和蟲族三個(gè)派系,每個(gè)派系都有多個(gè)可供操作的建筑、兵種,每局游戲也都需要經(jīng)歷資源采集、科技發(fā)展和實(shí)時(shí)戰(zhàn)斗等幾個(gè)流程。 當(dāng)時(shí) DeepMind 發(fā)表論文時(shí)就提到,游戲是一個(gè)多智能體協(xié)作的任務(wù),每個(gè)玩家需要控制許多單位,共同實(shí)現(xiàn)目標(biāo)。 DeepMind 所設(shè)計(jì)的 agent,每分鐘操作數(shù)約為 180 次,大概等同于中級玩家。當(dāng)時(shí)他們的想法是:智能體要盡可能地學(xué)習(xí)人類玩家的游戲操作,然后超越人類。 這樣的「類人」思路,甚至可以追溯到更久之前:早在 1972 年,卡爾·休伊特(Carl Hewitt)就提出了 Actor Model(行動者模型),這是并發(fā)計(jì)算的概念模型。演員模型提出了獨(dú)立計(jì)算實(shí)體(agent)可以通過消息傳遞進(jìn)行通信的概念,為智能體之間的交互奠定了理論基礎(chǔ)。 到了九十年代和千禧年初,agent 就更加明確的,被視為能夠自主行動、決策的「賽博實(shí)體」,并且有了基于智能體信念、意圖進(jìn)行決策和規(guī)劃的研究,BDI 模型。 等到了大語言模型橫空出世之后,多智能體的交互、決策溝通,從原來的黑盒,變得更容易轉(zhuǎn)化成自然語言。 智能體之間,也可以通過語言來討論、協(xié)作,特別是在決策情境中,不同的智能體之間能夠「有商有量」。 之前我們介紹過,也是在 Minecraft,一款沙盒游戲里——不得不說,多智能體實(shí)在是太擅長打游戲了。 在游戲里,不同的智能體可以直接對話來完成分工、資源互通和任務(wù)傳遞。大語言模型的推理和記憶能力,都能更有效地為多智能體的行動提供支援。 而 OpenAI 不就在于有厲害的模型嗎——年初時(shí),他們借由 ChatGPT 灰度測試過,在對話框內(nèi),可以召喚其他 GPT 插件,也算是一種多智能體協(xié)作的「平替版」。 只是效果著實(shí)不咋地,嘗試了一下 Capcut 的插件,一直鬼打墻的跳轉(zhuǎn)不成功(注:Capcut 是剪映的海外版)。 可以說,這一次的 Swarm 是 OpenAI 探索充分調(diào)動自己的優(yōu)勢——強(qiáng)大的基座模型——再進(jìn)一步摸索出一個(gè)多智能體的工作流程框架。 好消息是,在從 OpenAI 變得越來越「吝嗇」之后。這次 Swarm 倒是開源出來了。大語言模型讓多智能體系統(tǒng)能夠以更加自然的方式與人類互動。相信在未來,這種交互絕不僅限于簡單的對話,而是會更多的提高生產(chǎn)力。 本文來源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選