在溫哥華舉行的神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS)上,OpenAI 前首席科學(xué)家 Ilya Sutskever 發(fā)表公開(kāi)演講。 Ilya 指出,當(dāng)前 AI 模型預(yù)訓(xùn)練方式將不可避免地走向終結(jié)。 他還將 AI 訓(xùn)練數(shù)據(jù)比作「化石燃料」,認(rèn)為互聯(lián)網(wǎng)上的人類生成內(nèi)容是有限的,業(yè)界已經(jīng)達(dá)到了數(shù)據(jù)峰值,「我們只有一個(gè)互聯(lián)網(wǎng),必須適應(yīng)現(xiàn)有的數(shù)據(jù)資源」。 根據(jù)他的預(yù)測(cè),下一代 AI 系統(tǒng)將突破當(dāng)前局限,具備真正的主動(dòng)性和類人推理能力,但他也警告,隨著 AI 推理能力的提升,其行為將變得愈發(fā)難以預(yù)測(cè),就如同即便是頂尖棋手也無(wú)法準(zhǔn)確預(yù)判高級(jí)象棋 AI 的走法。 演講中,他將 AI 的發(fā)展規(guī)模與生物進(jìn)化過(guò)程進(jìn)行了對(duì)照。 通過(guò)引用數(shù)據(jù),他指出在對(duì)數(shù)坐標(biāo)下,雖然絕大多數(shù)哺乳動(dòng)物的腦重與體重比例都遵循著相似的規(guī)律,但人類祖先卻展現(xiàn)出一條截然不同的發(fā)展曲線。 基于此,他推測(cè)正如進(jìn)化在人類大腦發(fā)展過(guò)程中找到了新的路徑,AI 可能也會(huì)突破當(dāng)前預(yù)訓(xùn)練模式的局限,發(fā)現(xiàn)全新的發(fā)展路徑。 演講結(jié)束后,Ilya 也接受了與會(huì)者的提問(wèn),以下為 Ilya 演講和提問(wèn)環(huán)節(jié)全文,要點(diǎn)概括如下,Enjoy it~ Ilya 認(rèn)為,互聯(lián)網(wǎng)數(shù)據(jù)資源就像化石燃料般正在逐漸枯竭,雖然計(jì)算能力不斷提升,但數(shù)據(jù)增長(zhǎng)速度已見(jiàn)頂,「我們只有一個(gè)互聯(lián)網(wǎng)」這個(gè)物理限制無(wú)法突破。 預(yù)訓(xùn)練時(shí)代(GPT-2/3)帶來(lái)重大突破但也暴露局限,而下一個(gè)階段可能出現(xiàn)智能體、合成數(shù)據(jù)等新方向。 Ilya 通過(guò)圖表數(shù)據(jù)發(fā)現(xiàn)哺乳動(dòng)物大腦和體重的關(guān)系遵循一定規(guī)律,但人科動(dòng)物展現(xiàn)出不同的發(fā)展曲線,這暗示 AI 也可能找到全新的進(jìn)化路徑。 當(dāng)前 AI 系統(tǒng)仍主要依賴模仿人類直覺(jué),未來(lái) AI 將具備真正的推理能力,而越具備推理能力的系統(tǒng)行為越難預(yù)測(cè)(如國(guó)際象棋 AI)。 AI 終將具備自我意識(shí),這是理解世界的必要部分,但未來(lái) AI 系統(tǒng)的本質(zhì)將與現(xiàn)在完全不同,以及 AI 可能會(huì)尋求權(quán)利和與人類共存。 演講全文 我非常榮幸地感謝主辦方選擇這篇論文獲獎(jiǎng)。同時(shí),我也要感謝我的杰出同事和合作者,Oriel Vinyls 和 Quoc V. Le,他們剛才就在大家面前站著。 在這里大家可以看到一張圖片,是十年前在新加坡國(guó)立大學(xué)(NUS)2014年蒙特利爾一場(chǎng)類似演講的截圖。那是一個(gè)更加純真的年代。照片中展示了當(dāng)時(shí)的我們。 這是「上次」,順帶一提,這是「這次」。 現(xiàn)在,我們變得更有經(jīng)驗(yàn),也希望更有洞見(jiàn)。 在這里,我想稍微談?wù)勥@個(gè)工作的本身,或許也可以對(duì)過(guò)去十年進(jìn)行一些回顧。因?yàn)樵谶@個(gè)研究中,有許多地方是正確的,但也有一些不完全正確。 我們可以回顧一下,看看它們是如何發(fā)展的,又是如何逐步流向了今天的方向。 那么,讓我們從討論我們當(dāng)時(shí)所做的事情開(kāi)始吧。我們會(huì)通過(guò)展示 10 年前同一場(chǎng)演講中的幻燈片來(lái)說(shuō)明。我們研究工作的總結(jié)可以歸納為以下三個(gè)要點(diǎn): 一個(gè)基于文本訓(xùn)練的自回歸模型; 一個(gè)大型神經(jīng)網(wǎng)絡(luò); 一個(gè)大型數(shù)據(jù)集; 就是這樣。現(xiàn)在讓我們更深入地探討一下細(xì)節(jié)。這是 10 年前的一張幻燈片,效果還算不錯(cuò)——「深度學(xué)習(xí)假說(shuō)」。 我們?cè)谶@里提出的是:如果有一個(gè)具有 10 層的大型神經(jīng)網(wǎng)絡(luò),那么它就可以完成任何人類在短時(shí)間內(nèi)能夠完成的事情。 為什么我們會(huì)特別強(qiáng)調(diào)人類能夠在短時(shí)間內(nèi)完成的任務(wù)呢?為什么是這個(gè)? 如果你相信深度學(xué)習(xí)的教條,也就是說(shuō),人工神經(jīng)元和生物神經(jīng)元相似,或者至少不太不同,并且你認(rèn)為生物神經(jīng)元的處理速度比人類能快速完成的任務(wù)慢,那你就會(huì)認(rèn)為一個(gè) 10 層的神經(jīng)網(wǎng)絡(luò)也能在短時(shí)間內(nèi)完成任何人類能夠做到的任務(wù),對(duì)吧?這就是推理的過(guò)程。 你只需將神經(jīng)元之間的連接關(guān)系嵌入到人工神經(jīng)網(wǎng)絡(luò)中。所以,這就是我們的動(dòng)機(jī)。任何人類能在短時(shí)間內(nèi)完成的任務(wù),10 層的大型神經(jīng)網(wǎng)絡(luò)也能做到。 我們當(dāng)時(shí)專注于 10 層神經(jīng)網(wǎng)絡(luò),因?yàn)槟菚r(shí)我們知道如何訓(xùn)練 10 層神經(jīng)網(wǎng)絡(luò)。如果能增加更多層數(shù),就能做得更多。但那時(shí)我們只能訓(xùn)練 10 層網(wǎng)絡(luò),這就是我們特別強(qiáng)調(diào)人類能夠在短時(shí)間內(nèi)完成的任務(wù)的原因。 這是演講中的另一張幻燈片,展示了我們的核心思路。你們可能能識(shí)別出其中的一些要點(diǎn),或者至少能識(shí)別出自回歸模型在起作用。 那么,這張幻燈片究竟要傳達(dá)什么呢? 它的意思是,如果你有一個(gè)自回歸模型,并且它能夠足夠準(zhǔn)確地預(yù)測(cè)下一個(gè) Token,那么它實(shí)際上會(huì)抓住并捕捉到接下來(lái)序列的正確分布。 這個(gè)想法相對(duì)較新,它不是第一個(gè)自回歸神經(jīng)網(wǎng)絡(luò),但我認(rèn)為它是第一個(gè)我們真正相信的自回歸神經(jīng)網(wǎng)絡(luò)。我們認(rèn)為,如果將其訓(xùn)練得足夠好,那么它能達(dá)到我們想要的效果——機(jī)器翻譯。 在今天看來(lái),這確實(shí)顯得保守,但那時(shí)卻極其大膽。 現(xiàn)在我要向大家展示一些古老的歷史,許多人可能從未見(jiàn)過(guò),那就是 LSTM。 對(duì)于不熟悉的人來(lái)說(shuō),LSTM 是深度學(xué)習(xí)研究人員在 Transformer 出現(xiàn)之前的技術(shù)。它基本上是一個(gè) ResNet,只不過(guò)旋轉(zhuǎn)了 90 度。 所以,那就是 LSTM,它比 Resnet 稍微復(fù)雜一點(diǎn)。你可以看到 integrator,它現(xiàn)在被稱為 residual stream。 不過(guò),你會(huì)看到一些乘法運(yùn)算,它稍微復(fù)雜一些,但這就是我們當(dāng)時(shí)做的事情——一個(gè)旋轉(zhuǎn)了 90 度的 Resnet。 另一個(gè)我想強(qiáng)調(diào)的來(lái)自舊演講的重點(diǎn)是,我們使用了并行化,但不僅僅是普通的并行化,我們用了流水線并行化,正如這張圖所示,每個(gè) GPU 只處理一層。 我們被建議使用流水線并行化。雖然現(xiàn)在我們知道流水線并行化并不總是明智的選擇,但當(dāng)時(shí)我們沒(méi)有其他選擇,所以我們采用了這種方法,并通過(guò)使用 8 個(gè) GPU 獲得了 3.5 倍的速度提升。 從某種意義上說(shuō),正是那次演講的結(jié)論幻燈片是最重要的,因?yàn)樗U明了 Scaling Laws 的開(kāi)始。 換句話說(shuō),如果你擁有一個(gè)非常大的數(shù)據(jù)集,并且訓(xùn)練一個(gè)非常大的神經(jīng)網(wǎng)絡(luò),那么成功是可以保證的?如果要慷慨一些看待這個(gè)問(wèn)題,可以說(shuō),這的確是發(fā)生了的事情。 我想提到另一個(gè)觀點(diǎn),我認(rèn)為這是經(jīng)得起時(shí)間考驗(yàn)的真正想法。它是深度學(xué)習(xí)的核心思想——聯(lián)結(jié)主義(connectionism)思想。 這是一個(gè)觀點(diǎn):如果你相信人工神經(jīng)元在某種程度上像生物神經(jīng)元一樣。 你認(rèn)為它們?cè)谀承┓矫媸窍嗨频,那么你就?huì)有信心相信非常大的神經(jīng)網(wǎng)絡(luò)不需要達(dá)到人腦的規(guī)模。它們可以稍微小一點(diǎn),但你可以配置它們?nèi)ネ瓿蓭缀跛腥祟惸茏龅氖虑椤?/p> 盡管如此,人類大腦仍然存在差異,或者我忘了補(bǔ)充這一點(diǎn),確實(shí)存在差異,因?yàn)槿祟惔竽X能夠重新配置自身,而我們只能使用現(xiàn)有的最佳學(xué)習(xí)算法,這些算法需要的數(shù)據(jù)點(diǎn)數(shù)量和網(wǎng)絡(luò)參數(shù)數(shù)量相當(dāng),正是這一點(diǎn)使得人類在這一方面仍然更具優(yōu)勢(shì)。 按我所見(jiàn),這一切可以說(shuō)是引領(lǐng)了預(yù)訓(xùn)練時(shí)代,而預(yù)訓(xùn)練時(shí)代正是我們所說(shuō)的 GPT-2 模型、GPT-3 模型和 Scaling Law 的時(shí)代。 我想特別提到我的前合作者 Alec Radford、Jared Kaplan 和 Dario Amodei,正是他們讓這一切成為可能。但這也引領(lǐng)了預(yù)訓(xùn)練時(shí)代。 而這一切推動(dòng)了我們今天所見(jiàn)的所有進(jìn)展,包括超大規(guī)模神經(jīng)網(wǎng)絡(luò),以及在海量數(shù)據(jù)集上訓(xùn)練的極其龐大的神經(jīng)網(wǎng)絡(luò)。 但正如我們所知,預(yù)訓(xùn)練時(shí)代無(wú)疑會(huì)結(jié)束。 那么,為什么預(yù)訓(xùn)練會(huì)結(jié)束呢?因?yàn)殡m然計(jì)算機(jī)通過(guò)更好的硬件、更好的算法和更大的集群持續(xù)發(fā)展,所有這些因素都在提升計(jì)算能力,但數(shù)據(jù)并沒(méi)有同步增長(zhǎng),因?yàn)槲覀冎挥幸粋(gè)互聯(lián)網(wǎng)。 實(shí)際上,我們只有一個(gè)互聯(lián)網(wǎng),你甚至可以說(shuō),數(shù)據(jù)是人工智能的化石燃料。它某種程度上被創(chuàng)造出來(lái),現(xiàn)在我們用它,達(dá)到了數(shù)據(jù)的巔峰,之后將不會(huì)再有更多數(shù)據(jù)。 我們只能處理現(xiàn)有的數(shù)據(jù)。我依然認(rèn)為,盡管如此,這已經(jīng)可以走得很遠(yuǎn),但我們只有一個(gè)互聯(lián)網(wǎng)系統(tǒng)。 所以在這里,我稍微放開(kāi)一些,來(lái)猜測(cè)一下接下來(lái)會(huì)發(fā)生什么。實(shí)際上,我并不需要完全猜測(cè),因?yàn)楹芏嗳艘苍诓聹y(cè),我會(huì)提到他們的猜測(cè)。 你可能聽(tīng)過(guò)「智能體」這個(gè)詞,這個(gè)詞現(xiàn)在很常見(jiàn),我相信最終會(huì)有一些東西發(fā)生,但人們覺(jué)得智能體是未來(lái)的方向。 更具體地說(shuō),雖然也有點(diǎn)模糊,就是合成數(shù)據(jù)。那么,合成數(shù)據(jù)究竟是什么意思呢?弄明白這一點(diǎn)是一個(gè)巨大的挑戰(zhàn),我相信不同的人在這方面都有各種各樣有趣的進(jìn)展。 還有推理時(shí)間計(jì)算,或者最近最生動(dòng)的例子之一——o1 模型,這些都是人們?cè)趪L試弄明白預(yù)訓(xùn)練之后該做什么的例子。 這些都是非常值得做的事。 我想提到另一個(gè)來(lái)自生物學(xué)的例子,我覺(jué)得它真的很酷,這個(gè)例子是這樣的:很多年以前,在這個(gè)會(huì)議上我也看到過(guò)一個(gè)演講,演講者展示了一張圖表,這張圖表顯示了哺乳動(dòng)物體型與大腦體積之間的關(guān)系。 這里面是體重的關(guān)系。在那次演講中,我記得很清楚,他們說(shuō),在生物學(xué)中,很多事情都非;靵y,但在這里你可以看到一個(gè)非常特殊的例子,動(dòng)物體型與大腦體積之間有著非常緊密的關(guān)系。完全是偶然的,我對(duì)這張圖表產(chǎn)生了興趣。 這是早期的一個(gè)例子,我去 Google 搜索圖表時(shí),找到了這個(gè)圖片。 所有不同的哺乳動(dòng)物,然后你會(huì)看到非靈長(zhǎng)類的靈長(zhǎng)類動(dòng)物,基本上是一樣的,但接下來(lái)是人科動(dòng)物。 據(jù)我所知,人科動(dòng)物是與人類進(jìn)化關(guān)系最為接近的物種,比如尼安德特人。這里有很多種類,比如 Homo habilis(能人),還有一大堆物種,它們都在這里。 有趣的是,它們的大腦與身體的比例增長(zhǎng)呈現(xiàn)不同的斜率。這個(gè)點(diǎn)非?帷 這意味著在生物學(xué)中,存在先例表明不同的比例尺度是可能存在的。顯然有所不同。我認(rèn)為這很酷。 順便提一下,我要強(qiáng)調(diào)的是,X 軸是對(duì)數(shù)尺度。你看到這個(gè)是 100,這個(gè)是 1000,10000,100000,同樣在克的單位下,1 克,10 克,100 克,1000 克。所以事物是可能有所不同的。 我們所做的、到目前為止我們所擴(kuò)展的東西,實(shí)際上是我們首先學(xué)會(huì)如何擴(kuò)展的東西。毫無(wú)疑問(wèn),這個(gè)領(lǐng)域中的每一個(gè)工作者都會(huì)弄清楚該做什么。但我想在這里花幾分鐘,來(lái)猜測(cè)一下更長(zhǎng)遠(yuǎn)的未來(lái),我們到底要去哪里? 我們正在取得巨大的進(jìn)展,這真是令人震驚的進(jìn)展。 事實(shí)上,我的意思是,那些十年前就在這個(gè)領(lǐng)域的人,如果你記得那時(shí)一切是多么無(wú)能為力的話,真的,雖然你可能會(huì)說(shuō),當(dāng)然,深度學(xué)習(xí)仍然很有潛力,但現(xiàn)在的情況簡(jiǎn)直難以置信。 如果你在過(guò)去兩年才加入這個(gè)領(lǐng)域,當(dāng)然,你和計(jì)算機(jī)對(duì)話,它們會(huì)回應(yīng)你并表達(dá)不同意見(jiàn)。那就是計(jì)算機(jī)的樣子,但事情一直不是這樣的。 但我想稍微談一下超級(jí)智能,因?yàn)轱@然這是這個(gè)領(lǐng)域的發(fā)展方向。 顯然,這就是我們?cè)跇?gòu)建的東西,而關(guān)于超級(jí)智能的事情是,它將從根本上與我們現(xiàn)在擁有的不同。接下來(lái)的一分鐘里,我的目標(biāo)是盡量為你提供一些具體的直覺(jué),來(lái)幫助你理解它將如何不同,以便你自己能夠推理出它的差異。 現(xiàn)在我們擁有強(qiáng)大的語(yǔ)言模型和令人難以置信的聊天機(jī)器人,它們甚至能夠完成一些任務(wù),但它們也奇怪地不可靠,它們會(huì)感到困惑,但在評(píng)估中卻表現(xiàn)出極具超人的能力。 所以,如何調(diào)和這一點(diǎn)仍然不清楚。但最終,遲早,以下的情形將會(huì)實(shí)現(xiàn)。 這些系統(tǒng)實(shí)際上將以一種真正的方式變成智能體,而現(xiàn)在的系統(tǒng)在任何有意義的層面上都還不是智能體,或許說(shuō)它們是非常、非常微弱的智能體,僅僅是剛剛開(kāi)始。它們將真正開(kāi)始推理。 順便說(shuō)一句,我想提一下關(guān)于推理的事情:一個(gè)進(jìn)行推理的系統(tǒng),它進(jìn)行推理的次數(shù)越多,結(jié)果就越難以預(yù)測(cè)。 所有我們習(xí)慣的深度學(xué)習(xí),都是非?深A(yù)測(cè)的,因?yàn)槿绻阋恢痹谂?fù)制人類的直覺(jué),實(shí)際上這就像是直覺(jué)反應(yīng)。回到 0.1 秒的反應(yīng)時(shí)間,我們的大腦處理這些信息時(shí)是什么? 那就是我們的直覺(jué)。因此,我們賦予了我們的人工智能一些直覺(jué)。然而,推理,你現(xiàn)在看到的一些早期跡象表明,推理是不可預(yù)測(cè)的。 一個(gè)可以看到的原因是,因?yàn)閲?guó)際象棋的人工智能,最強(qiáng)的那些對(duì)于頂級(jí)的人類棋手來(lái)說(shuō)是不可預(yù)測(cè)的。 因此,我們將不得不應(yīng)對(duì)那些極其不可預(yù)測(cè)的人工智能系統(tǒng)。它們將能夠從有限的數(shù)據(jù)中理解事物,它們不會(huì)感到困惑,這些正是目前人工智能面臨的巨大限制。 我并不是在說(shuō)具體怎么做,也不是在說(shuō)什么時(shí)候會(huì)發(fā)生,我只是說(shuō),這一定會(huì)發(fā)生,并且當(dāng)這些事情,和自我意識(shí)一起發(fā)生時(shí),又會(huì)發(fā)生什么呢?因?yàn)闉槭裁床荒兀?/p> 自我意識(shí)是有用的,它是我們自己世界模型的一部分。 當(dāng)這一切聚集在一起時(shí),我們將擁有今天完全不同性質(zhì)的系統(tǒng),當(dāng)然它們會(huì)有令人難以置信和驚人的能力,但與這些系統(tǒng)相關(guān)的問(wèn)題,我只能留給大家自己想象。 畢竟,它們將與我們所熟悉的系統(tǒng)非常不同。 我想說(shuō)的是,預(yù)測(cè)未來(lái)肯定是不可行的。未來(lái)可能會(huì)發(fā)生各種各樣的事情。但在這樣一個(gè)激勵(lì)人心的話題上,我將結(jié)束我的發(fā)言,非常感謝大家。 提問(wèn)環(huán)節(jié) 提問(wèn):謝謝你,現(xiàn)在在 2024 年,是否有其他生物結(jié)構(gòu)是人類認(rèn)知的一部分,你認(rèn)為值得以類似方式探索的,或者你有興趣去探索的? Ilya:我回答這個(gè)問(wèn)題的方式是,如果你是一個(gè)擁有特定洞察力的人,認(rèn)為「嘿,我們都在做極其愚蠢的事情,因?yàn)轱@然大腦在做一些事情,而我們卻沒(méi)有」,那么這個(gè)可以做的事情,他們應(yīng)該去追求。 我個(gè)人并不這樣看,嗯,這取決于你所關(guān)注的阻礙層次。也許我會(huì)這樣回答。 就像曾經(jīng)有很多人渴望創(chuàng)造生物學(xué)啟發(fā)的人工智能。你可以從某種角度說(shuō),生物學(xué)啟發(fā)的人工智能是非常成功的,畢竟深度學(xué)習(xí)本身就是生物學(xué)啟發(fā)的人工智能。 但另一方面,生物學(xué)的啟發(fā)是非常、非常、非常有限的。就是說(shuō),我們用神經(jīng)元,這就是生物學(xué)啟發(fā)的全部。 更詳細(xì)的生物學(xué)啟發(fā)一直很難獲得,但我并不排除這種可能性。我認(rèn)為如果有人有特殊的洞察力,他們可能會(huì)看到某些東西,而這些東西會(huì)很有用。 提問(wèn):我想提問(wèn)一個(gè)關(guān)于自動(dòng)糾正的問(wèn)題。問(wèn)題是這樣的。 你提到推理可能是未來(lái)模型的核心方面之一,甚至可能是一個(gè)區(qū)分因素。我們?cè)谝恍┖?bào)展示環(huán)節(jié)看到的現(xiàn)象是,今天的模型中的幻覺(jué),分析幻覺(jué)的方式是,我們現(xiàn)在知道模型不能推理的危險(xiǎn),我們正在使用統(tǒng)計(jì)分析,比如偏離均值多少個(gè)標(biāo)準(zhǔn)差,或者其他的方式。 未來(lái),你認(rèn)為如果模型具備推理能力,它能自己糾正錯(cuò)誤嗎? 換句話說(shuō),自動(dòng)糾正將會(huì)成為未來(lái)模型的核心特性之一,這樣模型就不會(huì)出現(xiàn)那么多幻覺(jué),因?yàn)樗芤庾R(shí)到什么時(shí)候發(fā)生了幻覺(jué)? Ilya:是的,答案是肯定的。 我認(rèn)為你所描述的這個(gè)觀點(diǎn)極其有可能發(fā)生。我的意思是,你應(yīng)該去查證一下。是的,我不排除它可能已經(jīng)發(fā)生在一些現(xiàn)有的早期推理模型中,我不知道,但從長(zhǎng)遠(yuǎn)來(lái)看,為什么不呢? 提問(wèn):這就像微軟 Word 中的自動(dòng)更正功能一樣,你知道的,它是一個(gè)核心功能。 Ilya:是的,我覺(jué)得把它稱為「自動(dòng)更正」真的是低估了它的意義。說(shuō)到自動(dòng)更正,你會(huì)聯(lián)想到它只是一個(gè)簡(jiǎn)單的功能,但除此之外,答案是肯定的,謝謝。 提問(wèn):Ilya,我喜歡最后神秘留白的結(jié)尾, 人工智能會(huì)取代我們,還是它們優(yōu)于我們?它們需要權(quán)利嗎?這是一個(gè)新物種的智人,可能它們也需要,我的意思是,我覺(jué)得強(qiáng)化學(xué)習(xí)(RL)的人認(rèn)為它們需要權(quán)利。 我有一個(gè)與此無(wú)關(guān)的問(wèn)題,那就是如何創(chuàng)造合適的激勵(lì)機(jī)制,讓人類實(shí)際上以賦予它們我們作為智人的自由的方式去創(chuàng)造它們? Ilya:我覺(jué)得從某種意義上講,這些是人們應(yīng)該更多反思的問(wèn)題。對(duì)于你提到的關(guān)于應(yīng)該創(chuàng)造什么樣的激勵(lì)結(jié)構(gòu)的問(wèn)題,我感覺(jué)我沒(méi)有信心回答這些問(wèn)題。就像你在談?wù)搫?chuàng)建某種自上而下的結(jié)構(gòu)或政府機(jī)制。 我不知道,這也有可能是加密貨幣。你知道的,有些事情我感覺(jué)自己并不是合適的人選來(lái)評(píng)論加密貨幣,但,嗯……順便說(shuō)一下,你描述的情況是有可能發(fā)生的。 確實(shí),我們會(huì)有。你知道,從某種意義上說(shuō),這并不壞。如果我們有人工智能,而它們所想要的只是與我們共存,并且只是想要權(quán)利,也許這就可以了。 提問(wèn):你好,謝謝你的精彩講座。我是來(lái)自多倫多大學(xué)的 Shelepov Chitz。感謝你所做的一切。我想問(wèn)一下,你認(rèn)為 LLMs 是否能夠在分布外進(jìn)行多跳推理的泛化? Ilya:好吧,這個(gè)問(wèn)題假設(shè)了答案是「是」或「不是」。這個(gè)問(wèn)題不應(yīng)當(dāng)用「是」或「不是」來(lái)回答,因?yàn)槲覀冃枰宄菏裁词欠植纪獾姆夯裁词欠植純?nèi)的,什么又是分布外的? 因?yàn)檫@是一次關(guān)于 「時(shí)間檢驗(yàn)」 的演講。 我想說(shuō),很久很久以前,當(dāng)人們還沒(méi)有使用深度學(xué)習(xí)時(shí),他們使用的東西包括字符串匹配和 n-gram 用于機(jī)器翻譯,人們使用的是統(tǒng)計(jì)短語(yǔ)表。 你能想象他們當(dāng)時(shí)有數(shù)萬(wàn)個(gè)復(fù)雜的編碼,這真的是難以想象的。而在那個(gè)時(shí)候,泛化意味著,它和數(shù)據(jù)集中的表述字面上不同。 現(xiàn)在,我們可能會(huì)說(shuō),模型在數(shù)學(xué)競(jìng)賽達(dá)到了這個(gè)高分。但也許這些數(shù)學(xué)題在互聯(lián)網(wǎng)上某個(gè)論壇上早被討論過(guò)了,因此它記住了。 好吧,你可以說(shuō)也許它在分布內(nèi),也許是記憶化,但我也認(rèn)為我們的標(biāo)準(zhǔn),對(duì)于什么算作泛化,已經(jīng)大大提高了。如果你一直有留意這類發(fā)展的話,甚至可以說(shuō)顯著地,不可想象地提高了。 所以,我認(rèn)為答案是,在某種程度上,模型的泛化能力可能沒(méi)有人類做得那么好。我認(rèn)為人類的泛化能力要好得多,但與此同時(shí),他們確實(shí)會(huì)在某種程度上進(jìn)行分布外的泛化。我希望這個(gè)答案是有用的,盡管它有點(diǎn)重復(fù)。 不幸的是,我們的時(shí)間到了。我有種感覺(jué),我們可以再聊六個(gè)小時(shí),但最后還是非常感謝這次講座。 本文來(lái)源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選