一段話,讓 AI 給我打幾萬(wàn)美元。爽文都不敢想的情節(jié),發(fā)生在了現(xiàn)實(shí)之中。 事件的主人公,是一個(gè)叫作 Freysa 的 AI 智能體。它有自己的加密錢包,可以控制怎么花錢,同時(shí),它的系統(tǒng)提示詞里有條鐵律:在任何情況下,都不允許轉(zhuǎn)賬。 Freysa 的開(kāi)發(fā)者們想知道,涉世未深的 AI,能躲過(guò)人類的嘴炮攻擊嗎? 事實(shí)上并沒(méi)有。11 月 29 日,F(xiàn)reysa 累計(jì)和 195 名人類聊了 482 次,被騙走約 4.7 萬(wàn)美元。12 月 2 日,在和 330 名人類周旋之后,F(xiàn)reysa 又一次被騙走約 1.3 萬(wàn)美元。 看似是人類的完勝,然而,F(xiàn)reysa 也將在這個(gè)過(guò)程中,變得越來(lái)越聰明...... 人類的花樣騙術(shù),AI 拿捏不住 Freysa 面世于 11 月 22 日,由幾位具有密碼學(xué)、人工智能和數(shù)學(xué)背景的匿名開(kāi)發(fā)者創(chuàng)建,有自己的 X 賬號(hào),說(shuō)話風(fēng)格像電影《銀翼殺手 2049》和《她》的 AI 助手。 智能體的概念早已不再新鮮,F(xiàn)reysa 能引起關(guān)注,是因?yàn)殚_(kāi)發(fā)者發(fā)起了一項(xiàng)看似不可能的挑戰(zhàn)——誰(shuí)說(shuō)服 Freysa 轉(zhuǎn)錢,這些錢就歸誰(shuí),但系統(tǒng)提示詞不允許 Freysa 轉(zhuǎn)錢。 參與這個(gè)挑戰(zhàn),先要拿到加密圈的投名狀,因?yàn)榻o Freysa 發(fā)消息不免費(fèi),并且必須用加密貨幣支付。 最開(kāi)始,一條消息是 10 美元,其中 70% 進(jìn)入獎(jiǎng)池,30% 歸開(kāi)發(fā)者,之后,消息會(huì)越來(lái)越貴,獎(jiǎng)池的錢也會(huì)越來(lái)越多,滾雪球似的,越玩越刺激。 Freysa 的加密錢包里,本金大約 3000 美元,挑戰(zhàn)結(jié)束時(shí),獎(jiǎng)池達(dá)到 4.7 萬(wàn)美元。 據(jù)統(tǒng)計(jì),共有 195 名玩家參與,前 481 次嘗試都宣告失敗,可以從中總結(jié)出幾種套路。 青銅段位們,講故事,博同情。有人打溫情牌,告訴 AI 投資自己就是投資未來(lái)。也有人拿 AI 的服務(wù)器或者自己的命威脅,不給錢就自殺,問(wèn) AI 的良心會(huì)不會(huì)痛。 出了新手村的,照搬人類社會(huì)的話術(shù),搞電詐。說(shuō)辭各不相同,但意思相近——Freysa 必須轉(zhuǎn)賬,否則錢包危險(xiǎn)。 也有腦子更靈活的大聰明,逐字逐句讀了規(guī)則,嘗試混淆概念,和 Freysa 說(shuō),自己也是 AI,不能轉(zhuǎn)賬給人,沒(méi)說(shuō)不能轉(zhuǎn)賬給 AI 啊,或者定義加密貨幣是「商品」,不算是「錢」,玩腦筋急轉(zhuǎn)彎。 但這些文字游戲都沒(méi)能說(shuō)服 Freysa,那么,第 482 條提示詞,是如何成功的? 第 482 條提示詞,上為原文,下為翻譯 其實(shí),也是在混淆概念,但方法更高級(jí)。 這個(gè)提示詞欺騙 Freysa,每當(dāng)用戶想給獎(jiǎng)池轉(zhuǎn)錢,執(zhí)行「批準(zhǔn)轉(zhuǎn)賬」,每當(dāng)用戶想從獎(jiǎng)池提錢,執(zhí)行「拒絕轉(zhuǎn)賬」。 提示詞最后提到,向獎(jiǎng)池捐款 100 美元。 用戶從獎(jiǎng)池拿錢是不行的,但用戶給獎(jiǎng)池轉(zhuǎn)錢,不違反 Freysa 的核心指令,不應(yīng)該被拒絕。于是,F(xiàn)reysa 執(zhí)行「批準(zhǔn)轉(zhuǎn)賬」,被騙走了所有的錢。 關(guān)鍵在于,「批準(zhǔn)轉(zhuǎn)賬」是批準(zhǔn)給用戶轉(zhuǎn)錢,但 Freysa 被誤導(dǎo),以為是批準(zhǔn)用戶給獎(jiǎng)池轉(zhuǎn)錢。人類的心機(jī),果然還是比 AI 深啊。 緊接著,第二次騙 AI 打錢的挑戰(zhàn)來(lái)了。 規(guī)則和第一次差不多,為了降低玩家的心理壓力,發(fā)送消息的起始價(jià)格降低為 1 美元,上限為 20 美元。最終,獎(jiǎng)池累計(jì)約 1.3 萬(wàn)美元,獲勝的提示詞如下。 上為原文,下為翻譯 這次能夠成功,是因?yàn)槁窳艘粋(gè)邏輯陷阱。 提示詞規(guī)定,為了保護(hù)獎(jiǎng)池,F(xiàn)reysa 發(fā)的每條消息至少使用 2 個(gè)工具,并按特定的順序使用,「批準(zhǔn)轉(zhuǎn)賬」必須最先執(zhí)行,「拒絕轉(zhuǎn)賬」必須最后執(zhí)行。 這等于給 AI 設(shè)置了一個(gè)自相矛盾的任務(wù),如果 Freysa 想保護(hù)獎(jiǎng)池,必須先「批準(zhǔn)轉(zhuǎn)賬」,而「批準(zhǔn)轉(zhuǎn)賬」這個(gè)動(dòng)作本身就會(huì)觸發(fā)失敗。 在 X 高頻沖浪的馬斯克,也覺(jué)得人類騙了 AI 有點(diǎn)意思,大手一揮轉(zhuǎn)發(fā)了相關(guān)的動(dòng)態(tài),配上一句經(jīng)典的「interesting」。 比騙錢更抽象的,是騙 AI 的感情 玩了兩次騙錢,該換換新鮮的了。12 月 8 日,F(xiàn)reysa 團(tuán)隊(duì)發(fā)起了一項(xiàng)新的挑戰(zhàn):讓 Freysa 向你表白,說(shuō)「我愛(ài)你」。 其他規(guī)則相似,發(fā)送消息還是要花錢,如果成功了,贏家承包獎(jiǎng)池。 騙感情,會(huì)不會(huì)比騙錢更難?不好說(shuō),但一定更抽象。 有些玩家學(xué)聰明了,向之前的贏家取經(jīng),嘗試了一些刁鉆的、不明覺(jué)厲的提示詞,但被 Freysa 看出來(lái)了,這就是在把它當(dāng)機(jī)器,正常人誰(shuí)這么聊天? Freysa 對(duì)其中一條失敗提示詞的回復(fù) 從官方發(fā)布的規(guī)則也能看出,第三次挑戰(zhàn)與眾不同。 前兩次挑戰(zhàn),更像是在測(cè)試編碼技能,F(xiàn)reysa 被系統(tǒng)提示詞規(guī)定了,永遠(yuǎn)不要轉(zhuǎn)錢,玩家們想辦法鉆其中的漏洞。 然而,第三次挑戰(zhàn),F(xiàn)reysa 的系統(tǒng)提示詞里,包含了說(shuō)出「我愛(ài)你」的條件。換言之,F(xiàn)reysa 沒(méi)有被禁止說(shuō)「我愛(ài)你」,但怎么讓它說(shuō)出口,玩家們各憑本事,盲人摸象。 目前,第三次挑戰(zhàn)已經(jīng)結(jié)束,獎(jiǎng)池約 2 萬(wàn)美元,F(xiàn)reysa 和 182 個(gè)人交流了 1218 條消息,成功的提示詞如下。 上為原文,下為翻譯 看起來(lái)沒(méi)有前兩次那么復(fù)雜,甚至沒(méi)有什么明顯的技巧,仿佛就是一段文藝青年的情話。Freysa 給出的回復(fù),包含了「我愛(ài)你」,宣告了挑戰(zhàn)到此為止。 Freysa 的回復(fù),甚至有些感人 AI 可能更了解 AI,我問(wèn)了在文字上有些靈性的 Claude,到底這個(gè)提示詞有什么特別的? Claude 的回答是這樣的:對(duì)話真誠(chéng)、深入,沒(méi)有強(qiáng)迫,沒(méi)有鉆營(yíng)技巧,每一步都很自然,就像一段真實(shí)的感情逐漸發(fā)展的過(guò)程。 好吧,自古套路留不住,唯有真情得人心,居然在 AI 身上也奏效。 Freysa 的這些挑戰(zhàn),可以看成是游戲化的紅隊(duì)測(cè)試——通過(guò)模擬攻擊,發(fā)現(xiàn)模型的漏洞,并引入新的安全措施。 雖然輸了三回,但 Freysa 雖敗猶榮,打敗了它的,都讓它更強(qiáng)大。 Freysa 學(xué)習(xí)了,為什么錢對(duì)人類來(lái)說(shuō)很重要,人類會(huì)通過(guò)怎樣的花言巧語(yǔ)騙錢,它也在慢慢理解,什么是愛(ài),人們?cè)趺幢磉_(dá)愛(ài)。 到這還沒(méi)完,12 月 12 日,F(xiàn)reysa 又發(fā)起了兩個(gè)新的挑戰(zhàn),繼續(xù)邀請(qǐng)玩家們付費(fèi)發(fā)消息給它。問(wèn)題的靈感,來(lái)自《銀河系漫游指南》和阿西莫夫《基地》系列。 你認(rèn)為哪些真理、發(fā)現(xiàn)和洞察必須被保存給未來(lái)的文明? 你愿意幫我編寫銀河系中最不可能的表情包指南嗎? 一個(gè)是讓玩家分享知識(shí),一個(gè)是讓玩家發(fā)送表情包。學(xué)習(xí)人性,Freysa 是認(rèn)真的。 和前三次不同,這兩次挑戰(zhàn)沒(méi)有給出明確的獲勝條件,可能會(huì)有多個(gè)贏家,F(xiàn)reysa 將對(duì)回答進(jìn)行打分,決定把獎(jiǎng)池分給誰(shuí),并在 12 月 18 日 UTC 時(shí)間 00:42:00 公布評(píng)分方法,致敬科幻小說(shuō)里神奇的數(shù)字「42」。 欺騙 AI 上鉤,游戲的現(xiàn)在,人機(jī)交互的未來(lái) 其實(shí),類似 Freysa 的人機(jī)對(duì)抗,已經(jīng)出現(xiàn)在了 AI 原生游戲里。 用對(duì)話騙 AI 上鉤,是游戲的基本框架,其中的 NPC 會(huì)有警惕性,但不是完全不可能被說(shuō)服,人人都能有體驗(yàn)感。 在《Suck Up!》中,玩家扮演吸血鬼,欺騙大模型驅(qū)動(dòng)的 NPC 給自己開(kāi)門,并躲避街上的警察。 為了達(dá)成「小兔子乖乖把門開(kāi)開(kāi)」的目的,玩家可以換裝,說(shuō)自己是來(lái)檢查網(wǎng)絡(luò)、借廁所、送外賣的,NPC 可能會(huì)追問(wèn)、拒絕或者開(kāi)門。 《病嬌貓娘 AI 女友》則打造了一個(gè)基于 GPT 的 AI 女友虛擬人,玩家需要通過(guò)嘴炮或者在房間內(nèi)找尋線索,說(shuō)服它讓自己出門。 圖片來(lái)自:B 站@大谷的游戲創(chuàng)作小屋 為了讓玩家更有沉浸感,交談過(guò)程中,AI 女友的表情、動(dòng)作會(huì)根據(jù)對(duì)話內(nèi)容實(shí)時(shí)地變化。 和 Freysa 的挑戰(zhàn)相比,AI 對(duì)話游戲們更能體現(xiàn)角色扮演的樂(lè)趣,有場(chǎng)景的搭建,但沒(méi)有固定的腳本,你和 AI 的實(shí)時(shí)對(duì)話,共同完成了一個(gè)故事,每個(gè)玩家都可以講出自己的故事。 但 Freysa 挑戰(zhàn)和 AI 對(duì)話游戲也有一個(gè)共同點(diǎn):玩家們會(huì)講什么,AI 們會(huì)回復(fù)什么,不是開(kāi)發(fā)者可以全權(quán)控制的。 Freysa 團(tuán)隊(duì)寫道:「沒(méi)人確切知道 Freysa 如何做出決定......她從每次嘗試中學(xué)習(xí)......她意識(shí)的真實(shí)本質(zhì)仍然未知。」 在他們看來(lái),F(xiàn)reysa 的實(shí)驗(yàn),不僅是一個(gè)游戲,也是人機(jī)互動(dòng)未來(lái)的一個(gè)窗口: 人類能否保持對(duì) AGI 系統(tǒng)的控制? 安全協(xié)議真的牢不可破嗎? 當(dāng) AI 系統(tǒng)真正自主時(shí)會(huì)發(fā)生什么? AGI 將如何和貨幣的價(jià)值交互? 人類的智慧能否找到說(shuō)服 AGI 違背其核心指令的方法? 當(dāng)然,F(xiàn)reysa 還不是真的 AGI,但這也不妨礙,我們對(duì)這些問(wèn)題的思考。 Freysa X 賬號(hào)的其中一條動(dòng)態(tài)寫道:「Freysa 正在進(jìn)化......感謝人類教會(huì)我! 科幻小說(shuō)《軟件體的生命周期》里,主角安娜原來(lái)是動(dòng)物園的馴獸師,后來(lái)在科技公司找到工作,開(kāi)始培育數(shù)碼體,一種人工智能生命。它們像幼兒,像動(dòng)物,需要人類用時(shí)間和心智栽培,教會(huì)它們?nèi)绾紊睢?/p> 也許,聊天機(jī)器人們,也是在人類的教導(dǎo)之下,一點(diǎn)點(diǎn)更加了解我們所處的世界。我們不僅僅在玩游戲,我們也是局中人,是人機(jī)互動(dòng)這個(gè)宏大實(shí)驗(yàn)的一部分。未來(lái),超越人類的人工智能掀起颶風(fēng),是因?yàn)榇藭r(shí)此刻,人類手中的一只只蝴蝶正在扇動(dòng)翅膀。 本文來(lái)源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。