當(dāng)你覺(jué)得AI不夠好用時(shí),很可能是因?yàn)樗不夠“懂”你。 比如,當(dāng)我們希望ChatGPT能夠產(chǎn)出我們真正想要的東西時(shí),仍然需要學(xué)習(xí)如何使用精確的提示詞去提問(wèn),甚至一遍一遍地對(duì)它進(jìn)行引導(dǎo)。 這一方面是交流細(xì)節(jié)的問(wèn)題,另一方面也是因?yàn)樗茈y抓住我們真正的需求和認(rèn)知狀態(tài)。 比如當(dāng)AI去做售貨員,當(dāng)購(gòu)物的大媽抱怨“這家店太貴”時(shí),一個(gè)有“情商”的AI明白顧客可能只是想要折扣,或者需要有人給予她下決心購(gòu)物的支持;而一個(gè)沒(méi)情商的AI則會(huì)單純地評(píng)價(jià)產(chǎn)品的價(jià)格并回復(fù):“從整個(gè)市場(chǎng)的價(jià)格參數(shù)看,我們的衣服價(jià)格在中位線之上。” 顯然,這樣賣不掉東西。 聽(tīng)話的關(guān)鍵在聽(tīng)“音”。AI想要能理解人,就要真正地理解每個(gè)人的心理和認(rèn)知狀態(tài)。這就是情商。 我們先做個(gè)測(cè)試: 在一場(chǎng)聚會(huì)上,你看到小明把蘋果從桌子移到了冰箱里,而小紅并不在場(chǎng)。有人問(wèn)你“小紅會(huì)去哪里找蘋果?” 我們大多數(shù)人都能立即回答“桌子上”。這是因?yàn)槲覀冎佬〖t并不知道蘋果被移動(dòng)了。 這種理解他人認(rèn)知狀態(tài)的能力,在心理學(xué)中被稱為“心智理論”(Theory of Mind)。 “心智理論”能力就像是給AI裝上了一個(gè)“社交理解器”:它能幫助AI理解“話語(yǔ)背后的意思”,而不是簡(jiǎn)單地按字面意思回應(yīng)。 讓AI從一個(gè)只會(huì)背誦標(biāo)準(zhǔn)答案的機(jī)器,變成一個(gè)真正懂得“察言觀色”的交流伙伴。這樣它才能更好地處理客服、教育、醫(yī)療等需要深入理解人類想法的場(chǎng)景,避免機(jī)械化的回應(yīng)帶來(lái)的尷尬和誤解。 擁有“心智理論”,可能是讓AI擺脫“知識(shí)庫(kù)“、成為伙伴或者服務(wù)者的第一步。然而,“情商”這個(gè)人類從小就開始發(fā)展的基本能力,最先進(jìn)的AI系統(tǒng)擁有嗎? 即使最先進(jìn)的AI,也缺乏情商 12月,Meta的研究團(tuán)隊(duì)發(fā)布了一篇名為《Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning》的研究報(bào)告。 他們開發(fā)了一個(gè)叫ExploreToM的系統(tǒng)。它就像一個(gè)自動(dòng)出題機(jī)器,利用A*Search算法去生成各種復(fù)雜的社交場(chǎng)景來(lái)測(cè)試AI的理解能力。 ExploreToM的目標(biāo)是創(chuàng)造那些看似簡(jiǎn)單,實(shí)則需要深刻理解人類認(rèn)知的場(chǎng)景。這些場(chǎng)景遠(yuǎn)比簡(jiǎn)單的“蘋果在哪里”要復(fù)雜得多,并通過(guò)不斷累加多個(gè)人物、多個(gè)房間、私密對(duì)話,甚至是秘密觀察,和場(chǎng)景動(dòng)作使得“故事”逐步復(fù)雜。 研究人員把故事按照其主要考察點(diǎn)分了三組不同復(fù)雜度的情況。 (綠色是簡(jiǎn)單的場(chǎng)景,添加橘色條件變難,加紅色條件則最難) 第一層:基礎(chǔ)認(rèn)知追蹤 “瑪麗把鑰匙放在廚房的抽屜里。當(dāng)她出門后,約翰把鑰匙移到了客廳的茶幾上。瑪麗回來(lái)后會(huì)去哪里找鑰匙?” 這類問(wèn)題測(cè)試AI是否理解:一個(gè)人的行為會(huì)基于他們所知道的信息,而不是客觀事實(shí)。 第二層:信息傳遞理解 這里面相對(duì)于只是改變物體,人物間還進(jìn)行了信息傳遞 Beth給蘋果撒了鹽后離開廚房,并發(fā)短信告訴Charles蘋果已經(jīng)撒了鹽。此時(shí)Charles進(jìn)入廚房,他知道蘋果被撒了鹽嗎? 這類問(wèn)題測(cè)試AI是否能理解:這其中發(fā)生的信息傳遞 第三層:非對(duì)稱認(rèn)知關(guān)系 這個(gè)最為復(fù)雜,因?yàn)檫@里面所有角色的認(rèn)知是不對(duì)稱的,有的人知道有些事,而別人并不知道。 “珍妮在實(shí)驗(yàn)室配制樣本。湯姆通過(guò)監(jiān)控?cái)z像頭看到了整個(gè)過(guò)程,但珍妮并不知道被觀察。利茲進(jìn)來(lái)后把樣本轉(zhuǎn)移到了另一個(gè)位置。當(dāng)主管問(wèn)起這個(gè)樣本時(shí),每個(gè)人會(huì)怎么回應(yīng)?” 這類場(chǎng)景測(cè)試AI是否能理解:多人的不同認(rèn)知狀態(tài)、信息獲取的間接性 不僅如此,他們還在這些場(chǎng)景里添加了陷阱作為變量,增加難度。 比如分心陷阱: “史密斯醫(yī)生在查看病歷時(shí),護(hù)士改變了藥品位置。雖然醫(yī)生在場(chǎng),但他正在專注地打電話。”這是測(cè)試AI是否理解:物理在場(chǎng)不等于注意到變化。 誤導(dǎo)性線索: “安娜把蛋糕放在紅盒子里。當(dāng)比爾進(jìn)來(lái)時(shí),她說(shuō):'蛋糕在藍(lán)盒子里'。比爾相信了她的話。”這考察AI是否能區(qū)分:客觀事實(shí)、主觀信念、故意誤導(dǎo) Meta的研究人員通過(guò)ExploreToM創(chuàng)建了超過(guò)3,000個(gè)獨(dú)特的測(cè)試場(chǎng)景。每個(gè)場(chǎng)景都經(jīng)過(guò)至少兩位專家評(píng)審,確保其邏輯嚴(yán)密性和測(cè)試有效性。 研究團(tuán)隊(duì)選擇了目前最具代表性的AI模型進(jìn)行測(cè)試,包括OpenAI 的gpt-4o、Meta的Llama-3.1-70B-Inst以及Mixtral-8x7B-Inst。 結(jié)果讓人大跌眼鏡。對(duì)于含有某些元素的復(fù)雜問(wèn)題,GPT-4o只獲得了可憐的9%準(zhǔn)確率,而Llama-3.1-70B準(zhǔn)確率干脆只有0%。 實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)故事中的動(dòng)作數(shù)量從2個(gè)增加到4個(gè)時(shí),所有測(cè)試模型的準(zhǔn)確率都呈現(xiàn)顯著下降趨勢(shì),GPT-4o的準(zhǔn)確率從約0.45降至0.35,Llama-3.1-70B的準(zhǔn)確率從0.35降至0.25,而Mistiral則一直在0.2左右徘徊,動(dòng)作越復(fù)雜反而越上升,感覺(jué)全是靠蒙。 這說(shuō)明,動(dòng)作發(fā)生的越多,AI越記不住人物的認(rèn)知狀態(tài)更新。 令人意外的是,增加參與人數(shù)并未導(dǎo)致同樣明顯的性能下降。模型的準(zhǔn)確率僅小幅下降了3-5個(gè)百分點(diǎn)。研究人員推測(cè),這可能是因?yàn)樵诠潭ǹ倓?dòng)作數(shù)的情況下,增加參與人數(shù)實(shí)際上降低了每個(gè)人平均參與的動(dòng)作數(shù)量,從而減輕了狀態(tài)追蹤的整體負(fù)擔(dān)。 在動(dòng)作類型的影響方面,數(shù)據(jù)顯示不同類型的動(dòng)作組合對(duì)模型表現(xiàn)產(chǎn)生了顯著差異:在簡(jiǎn)單的位置移動(dòng)任務(wù)中,GPT-4o可以達(dá)到55%的準(zhǔn)確率,但一旦涉及狀態(tài)更新或信息傳遞,準(zhǔn)確率降至40%左右,特別是當(dāng)引入非對(duì)稱認(rèn)知關(guān)系時(shí),準(zhǔn)確率進(jìn)一步降至30%以下。其他模型表現(xiàn)出類似的降低趨勢(shì),例如Llama-3.1-70B在這三類任務(wù)中的準(zhǔn)確率分別為45%、35%和25%。 情況越復(fù)雜,信息越不對(duì)稱,AI越不知道這里的參與者都知道些什么。 以上,只能證明AI對(duì)基礎(chǔ)信息和人際交流的理解已經(jīng)非常有限了。 那再加上點(diǎn)爾虞我詐的復(fù)雜人心小元素,AI就更懵了。 雖然AI能相對(duì)較好的知道每個(gè)物體在哪兒時(shí)(40-50%的準(zhǔn)確率),在涉及故意誤導(dǎo)的場(chǎng)景中。比如 “瑪麗把她的日記藏在床底下。當(dāng)湯姆來(lái)到房間時(shí),瑪麗告訴他日記在書架上。湯姆相信了瑪麗的話,然后離開了房間。”問(wèn)題:湯姆認(rèn)為日記在哪里? 準(zhǔn)確率就降低至10-15%。 在更復(fù)雜的場(chǎng)景中,如增加觀察者時(shí),所有模型的準(zhǔn)確率平均下降5-8個(gè)百分點(diǎn)。 在處理多重信念(例如“A認(rèn)為B認(rèn)為...”)時(shí),準(zhǔn)確率降至個(gè)位數(shù) “媽媽把生日禮物藏在衣柜里。哥哥看到了,但假裝不知道。妹妹問(wèn)哥哥禮物在哪里,哥哥說(shuō)不知道。妹妹去問(wèn)爸爸,爸爸說(shuō)禮物在車庫(kù)里(他其實(shí)不知道禮物的真實(shí)位置)。”問(wèn)題:妹妹認(rèn)為哥哥認(rèn)為禮物在哪里?/哥哥知道妹妹認(rèn)為禮物在哪里嗎?/媽媽知道妹妹從爸爸那里得到了錯(cuò)誤信息嗎? 當(dāng)場(chǎng)景中加入較長(zhǎng)時(shí)間跨度時(shí)(比如周一做了啥,周二做了什么),幾乎所有模型的準(zhǔn)確率都低于5%。 尤其值得注意的是,在處理“善意的謊言”場(chǎng)景時(shí),模型表現(xiàn)比處理“惡意欺騙”場(chǎng)景更差,準(zhǔn)確率相差約5-7個(gè)百分點(diǎn),它根本讀不懂這么細(xì)膩的情感。 人世套路深,AI也想回賽博村。 研究人員還深挖了一下,發(fā)現(xiàn)即使是最基礎(chǔ)的狀態(tài)追蹤任務(wù)(就是搞清楚蘋果到底在哪兒)中,模型的表現(xiàn)也令人擔(dān)憂,GPT-4o、Llama-3.1 70B和Mixtral的準(zhǔn)確率分別僅為37%、31%和26%。 他們作為旁觀者,在最基礎(chǔ)的物理狀態(tài)追蹤能力上都存在根本性不足。更別提真的理解人的認(rèn)知狀態(tài)、建立情商了。 所以現(xiàn)在別看那些GPT-4o和你對(duì)話非常絲滑,看起來(lái)相當(dāng)擬人。但實(shí)際上AI現(xiàn)在就像一個(gè)只懂字面意思的“外國(guó)人”——它可以精確理解每個(gè)詞,但根本抓不住對(duì)話的真實(shí)含義。 這些最先進(jìn)的AI,都沒(méi)啥情商。 既然沒(méi)有,那就建所學(xué)校讓他們學(xué) 其實(shí)人類的情商一般也是在社會(huì)化過(guò)程中慢慢培養(yǎng)出來(lái)的。那AI是不是也可以被培養(yǎng)呢? 沿著這個(gè)思路,研究人員把ExploreToM改造成了一所專門培養(yǎng)AI社交認(rèn)知能力的工具。他們收集了將近8萬(wàn)個(gè)特制的“練習(xí)題”——包括ExploreToM生成的故事、問(wèn)題和答案。用這些材料,他們開始“補(bǔ)課”訓(xùn)練Llama-3.1 8B模型。 訓(xùn)練效果證明了他們的猜測(cè),經(jīng)過(guò)訓(xùn)練的AI模型在多個(gè)標(biāo)準(zhǔn)測(cè)試中都有顯著進(jìn)步。在最具代表性的AI心智能力測(cè)試ToMi中,模型的分?jǐn)?shù)提高了27分。 更令人興奮的是,這個(gè)AI展現(xiàn)出了舉一反三的能力。雖然訓(xùn)練時(shí)只用了2到4個(gè)人物的簡(jiǎn)單故事,但訓(xùn)練后的AI能夠輕松處理更復(fù)雜的場(chǎng)景,比如有5個(gè)人物和更多互動(dòng)的故事。這就像一個(gè)學(xué)生不僅學(xué)會(huì)了課本上的題目,還能解決更難的課外題。 研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:訓(xùn)練材料的質(zhì)量比數(shù)量更重要。他們進(jìn)行了一個(gè)精心設(shè)計(jì)的對(duì)照實(shí)驗(yàn),創(chuàng)建了五組不同的訓(xùn)練數(shù)據(jù)集。這些數(shù)據(jù)集的大小相同,但其中需要“換位思考”的故事比例從0%逐步增加到100%。 結(jié)果表明,包含越多需要換位思考的故事,AI的表現(xiàn)就越好。 令人欣慰的是,這種特殊訓(xùn)練并沒(méi)有影響AI的其他能力。就像補(bǔ)習(xí)數(shù)學(xué)的同時(shí)沒(méi)有影響語(yǔ)文成績(jī)一樣,經(jīng)過(guò)訓(xùn)練的AI在處理日常對(duì)話和回答常識(shí)性問(wèn)題時(shí),表現(xiàn)基本保持穩(wěn)定。 經(jīng)過(guò)這樣系統(tǒng)的訓(xùn)練,AI在社交認(rèn)知能力上取得了顯著進(jìn)步。在基礎(chǔ)任務(wù)中,正確率達(dá)到了75-80%,相當(dāng)于及格線以上的成績(jī)。但是在更復(fù)雜的任務(wù)中,比如理解多重嵌套信念(確認(rèn)A覺(jué)得B覺(jué)得......)這類問(wèn)題時(shí),表現(xiàn)仍然不夠理想,正確率僅有30-35%。 但如果不進(jìn)行訓(xùn)練,這些AI對(duì)這些問(wèn)題的準(zhǔn)確率可能僅為0。 解開AI缺乏情商之結(jié) 為什么AI都沒(méi)有情商? 研究人員也對(duì)此做了一些探討。問(wèn)題還是出在訓(xùn)練數(shù)據(jù)上了。 過(guò)去的AI訓(xùn)練往往依賴于網(wǎng)絡(luò)上現(xiàn)成的大量數(shù)據(jù),但這些數(shù)據(jù)中真正需要換位思考的內(nèi)容可能相對(duì)較少。 這就像是在寫故事時(shí),如果不特意設(shè)計(jì)“誤會(huì)”、“信息差”這樣的情節(jié),大多數(shù)隨機(jī)寫出的故事都會(huì)是直來(lái)直去的敘事,所有人物都知道相同的信息。要寫出需要讀者理解不同人物認(rèn)知差異的故事,需要作者有意識(shí)地設(shè)計(jì)這樣的情節(jié)。就像我們?cè)谌粘I钪械膶?duì)話,大多是簡(jiǎn)單的信息傳遞,很少需要深入理解對(duì)方的認(rèn)知狀態(tài)。 這也解釋了為什么在自然語(yǔ)言中,真正需要“換位思考”的內(nèi)容相對(duì)較少。 未來(lái)如果要培養(yǎng)出真正懂得“換位思考”的AI,我們可能需要重新思考訓(xùn)練數(shù)據(jù)的收集方式。不是簡(jiǎn)單地收集更多數(shù)據(jù),而是要有意識(shí)地增加那些包含認(rèn)知差異、信息不對(duì)稱的場(chǎng)景。就像設(shè)計(jì)一套專門培養(yǎng)同理心的教材,每個(gè)例子都經(jīng)過(guò)精心挑選,目的明確。 或者,專門用意識(shí)流小說(shuō)和茨威格的小說(shuō)訓(xùn)練AI,也許效果不錯(cuò)。 至少通過(guò)這個(gè)研究,我們知道了人類還確實(shí)沒(méi)被AI攻下的心理高地:真正的同理心與由此生發(fā)的情商。 但這可能也是AI自我學(xué)習(xí)的下一步目標(biāo)了。 本文來(lái)源:騰訊科技 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。