“缺乏新意”,是主流聲音對蘋果AI首秀的評價,蘋果股價也跌了2%。 一切原因這場發(fā)布會,昨天在WWDC24大會上,iOS18正式發(fā)布,蘋果智能助手Siri不僅迎來了史詩級進化,首次加入了生成式AI功能,不僅能免費調(diào)用ChatGPT了,還能關(guān)聯(lián)GPT-4o。 目前所有最新的AI功能,例如文檔總結(jié)、圖片生成,以及更智能的語音交互,以及跨應(yīng)用進行AI操作等等,iOS上都應(yīng)有盡有了。 但大家期待的是蘋果能夠帶來OpenAI級別的成果,而不是一些交互創(chuàng)新。 可是蘋果選擇的是合作。在iPhone手機植入了GPT-4o的iOS,在跨應(yīng)用方面的能力,可以說,正是這一能力的出現(xiàn),使得原先手機上的各大APP形成的信息壁壘,徹底不存在了,這一意義很多人并沒有深刻認(rèn)知。 至此以后,用戶無論是寫郵件,還是回復(fù)短消息,都能通過一個簡單的AI指令一氣呵成。 例如,要是想把某張照片,添加到備忘錄里,只需對Srir說出相應(yīng)的指令,所有的操作就能直接一步到位地完成,而無需在相冊、備忘錄之間切換。 更重要的是,在進行跨應(yīng)用操作時,蘋果AI還能“因時制宜”,通過感知屏幕顯示內(nèi)容,理解不同情境,進行針對性操作。 例如,在消息多得看不過來時,AI就會根據(jù)消息內(nèi)容,優(yōu)先將最重要、最緊急的那條排在前面。 凡此種種,大極大地提升了iOS將來的智能性。 而至于本次大會的其他內(nèi)容,鑒于相關(guān)的文章已經(jīng)在鋪天蓋地地報道,在此便不再贅述。 今天我們想重點聊的是,為何對于現(xiàn)階段的大模型來說,與蘋果的結(jié)合,是打破自身局限性,并解決交互痛點的關(guān)鍵。 手機交互層面的兩大痛點 自從2023年年初,生成式AI的浪潮興起以來,各路大模型,都始終存在著兩個看似不起眼,但實則很影響體驗的痛點。 而第一個痛點,正是目前大模型的交互方式。 因為當(dāng)前大部分的大模型用戶,仍在用一種頗為低效的方式,在與大模型進行交互——敲擊鍵盤,逐字逐字地打出相應(yīng)的提示詞。 這種交互方式,有時候真的很反人性,很不流暢。 記得在某個周五的下午,我忙完了一天的工作,躺在椅子上,想和某個大模型探討下一個存疑已久的問題。 然而,打開了頁面許久,我卻遲遲沒有敲下一個字,原因是那天我太累了,而要問的那個問題又有點復(fù)雜,這勢必免不了要打一長串提示詞。 在PC端,用戶往往只能通過打字與模型交流。 在大模型的用戶,或者說潛在用戶中,有多少人是被類似的原因給勸退了呢? 誠然,目前的某些大模型,雖然也在其APP上開放了語音功能,并且用戶自己也可以通過語音輸入法來彌補這一痛點。但直到iOS結(jié)合ChatGPT-4o才真正解決這一痛點,Siri能識別情緒,連續(xù)對話,執(zhí)行任務(wù)。 特別受女性用戶青睞的一項新功能,Siri現(xiàn)在能夠直接控制iPhone進行圖片編輯,簡化了圖片處理流程。 另外,目前手機系統(tǒng)存在的一大問題,在于由于當(dāng)前較為單一的交互形式,當(dāng)用戶試圖將模型的能力應(yīng)用在不同的軟件、場景時,用戶只能每次都很辛苦地在不同軟件間切換,并將大量的內(nèi)容,一步步地轉(zhuǎn)化成輸入框里的信息(文字、圖片),才能與之進行交互。 不同App之間信息不流通,此為大模型當(dāng)前的第二大痛點。 例如,在你在淘寶上看到了個想買的東西,拿不準(zhǔn)要不要買,想請AI來判斷下,這時你就得把整個網(wǎng)頁的內(nèi)容、描述,以及相應(yīng)的商品截圖全都辛苦地保存下來,再一步步上傳給模型看。 這樣的體驗實在復(fù)雜,且不通人性。 正是由于上述痛點的存在,當(dāng)前的大模型,只能成為一種在正式的工作場合才會被經(jīng)常用到,且主要服務(wù)于部分高知群體的技術(shù)。 據(jù)Quest Mobile報告,在中國12.32億互聯(lián)網(wǎng)用戶中,只有數(shù)百萬活躍在AI頭部產(chǎn)品上。研究同樣顯示,只有約50%的受訪者聽說過ChatGPT等AI工具,而每天使用這些工具的人更是寥寥無幾。 這樣的情況,全世界都好不到哪去,日本僅有1%,美國稍多一些,有7%。 牛津大學(xué)和路透社的一項新研究,對六個國家的約 12,000 人進行了有關(guān)人工智能的調(diào)查,結(jié)果20% 至 30% 的受訪者表示他們從未聽說過 ChatGPT 或 Copilot 這些AI工具。 那么,蘋果的這次AI大更新,究竟將怎樣解決這一痛點呢? AI手機帶來的第二次交互革命 從這次發(fā)布會的內(nèi)容來看,新版的Siri,由于融入了GPT-4o的能力,在進行語音交互時,直戳到了上述的痛點。 能夠理解模糊指令和上下文; 主動理解不同應(yīng)用的情境。 這就意味著,首先,用戶在進行語音交互時,有時不必把話說得特別“明白”,或者有時對話稍微停頓了一下,AI也能理解相應(yīng)的內(nèi)容。 例如,倘若用戶之前查詢了某地的天氣情況,即使之后中斷了片刻,之后再次進行交互時,只需提及一個較為模糊的“那里”,AI就能知道此處的“那里”正是剛才提到的地點。 這就意味著,此后用戶只需用很少的輸出,就能得到準(zhǔn)確的結(jié)果。 而這樣的輸出—結(jié)果交換比,是在網(wǎng)頁端通過打字進行交互的大模型,很難帶來的一種體驗。 此外,除了交互更省事之外,要想讓模型更通人性,更準(zhǔn)確理解不同的情境,換句話說,就是AI得知我現(xiàn)在用APP在干嘛。 而這一點,考驗的正是AI在系統(tǒng)層面的跨應(yīng)用能力。 像是將證件上的號碼填進表格這種操作,就是一個十分考驗跨應(yīng)用能力和情境理解的例子。 過去,要完成這樣的操作,首先得打開相冊,找到相應(yīng)的證件照,掃描好相應(yīng)的文字,再打開備忘錄,把掃描好的內(nèi)容復(fù)制進去,最后再打開要填寫表格的APP,一條條將信息填寫進去, 每填寫一欄,就要切一次APP,過程十分繁瑣。 要是換成了AI來干這事,通過識別特定的屏幕內(nèi)容,AI就能知道這是一個需要填寫表格的頁面,于是就會自動地提取證件上的號碼,準(zhǔn)確地填到相應(yīng)的欄位。 這樣的操作,給用戶體驗上的提升實在太大了。 一個搞笑視頻顯示,你利用Sri定時了明早7點的鬧鐘,他看了你的備忘錄,你要晨練,要咖啡,要讀書,于是建議你定在更早的4點半。而當(dāng)你前一天晚10點還在玩手機,他會提醒你該休息了,“根據(jù)你的計劃,你明早還要晨練。” 能管你別刷短視頻的AI手機,有沒有很有趣? 在此之前,很多人一直質(zhì)疑,手機AI存在的意義和必要性是什么。畢竟,現(xiàn)在的很多大模型,都推出了各自的手機APP。 如果需求能在大模型APP上完成,何必將AI整合進系統(tǒng)里? 而這種跨應(yīng)用的繁瑣操作,則恰恰印證了一個系統(tǒng)級別的AI的意義。因為唯有一個根植于系統(tǒng)中的AI,才能無縫地進行不同APP的協(xié)同操作。 總結(jié)下就是,這種高度優(yōu)化的輸出—結(jié)果交換比,以跨應(yīng)用的便捷交互體驗,正是將來的大模型進一步“破圈”、落地的關(guān)鍵。 必要的“錯位” ,蘋果仍處最佳位置 發(fā)布會之前,很多人都說,蘋果這次的AI即使再怎么牛逼,本質(zhì)上還是要靠OpenAI的技術(shù),既然最關(guān)鍵的AI技術(shù)都要受制于人了,就算能力再強,又有什么值得吹的? 但實際上,放眼整個行業(yè)來看,這種特殊的“錯位”,其實某種程度上,是技術(shù)和時代發(fā)展的必然性所致。 這種必然性就是:原先主要搞硬件,做手機的廠商,遇到新的生成式AI,目前沒一個真正做得好的。這主要是其業(yè)務(wù)方向和商業(yè)模式所致。 即使目前某些國產(chǎn)大模型推出了自研大模型,但就其生成效果來看,與云端大模型相比,實在不忍直視。 對于這些傳統(tǒng)手機廠商來說,在此前很長一段時間里,真正能對其產(chǎn)品進行賦能的,是某些專用性較強的傳統(tǒng)AI,如攝影、面部識別之類的AI等等。 而專注于模型研發(fā)的AI企業(yè),例如OpenAI,本質(zhì)上定位更接近于一個軟件開發(fā)公司,本身并不具備硬件的載體。 于是,這種一方缺模型,一方缺硬件的錯位現(xiàn)象,就造成了一種特殊的“真空地帶”。這種“真空地帶”就是:專注于云端大模型的AI公司,很少會針對AI交互進行優(yōu)化,而有AI交互需求的手機廠商,又難以推出性能足夠強大的模型。 于是,在很長的一段時間,用戶只能忍受十分低效的交互方式——在鍵盤上一個一個字地敲出相應(yīng)的提示詞。 并且由于模型交互形式的局限性,這種發(fā)生在網(wǎng)頁端的交互,往往很難實現(xiàn)跨應(yīng)用的協(xié)同。 因此就現(xiàn)階段來說,掌握了云端大模型技術(shù)的AI企業(yè),與手機廠商進行聯(lián)合,對用戶而言,是一種技術(shù)上的最優(yōu)解。 而國內(nèi)的手機廠商,將來要在手機AI方面有大的進展,大概率也只能走這條路,但都基于安卓的底層,誰也無法真正系統(tǒng)級融合AI。 畢竟,從術(shù)業(yè)有專攻的角度來說,專業(yè)的AI企業(yè),無疑有著更成熟和先進的模型架構(gòu),并且就使用場景而言,真正具有很強的“即時性”,必須直接依靠端側(cè)模型來完成的操作,也并不是那么的廣泛。 在這種情況下,性能更強大的云端模型,無疑更容易得到用戶的歡迎。 從長遠(yuǎn)來看,即使這次蘋果在AI上的更新,未能像預(yù)期的那樣引發(fā)新一輪的換機潮,但用戶畢竟看到了一種更人性化,更舒適的AI交互體驗。 在這樣的體驗下,用戶是否還愿意回頭忍受目前手機UI遲緩的交互方式? 如果不愿,這或許會倒逼著目前的AI企業(yè),在交互方式上引發(fā)一輪新的革命,而這或許正是AI逐漸破圈的開始。 本文來源:AI鯨選社 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選