首頁 > 科技要聞 > 科技> 正文

ChatGPT 即將登陸 iPhone!蘋果接近與 OpenAI 達(dá)成協(xié)議,我們挖出了這些新功能細(xì)節(jié)

appso 整合編輯:龔震 發(fā)布于:2024-05-12 23:16

5月11日,據(jù)彭博社記者 Mark Gurman 援引知情人士消息,蘋果即將與 OpenAI 達(dá)成合作協(xié)議,將 ChatGPT 整合到 iOS 18 操作系統(tǒng)。

報(bào)道還稱蘋果也與 Google 就 Gemini 聊天機(jī)器人的授權(quán)協(xié)議進(jìn)行了談判,不過,目前雙方尚未達(dá)成協(xié)議。

值得一提的是,OpenAI 今日宣布將于太平洋時(shí)間 5 月 13 日直播演示一些關(guān)于 ChatGPT 的更新內(nèi)容。

The Information 稱 OpenAI 預(yù)計(jì)將展示更聰明的 AI 語音助手,支持聲音和文本交流,擁有識別圖像能力以及更好的邏輯推理能力。

事實(shí)上,蘋果與 OpenAI 的合作緣分或許可以追溯到去年初。

《紐約時(shí)報(bào)》今日爆料稱,蘋果兩名高管在去年初花了數(shù)周時(shí)間測試 OpenAI 的 ChatGPT 之后,便作出了給語音助手 Siri 進(jìn)行「大腦移植」的決定。

知情人士還透露,改進(jìn)后的 Siri 將于今年 6 月份的 WWDC 大會亮相。新 Siri 的對話性更強(qiáng)、用途更廣,其 Siri 的底層技術(shù)將包括一個(gè)新的生成式 AI 系統(tǒng),支持聊天功能,而不是一次回答一個(gè)問題。

除了 AI Siri,彭博社也報(bào)道稱,蘋果的目標(biāo)是利用大語言模型(LLM),為 iOS 18 帶來一系列的 AI 功能,包括但不限于:

*全面升級的 Siri,能夠利用新的 AI 技術(shù)提供更智能的交互體驗(yàn)。

*更聰明的 Spotlight,通過文字指令實(shí)現(xiàn)更多操作。

*短信 App 中的文本輔助,能夠處理內(nèi)容并自動補(bǔ)全對話。

*Apple Music 的新 AI 功能,可以根據(jù)指令創(chuàng)建自動生成的播放列表。

*在 Keynote 和 Pages 中融合生成式 AI ,輔助創(chuàng)作文本和幻燈片等內(nèi)容。

*健康 App 將結(jié)合 AI 提供個(gè)性化的健康和健身建議。

*在 Xcode 中加入 AI 功能,幫助開發(fā)者更高效地編寫新應(yīng)用程序。

AI iPhone 怎么做?蘋果已經(jīng)給出了一些答案

在 WWDC24 到來之前,蘋果在 AI 領(lǐng)域的每一步舉動都備受關(guān)注。

翻閱蘋果這段時(shí)間發(fā)布的 AI 論文,幾乎都在圍繞如何將大模型塞進(jìn)你的蘋果全家桶,而這也是今年 6 月 WWDC24 大會的最大看點(diǎn)。

上月中旬,蘋果發(fā)布了一篇名為「Ferret-UI:基于多模態(tài)大語言模型的移動 UI 理解」的論文。

其中,F(xiàn)erret-UI 被描述為一種新的 MLLM,專為理解移動 UI 屏幕而定制,具有「指向、定位和推理功能」。它最大的特點(diǎn)是有一個(gè)放大系統(tǒng),可以將圖像放大到「任何分辨率」,使圖標(biāo)和文本更易于閱讀。

為了進(jìn)行處理和訓(xùn)練,F(xiàn)erret 還將屏幕分成兩個(gè)較小的部分,將屏幕切成兩半。相較于其他大語言模型,傳統(tǒng)的更傾向于掃描較低分辨率的全局圖像,這降低了充分確定圖標(biāo)外觀的能力。

時(shí)間再往前撥回到一月份,蘋果還發(fā)布了一篇將大模型塞進(jìn) iPhone 的關(guān)鍵性論文——《LLM in a flash: Efficient Large Language Model Inference with Limited Memory》。

簡單來說,研究團(tuán)隊(duì)通過嘗試用閃存技術(shù)優(yōu)化數(shù)據(jù)加載、數(shù)據(jù)塊大小,最終實(shí)現(xiàn)高效的內(nèi)存管理。

近兩年來,蘋果時(shí)常為人詬病在 AI 領(lǐng)域動作遲緩,在過往的官方新聞稿中,蘋果甚至很少直接提及 AI 一詞,相反,他們更傾向于使用「機(jī)器學(xué)習(xí)」等較為保守的詞匯。

今年以來,這種偏執(zhí)開始發(fā)生微妙的轉(zhuǎn)變。

無論是蘋果 CEO 庫克對于生成式 AI 的頻頻發(fā)聲,還是在新款 MacBook Air 新聞稿中將其列為「用于 AI 的全球最佳消費(fèi)級筆記本電腦」,看得出來大船調(diào)轉(zhuǎn)的蘋果正在 AII in AI。

當(dāng)人們談?wù)撊祟惞ぷ鲘徫粚?AI 「干掉」時(shí),該論斷放在企業(yè)的博弈也同樣合適,而 AI 的到來正為蘋果提供了一個(gè)恰逢其時(shí)的轉(zhuǎn)型契機(jī)。

幸運(yùn)的是,蘋果在 AI 時(shí)代默默的布局和積累,讓其在 2024 年的今天,當(dāng)我們在討論 AI 時(shí),依然不能忽視蘋果的存在。

作為消費(fèi)者,我們更關(guān)心的是,蘋果今年在 WWDC24 上將會帶來哪些驚喜?

目前曝光的論文已經(jīng)略見端倪,其一是大模型進(jìn) iPhone 只是時(shí)間問題,其二是你的 iPhone 將會變得越來越聰明。

此前彭博社記者 Mark Gurman 也報(bào)道稱,蘋果在 iOS 18 中推出的第一批新 AI 功能將立足端側(cè),擺脫對云端服務(wù)的依賴。

大模型「瘦身」進(jìn)手機(jī)只是開始,打造應(yīng)用體驗(yàn)才是關(guān)鍵所在。

華爾街咨詢機(jī)構(gòu) Melius Research 主管 Ben Reitzes 曾在接受 CNBC 采訪時(shí)表示,蘋果可能會在 6 月份的 WWDC 上,推出一個(gè)全新的 AI 應(yīng)用商店,預(yù)計(jì)當(dāng)中將包括各大供應(yīng)商提供的 AI 應(yīng)用。

Reitzes 預(yù)測,蘋果將在開發(fā)者大會上詳細(xì)說明如何從 App Store 購買 AI 應(yīng)用程序,并且,全新的 AI 應(yīng)用商店也會擁有專屬的 App、AI 助手以及升級版 Siri。

在 Android 陣營這邊,語音助手仍舊是最核心的解題思路,為了讓你手機(jī)上 Siri 變得更智能,蘋果默默耕耘了十三年,而今年,Siri 也將會迎來有史以來最重磅的更新。

鑒于蘋果在生成式 AI 領(lǐng)域根基尚淺,正如上面消息稱蘋果為了 AI 不惜考慮要上 Google 等公司的船,這表明 iOS 18 預(yù)計(jì)不會出現(xiàn)蘋果自研 GPT。

蘋果花了十年都未能簡化的「Hey Siri」,在最近也有了新的進(jìn)展。

蘋果的 Siri 研究團(tuán)隊(duì)在論文《利用大型語言模型進(jìn)行設(shè)備指向性語音檢測的多模態(tài)方法》中討論了一種去掉喚醒詞的方法。

結(jié)果顯示,相比于單一的純文本/純音頻模型,使用多模態(tài)系統(tǒng)的 iPhone 能夠大幅降低設(shè)備指向性語音檢測任務(wù)上的錯(cuò)誤率。

也就是說,繼去年 WWDC23 大會宣布省去「hey」之后,未來 Siri 將有機(jī)會順帶連「Siri」的喚醒詞也一同省略,讓 Siri 更加自然地融入到我們的對話之中。

在《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》這篇論文中,蘋果首次披露一個(gè)具有高達(dá) 300 億參數(shù)的多模態(tài)模型。

MM1 的多模態(tài)能力倘若被集成到 iPhone 上,預(yù)計(jì) iPhone 將能夠通過視覺、語音和文本等多種方式理解并響應(yīng)用戶的需求,

例如,OCR 功能的增強(qiáng),iPhone 用戶能夠更方便地從圖片中提取文字信息;而多圖像推理和思維鏈推理的能力,則能提升用戶與 Siri 的對話質(zhì)量。

此外,上文提到的 Ferret-UI 模型能準(zhǔn)確識別和定位屏幕上的各個(gè)元素及其功能,反過來賦能到 Siri 上,將有望提升響應(yīng)用戶指令的準(zhǔn)確性。

想象一下,當(dāng) iPhone 能夠?qū)⒄麄(gè) UI 界面轉(zhuǎn)化為清晰的語音描述時(shí),或者提供精確的語音操作指引,甚至能夠?qū)?fù)雜的功能進(jìn)行詳細(xì)的講解,也能為視障人士、老年人或兒童帶來極大的便利。

蘋果的開源大模型,在行業(yè)什么水平

2024 年的蘋果如果要在 AI 的版圖上留下濃墨重彩的一筆,那么開源注定是繞不開的關(guān)鍵詞。

先有 Mistral 8x22B 悶聲干大事,后有 Meta Llama 3 模型深夜炸場,現(xiàn)在連蘋果也要下場參加這場激烈的開源爭霸賽。

近日,蘋果便宣布在全球最大 AI 開源社區(qū) Hugging Face 發(fā)布了 OpenELM 系列模型。

在介紹蘋果的 OpenELM 之前,先對一些熱門的開源模型做一個(gè)簡單的對比:

型號尺寸:

*Meta 開發(fā)的 Llama 3 模型擁有最大的規(guī)模,目前已發(fā)布的模型參數(shù)數(shù)量高達(dá) 700 億。

*微軟的 Phi-3-mini 模型具有 38 億個(gè)參數(shù),而更大的 Phi-3 系列模型分別擁有 70 億和 140 億。

*蘋果推出的 OpenELM 模型提供多種規(guī)格,參數(shù)量分別為 2.7 億、4.5 億、11 億和 30 億。

性能:

*在 MMLU 基準(zhǔn)測試中,Phi-3-mini 的得分達(dá)到了 68.8%,而擁有 30 億參數(shù)的 OpenELM 模型得分僅為 24.8%。

*值得注意的是,參數(shù)量為 2.7 億的 OpenELM 模型在 MMLU 上的表現(xiàn)超越了 30 億參數(shù)的版本。

*Phi-3-mini 的表現(xiàn)可與 GPT-3.5 等模型相媲美。

預(yù)期用途:

*Phi-3-mini 旨在實(shí)現(xiàn)輕量級、經(jīng)濟(jì)實(shí)惠的部署,適用于那些處理較小數(shù)據(jù)集的自定義應(yīng)用程序。

*Meta 的 Llama 3 是一個(gè)大型的通用語言模型,適用于多種應(yīng)用場景。

*蘋果推出的 OpenELM 旨在「賦能開放研究社區(qū)」,但該模型也存在潛在偏見。

OpenELM 系列模型涵蓋 2.7 億、4.5 億、11 億和 30 億參數(shù)的預(yù)訓(xùn)練 OpenELM 模型,以及這些模型的指令調(diào)整版本。

論文顯示,該系列模型在來自 Reddit、維基百科、arXiv.org 等的 1.8 萬億個(gè) tokens 的公共數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。

相較于 Grok 1.0 開源的「摳搜」,蘋果此次發(fā)布了完整的框架,涵蓋數(shù)據(jù)的整理、模型的構(gòu)建與訓(xùn)練、模型的調(diào)整與優(yōu)化,此外,蘋果還提供了多個(gè)預(yù)先訓(xùn)練好的模型節(jié)點(diǎn)和詳盡的訓(xùn)練記錄等。

基于優(yōu)化的 Transformer 模型架構(gòu),OpenELM 采用了逐層的縮放策略。

在 Transformer 模型架構(gòu)的每一層中都有效分配參數(shù)。通過這種方式,模型可以更好地學(xué)習(xí)數(shù)據(jù),同時(shí)避免過度擬合,保持較高的泛化能力。

簡單點(diǎn)理解,就是想象有一座多層的圖書館,每一層都放著不同類別的書籍,為了讓圖書館運(yùn)作得更高效,你決定采用「逐層縮放策略」,也就是根據(jù)每一層存放書籍的多少來靈活分配圖書管理員。

近兩年來,業(yè)界在一輪輪模型的狂轟濫炸中達(dá)成了一定的共識,其中「以小勝大」定律尤為引人關(guān)注——經(jīng)過微調(diào)的小模型性能在某些使用場景下未必不如大模型。

與此同時(shí),在商業(yè)化這道必答題面前,端側(cè)模型的落地開始變得尤為重要。

去年底,微軟發(fā)布的 Phi-2 憑借 2.7B 的量級讓我們見識到了以小博大的「小小震撼」,在基準(zhǔn)測試成績上更是一舉超過當(dāng)時(shí) Llama 2 7B、 Mistral 7B 等一眾先進(jìn)模型。

上個(gè)月微軟再次發(fā)布的小尺寸模型 Phi-3 參數(shù)最小的版本,雖然只有 3.8B,但其性能甚至能與 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。

和 Phi-3 相類似,OpenELM 同樣更適合在筆記本甚至在手機(jī)上運(yùn)行。

例如,蘋果的論文指出,該模型的基準(zhǔn)測試結(jié)果是在配備 Intel i9-13900KF CPU、配備 NVIDIA RTX 4090 GPU、運(yùn)行 Ubuntu 22.04 的工作站上運(yùn)行的。

為了在蘋果芯片上對 OpenELM 模型進(jìn)行基準(zhǔn)測試,蘋果還使用了配備 M2 Max 芯片和 64GB RAM、運(yùn)行 macOS 14.4.1 的 MacBook Pro。

結(jié)果顯示, OpenELM 模型的性能表現(xiàn)相當(dāng)不錯(cuò),比如 OpenELM-3B 在測試知識和推理技能的 ARC-C 基準(zhǔn)測試中取得 42.24 得分,而在 MMLU 和 HellaSwag 上,分別得分 26.76 和 73.28。

同時(shí)擁有 4.5 億參數(shù)的 OpenELM-450M 不光勝在性價(jià)比較高,整體的得分表現(xiàn)也相當(dāng)亮眼。

需要注意的是,蘋果在論文中表示,這些模型沒有任何安全保證,這意味著,該系列模型依然有可能根據(jù)用戶和開發(fā)人員的提示詞產(chǎn)生一些不準(zhǔn)確、有害、有偏見的輸出。

更多信息歡迎查閱原論文:https://arxiv.org/pdf/2404.14619.pdf

此外,蘋果還開源了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練庫 CoreNet,使研究人員和工程師能夠開發(fā)和訓(xùn)練各種適用于多種任務(wù)的模型,如基礎(chǔ)模型、物體分類、檢測以及語義分割等。

當(dāng)然,理想與現(xiàn)實(shí)之間,畢竟隔著一條名為「實(shí)踐」的河流,最終的「One more thing」,還需在 WWDC24 的舞臺上揭曉。

文章來源:APPSO

蘋果    AI    OpenAI
appso

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部