5月11日,據(jù)彭博社記者 Mark Gurman 援引知情人士消息,蘋果即將與 OpenAI 達(dá)成合作協(xié)議,將 ChatGPT 整合到 iOS 18 操作系統(tǒng)。 報(bào)道還稱蘋果也與 Google 就 Gemini 聊天機(jī)器人的授權(quán)協(xié)議進(jìn)行了談判,不過,目前雙方尚未達(dá)成協(xié)議。 值得一提的是,OpenAI 今日宣布將于太平洋時(shí)間 5 月 13 日直播演示一些關(guān)于 ChatGPT 的更新內(nèi)容。 The Information 稱 OpenAI 預(yù)計(jì)將展示更聰明的 AI 語音助手,支持聲音和文本交流,擁有識別圖像能力以及更好的邏輯推理能力。 事實(shí)上,蘋果與 OpenAI 的合作緣分或許可以追溯到去年初。 《紐約時(shí)報(bào)》今日爆料稱,蘋果兩名高管在去年初花了數(shù)周時(shí)間測試 OpenAI 的 ChatGPT 之后,便作出了給語音助手 Siri 進(jìn)行「大腦移植」的決定。 知情人士還透露,改進(jìn)后的 Siri 將于今年 6 月份的 WWDC 大會亮相。新 Siri 的對話性更強(qiáng)、用途更廣,其 Siri 的底層技術(shù)將包括一個(gè)新的生成式 AI 系統(tǒng),支持聊天功能,而不是一次回答一個(gè)問題。 除了 AI Siri,彭博社也報(bào)道稱,蘋果的目標(biāo)是利用大語言模型(LLM),為 iOS 18 帶來一系列的 AI 功能,包括但不限于: *全面升級的 Siri,能夠利用新的 AI 技術(shù)提供更智能的交互體驗(yàn)。 *更聰明的 Spotlight,通過文字指令實(shí)現(xiàn)更多操作。 *短信 App 中的文本輔助,能夠處理內(nèi)容并自動補(bǔ)全對話。 *Apple Music 的新 AI 功能,可以根據(jù)指令創(chuàng)建自動生成的播放列表。 *在 Keynote 和 Pages 中融合生成式 AI ,輔助創(chuàng)作文本和幻燈片等內(nèi)容。 *健康 App 將結(jié)合 AI 提供個(gè)性化的健康和健身建議。 *在 Xcode 中加入 AI 功能,幫助開發(fā)者更高效地編寫新應(yīng)用程序。 AI iPhone 怎么做?蘋果已經(jīng)給出了一些答案 在 WWDC24 到來之前,蘋果在 AI 領(lǐng)域的每一步舉動都備受關(guān)注。 翻閱蘋果這段時(shí)間發(fā)布的 AI 論文,幾乎都在圍繞如何將大模型塞進(jìn)你的蘋果全家桶,而這也是今年 6 月 WWDC24 大會的最大看點(diǎn)。 上月中旬,蘋果發(fā)布了一篇名為「Ferret-UI:基于多模態(tài)大語言模型的移動 UI 理解」的論文。 其中,F(xiàn)erret-UI 被描述為一種新的 MLLM,專為理解移動 UI 屏幕而定制,具有「指向、定位和推理功能」。它最大的特點(diǎn)是有一個(gè)放大系統(tǒng),可以將圖像放大到「任何分辨率」,使圖標(biāo)和文本更易于閱讀。 為了進(jìn)行處理和訓(xùn)練,F(xiàn)erret 還將屏幕分成兩個(gè)較小的部分,將屏幕切成兩半。相較于其他大語言模型,傳統(tǒng)的更傾向于掃描較低分辨率的全局圖像,這降低了充分確定圖標(biāo)外觀的能力。 時(shí)間再往前撥回到一月份,蘋果還發(fā)布了一篇將大模型塞進(jìn) iPhone 的關(guān)鍵性論文——《LLM in a flash: Efficient Large Language Model Inference with Limited Memory》。 簡單來說,研究團(tuán)隊(duì)通過嘗試用閃存技術(shù)優(yōu)化數(shù)據(jù)加載、數(shù)據(jù)塊大小,最終實(shí)現(xiàn)高效的內(nèi)存管理。 近兩年來,蘋果時(shí)常為人詬病在 AI 領(lǐng)域動作遲緩,在過往的官方新聞稿中,蘋果甚至很少直接提及 AI 一詞,相反,他們更傾向于使用「機(jī)器學(xué)習(xí)」等較為保守的詞匯。 今年以來,這種偏執(zhí)開始發(fā)生微妙的轉(zhuǎn)變。 無論是蘋果 CEO 庫克對于生成式 AI 的頻頻發(fā)聲,還是在新款 MacBook Air 新聞稿中將其列為「用于 AI 的全球最佳消費(fèi)級筆記本電腦」,看得出來大船調(diào)轉(zhuǎn)的蘋果正在 AII in AI。 當(dāng)人們談?wù)撊祟惞ぷ鲘徫粚?AI 「干掉」時(shí),該論斷放在企業(yè)的博弈也同樣合適,而 AI 的到來正為蘋果提供了一個(gè)恰逢其時(shí)的轉(zhuǎn)型契機(jī)。 幸運(yùn)的是,蘋果在 AI 時(shí)代默默的布局和積累,讓其在 2024 年的今天,當(dāng)我們在討論 AI 時(shí),依然不能忽視蘋果的存在。 作為消費(fèi)者,我們更關(guān)心的是,蘋果今年在 WWDC24 上將會帶來哪些驚喜? 目前曝光的論文已經(jīng)略見端倪,其一是大模型進(jìn) iPhone 只是時(shí)間問題,其二是你的 iPhone 將會變得越來越聰明。 此前彭博社記者 Mark Gurman 也報(bào)道稱,蘋果在 iOS 18 中推出的第一批新 AI 功能將立足端側(cè),擺脫對云端服務(wù)的依賴。 大模型「瘦身」進(jìn)手機(jī)只是開始,打造應(yīng)用體驗(yàn)才是關(guān)鍵所在。 華爾街咨詢機(jī)構(gòu) Melius Research 主管 Ben Reitzes 曾在接受 CNBC 采訪時(shí)表示,蘋果可能會在 6 月份的 WWDC 上,推出一個(gè)全新的 AI 應(yīng)用商店,預(yù)計(jì)當(dāng)中將包括各大供應(yīng)商提供的 AI 應(yīng)用。 Reitzes 預(yù)測,蘋果將在開發(fā)者大會上詳細(xì)說明如何從 App Store 購買 AI 應(yīng)用程序,并且,全新的 AI 應(yīng)用商店也會擁有專屬的 App、AI 助手以及升級版 Siri。 在 Android 陣營這邊,語音助手仍舊是最核心的解題思路,為了讓你手機(jī)上 Siri 變得更智能,蘋果默默耕耘了十三年,而今年,Siri 也將會迎來有史以來最重磅的更新。 鑒于蘋果在生成式 AI 領(lǐng)域根基尚淺,正如上面消息稱蘋果為了 AI 不惜考慮要上 Google 等公司的船,這表明 iOS 18 預(yù)計(jì)不會出現(xiàn)蘋果自研 GPT。 蘋果花了十年都未能簡化的「Hey Siri」,在最近也有了新的進(jìn)展。 蘋果的 Siri 研究團(tuán)隊(duì)在論文《利用大型語言模型進(jìn)行設(shè)備指向性語音檢測的多模態(tài)方法》中討論了一種去掉喚醒詞的方法。 結(jié)果顯示,相比于單一的純文本/純音頻模型,使用多模態(tài)系統(tǒng)的 iPhone 能夠大幅降低設(shè)備指向性語音檢測任務(wù)上的錯(cuò)誤率。 也就是說,繼去年 WWDC23 大會宣布省去「hey」之后,未來 Siri 將有機(jī)會順帶連「Siri」的喚醒詞也一同省略,讓 Siri 更加自然地融入到我們的對話之中。 在《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》這篇論文中,蘋果首次披露一個(gè)具有高達(dá) 300 億參數(shù)的多模態(tài)模型。 MM1 的多模態(tài)能力倘若被集成到 iPhone 上,預(yù)計(jì) iPhone 將能夠通過視覺、語音和文本等多種方式理解并響應(yīng)用戶的需求, 例如,OCR 功能的增強(qiáng),iPhone 用戶能夠更方便地從圖片中提取文字信息;而多圖像推理和思維鏈推理的能力,則能提升用戶與 Siri 的對話質(zhì)量。 此外,上文提到的 Ferret-UI 模型能準(zhǔn)確識別和定位屏幕上的各個(gè)元素及其功能,反過來賦能到 Siri 上,將有望提升響應(yīng)用戶指令的準(zhǔn)確性。 想象一下,當(dāng) iPhone 能夠?qū)⒄麄(gè) UI 界面轉(zhuǎn)化為清晰的語音描述時(shí),或者提供精確的語音操作指引,甚至能夠?qū)?fù)雜的功能進(jìn)行詳細(xì)的講解,也能為視障人士、老年人或兒童帶來極大的便利。 蘋果的開源大模型,在行業(yè)什么水平 2024 年的蘋果如果要在 AI 的版圖上留下濃墨重彩的一筆,那么開源注定是繞不開的關(guān)鍵詞。 先有 Mistral 8x22B 悶聲干大事,后有 Meta Llama 3 模型深夜炸場,現(xiàn)在連蘋果也要下場參加這場激烈的開源爭霸賽。 近日,蘋果便宣布在全球最大 AI 開源社區(qū) Hugging Face 發(fā)布了 OpenELM 系列模型。 在介紹蘋果的 OpenELM 之前,先對一些熱門的開源模型做一個(gè)簡單的對比: 型號尺寸: *Meta 開發(fā)的 Llama 3 模型擁有最大的規(guī)模,目前已發(fā)布的模型參數(shù)數(shù)量高達(dá) 700 億。 *微軟的 Phi-3-mini 模型具有 38 億個(gè)參數(shù),而更大的 Phi-3 系列模型分別擁有 70 億和 140 億。 *蘋果推出的 OpenELM 模型提供多種規(guī)格,參數(shù)量分別為 2.7 億、4.5 億、11 億和 30 億。 性能: *在 MMLU 基準(zhǔn)測試中,Phi-3-mini 的得分達(dá)到了 68.8%,而擁有 30 億參數(shù)的 OpenELM 模型得分僅為 24.8%。 *值得注意的是,參數(shù)量為 2.7 億的 OpenELM 模型在 MMLU 上的表現(xiàn)超越了 30 億參數(shù)的版本。 *Phi-3-mini 的表現(xiàn)可與 GPT-3.5 等模型相媲美。 預(yù)期用途: *Phi-3-mini 旨在實(shí)現(xiàn)輕量級、經(jīng)濟(jì)實(shí)惠的部署,適用于那些處理較小數(shù)據(jù)集的自定義應(yīng)用程序。 *Meta 的 Llama 3 是一個(gè)大型的通用語言模型,適用于多種應(yīng)用場景。 *蘋果推出的 OpenELM 旨在「賦能開放研究社區(qū)」,但該模型也存在潛在偏見。 OpenELM 系列模型涵蓋 2.7 億、4.5 億、11 億和 30 億參數(shù)的預(yù)訓(xùn)練 OpenELM 模型,以及這些模型的指令調(diào)整版本。 論文顯示,該系列模型在來自 Reddit、維基百科、arXiv.org 等的 1.8 萬億個(gè) tokens 的公共數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。 相較于 Grok 1.0 開源的「摳搜」,蘋果此次發(fā)布了完整的框架,涵蓋數(shù)據(jù)的整理、模型的構(gòu)建與訓(xùn)練、模型的調(diào)整與優(yōu)化,此外,蘋果還提供了多個(gè)預(yù)先訓(xùn)練好的模型節(jié)點(diǎn)和詳盡的訓(xùn)練記錄等。 基于優(yōu)化的 Transformer 模型架構(gòu),OpenELM 采用了逐層的縮放策略。 在 Transformer 模型架構(gòu)的每一層中都有效分配參數(shù)。通過這種方式,模型可以更好地學(xué)習(xí)數(shù)據(jù),同時(shí)避免過度擬合,保持較高的泛化能力。 簡單點(diǎn)理解,就是想象有一座多層的圖書館,每一層都放著不同類別的書籍,為了讓圖書館運(yùn)作得更高效,你決定采用「逐層縮放策略」,也就是根據(jù)每一層存放書籍的多少來靈活分配圖書管理員。 近兩年來,業(yè)界在一輪輪模型的狂轟濫炸中達(dá)成了一定的共識,其中「以小勝大」定律尤為引人關(guān)注——經(jīng)過微調(diào)的小模型性能在某些使用場景下未必不如大模型。 與此同時(shí),在商業(yè)化這道必答題面前,端側(cè)模型的落地開始變得尤為重要。 去年底,微軟發(fā)布的 Phi-2 憑借 2.7B 的量級讓我們見識到了以小博大的「小小震撼」,在基準(zhǔn)測試成績上更是一舉超過當(dāng)時(shí) Llama 2 7B、 Mistral 7B 等一眾先進(jìn)模型。 上個(gè)月微軟再次發(fā)布的小尺寸模型 Phi-3 參數(shù)最小的版本,雖然只有 3.8B,但其性能甚至能與 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。 和 Phi-3 相類似,OpenELM 同樣更適合在筆記本甚至在手機(jī)上運(yùn)行。 例如,蘋果的論文指出,該模型的基準(zhǔn)測試結(jié)果是在配備 Intel i9-13900KF CPU、配備 NVIDIA RTX 4090 GPU、運(yùn)行 Ubuntu 22.04 的工作站上運(yùn)行的。 為了在蘋果芯片上對 OpenELM 模型進(jìn)行基準(zhǔn)測試,蘋果還使用了配備 M2 Max 芯片和 64GB RAM、運(yùn)行 macOS 14.4.1 的 MacBook Pro。 結(jié)果顯示, OpenELM 模型的性能表現(xiàn)相當(dāng)不錯(cuò),比如 OpenELM-3B 在測試知識和推理技能的 ARC-C 基準(zhǔn)測試中取得 42.24 得分,而在 MMLU 和 HellaSwag 上,分別得分 26.76 和 73.28。 同時(shí)擁有 4.5 億參數(shù)的 OpenELM-450M 不光勝在性價(jià)比較高,整體的得分表現(xiàn)也相當(dāng)亮眼。 需要注意的是,蘋果在論文中表示,這些模型沒有任何安全保證,這意味著,該系列模型依然有可能根據(jù)用戶和開發(fā)人員的提示詞產(chǎn)生一些不準(zhǔn)確、有害、有偏見的輸出。 更多信息歡迎查閱原論文:https://arxiv.org/pdf/2404.14619.pdf 此外,蘋果還開源了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練庫 CoreNet,使研究人員和工程師能夠開發(fā)和訓(xùn)練各種適用于多種任務(wù)的模型,如基礎(chǔ)模型、物體分類、檢測以及語義分割等。 當(dāng)然,理想與現(xiàn)實(shí)之間,畢竟隔著一條名為「實(shí)踐」的河流,最終的「One more thing」,還需在 WWDC24 的舞臺上揭曉。 文章來源:APPSO |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選