誰能想到,我們多年前的聊天記錄、社交媒體上的陳年照片,忽然變得價值連城,被大科技公司爭相瘋搶。 現(xiàn)在,硅谷大廠們已經(jīng)紛紛出動,買下所有能購買版權的互聯(lián)網(wǎng)數(shù)據(jù),這架勢簡直要搶破頭了! 圖像托管網(wǎng)站Photobucket的陳年舊數(shù)據(jù),本來已經(jīng)多年無人問津,但如今,它們正在被各大互聯(lián)網(wǎng)公司瘋搶,用來訓練AI模型。 為此,科技巨頭們愿意拿出實打?qū)嵉恼娼鸢足y。比如,每張照片價值5美分到1美元,每個視頻價值超過1美元,具體情況去取決于買家和素材種類。 總之,為了購買AI訓練數(shù)據(jù),巨頭們已經(jīng)展開了一場地下競賽! 而最近鬧得轟轟烈烈的Meta圖像生成器大翻車事件,更是讓AI的訓練數(shù)據(jù)「刻板印象」暴露無遺。 如果喂給模型的數(shù)據(jù)無法改變「偏見」,那各大公司要遭遇的輿論風波,只怕少不了。 Meta的AI生圖工具畫不出來「亞洲男性和白人妻子」或「亞洲女性和白人丈夫」 巨頭狂砸數(shù)十億美元,只為買到數(shù)據(jù)「黃金」 根據(jù)路透社報道,在2000年代,Photobucket處于巔峰期,擁有7000萬用戶。而今天,這家頂級網(wǎng)站的用戶已經(jīng)驟降到了200萬人。 但生成式AI,給這家公司帶來了新生。 CEO Ted Leonard開心地透露,目前已經(jīng)有多家科技公司找上門來,愿意重金購買公司的130億份照片和視頻。 目的,當然就是訓練AI。 為了得到這些數(shù)據(jù),各大公司都非常舍得割肉。 而且,他們還想要更多!據(jù)說,一位買家表示,自己想要超過10億個視頻,而這,已經(jīng)遠遠超出了Photobucket能提供的數(shù)量。 據(jù)粗略估計,Photobucket手中握著的數(shù)據(jù),很可能價值數(shù)十億美元。 OpenAI陷起訴風波,版權太敏感了 現(xiàn)在眼看著,大家的數(shù)據(jù)都不夠用了。 根據(jù)Epoch研究所的分析,到2026年,科技公司很可能會耗盡互聯(lián)網(wǎng)上所有的高質(zhì)量數(shù)據(jù),因為他們消耗數(shù)據(jù)的速度,遠遠超過了數(shù)據(jù)的生成速度! 訓練ChatGPT的數(shù)據(jù),是從互聯(lián)網(wǎng)上免費抓取的。 Sora的訓練數(shù)據(jù)來源不詳,CTO Murati接受采訪時支支吾吾的表現(xiàn),險些又讓OpenAI大翻車。 雖然OpenAI表示,自己的做法完全合法,但前方還有一堆版權訴訟在等著他們。 而其他大科技公司都跟著學乖了,大家都在悄悄地為付費墻和登錄屏幕背后的鎖定內(nèi)容付費。 如今,無論是陳舊的聊天記錄,還是被遺忘的社交媒體上褪色的舊照片,忽然都變成了價值連城的東西。 而各大公司已經(jīng)紛紛出動,急于尋找版權所有者的授權。畢竟,私人收藏的東西,是無法抓取的。 外媒記者走訪了30多名專業(yè)人士,發(fā)現(xiàn)這背后隱藏的,是一個黃金市場。 雖然很多公司對于這個不透明的AI市場規(guī)模表示緘默,但Business Research Insights等研究人員認為,目前市場規(guī)模約為25億美元,并預測十年內(nèi)可能會增長近300億美元。 生成數(shù)據(jù)淘金熱,讓數(shù)據(jù)商樂開花 對科技公司來說,如果不能使用免費抓取的網(wǎng)頁數(shù)據(jù)檔案,比如Common Crawl,那成本會是一個很可怕的數(shù)字。 但是一連串版權訴訟和監(jiān)管熱潮,已經(jīng)讓他們別無選擇。 甚至,硅谷已經(jīng)出現(xiàn)了一個新興的行業(yè)——數(shù)據(jù)經(jīng)紀人。 而圖片、視頻供應商們,也隨之賺得盆滿缽滿。 手快的公司,早就反應過來了。ChatGPT在2022年底亮相的幾個月內(nèi),Meta、谷歌、亞馬遜和蘋果就已經(jīng)迅速和圖片庫提供商Shutterstock達成協(xié)議,使用庫中的數(shù)億份圖像、視頻和音樂文件進行訓練。 根據(jù)首席財務官透露的數(shù)據(jù),這些交易從2500萬美元到5000萬美元不等。 而Shutterstock的競爭對手Freepik,也已經(jīng)有了兩位大買家,2億張圖片檔案中的大部分,會以2至4美分的價格授權。 OpenAI當然也不會落后,它不僅是Shutterstock的早期客戶,還與包括美聯(lián)社在內(nèi)的至少四家新聞機構簽署了許可協(xié)議。 讓內(nèi)容「合乎道德」 同時興起的,還有AI數(shù)據(jù)定制行業(yè)。 這批公司獲得了與播客、短視頻和與數(shù)字助理互動等現(xiàn)實世界內(nèi)容的授權,同時還建立了短期合同工網(wǎng)絡,從頭開始定制視覺效果和語音樣本。 作為代表之一的Defined.ai,已經(jīng)把自己的內(nèi)容賣給了谷歌、Meta、蘋果、亞馬遜、微軟等多家科技大廠。 其中,一張圖片賣1到2美元,一部短視頻賣2到4美元,一部長片每小時可以賣到100到300美元,文本的市價則是每字0.001美元。 而比較麻煩的裸體圖像,售價為5到7美元,因為還需要后期處理。 而這些照片、播客和醫(yī)療數(shù)據(jù)的所有者,也會獲得總交易額20%至30%的費用。 一位巴西數(shù)據(jù)商表示,為了獲得犯罪現(xiàn)場、沖突暴力和手術的圖像,他需要從警察、自由攝影記者和醫(yī)學生手里去買。 他補充說,他的公司雇用了習慣于看到暴力傷害的護士來脫敏和標注這些圖像,這對未經(jīng)訓練的眼睛來說是令人不安的。 而將圖像脫敏、標注的工作,則交給慣于看到暴力傷害的護士,畢竟未經(jīng)訓練的人眼看到這些圖像,會很不安。 然而,這些AI模型的「燃料」,很可能會引發(fā)嚴重的問題,比如——吐出用戶隱私。 專家發(fā)現(xiàn),AI會反芻訓練數(shù)據(jù),比如,它們會吐出Getty Images水印,逐字輸出紐約時報文章的段落,甚至再現(xiàn)真人圖像。 Getty Images指責Stability AI「以驚人的規(guī)模肆無忌憚地侵犯它的知識產(chǎn)權」 也就是說,幾十年前某人發(fā)布的私人照片或私密想法,很可能在不知情的情況下,被AI模型原樣吐了出來! 這次「ChatGPT在回復中泄露陌生男子自拍照事件」,讓大家頗為恐慌 這些隱患,目前還沒有有效方法解決。 調(diào)查顯示,用戶愿意每月多付1美元,讓自己的個人數(shù)據(jù)不被第三方使用 Altman,也看上了合成數(shù)據(jù) 另外,Sam Altman也早看到了合成數(shù)據(jù)的未來。 這些數(shù)據(jù)不是人類直接創(chuàng)造的,而是由AI模型生成的文本、圖像和代碼,也就是說,這些系統(tǒng)通過學習自己產(chǎn)生的內(nèi)容來進步。 既然AI能創(chuàng)造出接近人類的文本,當然也就能自產(chǎn)自銷,幫自己進化成更先進的版本。 只要我們能夠跨過合成數(shù)據(jù)的關鍵閾值,即讓模型能夠自主創(chuàng)造出高質(zhì)量的合成數(shù)據(jù),那么一切問題都將迎刃而解。 ——Sam Altman 不過,這件事真的這么容易嗎? 人工智能研究者們已經(jīng)研究合成數(shù)據(jù)多年,但要構建一個能自我訓練的人工智能系統(tǒng)并非易事。 專家發(fā)現(xiàn),模型如果只依賴于自我生成的數(shù)據(jù),可能會不斷重復自己的錯誤和局限,陷入一個自我加強的循環(huán)中。 這些系統(tǒng)所需的數(shù)據(jù),就像是在叢林中尋找一條路徑,如果它們僅僅依賴于合成數(shù)據(jù),就可能在叢林里迷路。 ——前OpenAI研究員、現(xiàn)任不列顛哥倫比亞大學計算機科學教授Jeff Clune 對此,OpenAI正在探索如何讓兩個不同的人工智能模型協(xié)作,共同生成更高質(zhì)量、更可靠的合成數(shù)據(jù)。其中一個負責生成數(shù)據(jù),另一個則負責評估。 這種方法是否有效,還未可知。 「規(guī)模」Is All You Need 數(shù)據(jù)為什么對AI模型這么重要?這要從下面這篇論文說起。 2020年1月,約翰斯·霍普金斯大學的理論物理學家Jared Kaplan與9位OpenAI研究人員共同發(fā)表了一篇具有里程碑意義的人工智能論文。 他們得出了一個明確的結論:訓練大語言模型所用的數(shù)據(jù)越多,其性能就越好。 正如一個學生通過閱讀更多書籍能學到更多知識一樣,大語言模型能通過更多的信息更精確地識別文本模式。 很快,「只要規(guī)模足夠大,一切就皆有可能」便成為了AI領域的共識。 論文地址:https://arxiv.org/abs/2001.08361 2020年11月,OpenAI推出的GPT-3,便利用了當時最為龐大的數(shù)據(jù)進行訓練——約3000億個token。 在吸收了這些數(shù)據(jù)后,GPT-3展現(xiàn)出了驚人的文本生成能力——它不僅可以撰寫博客文章、詩歌,甚至還能編寫自己的計算機程序。 但如今看來,這個數(shù)據(jù)集的規(guī)模就顯得相當小了。 到了2022年,DeepMind將訓練數(shù)據(jù)直接拉到了1.4萬億個token,比Kaplan博士在論文中預測的還要多。 然而,這一記錄并未保持太久。 2023年,谷歌發(fā)布的PaLM 2,在訓練token上更是達到了3.6萬億——幾乎是牛津大學博德利圖書館自1602年以來收集手稿數(shù)量的兩倍。 為訓GPT-4,OpenAI白嫖100萬+小時YouTube視頻 但正如OpenAI的CEO Sam Altman所說,AI終究會消耗完互聯(lián)網(wǎng)上所有可用的數(shù)據(jù)資源。 這不是預言,也不是危言聳聽——因為Altman本人就曾親眼目睹過它的發(fā)生。 在OpenAI,研究團隊多年來一直在收集、清理數(shù)據(jù),并將其匯集成巨大的文本庫,用以訓練公司的語言模型。 他們從GitHub這個計算機代碼庫中提取信息,收集了國際象棋走法的數(shù)據(jù)庫,并利用Quizlet網(wǎng)站上關于高中考試和作業(yè)的數(shù)據(jù)。 然而,到了2021年底,這些數(shù)據(jù)資源已經(jīng)耗盡。 為了下一代AI模型的開發(fā),總裁Brockman決定親自披掛上陣。 在他的帶領下,團隊開發(fā)出了一款全新名的語音識別工具Whisper,可以快速準確地轉錄播客、有聲讀物和視頻。 有了Whisper之后,OpenAI很快便轉錄了超過100萬小時的YouTube視頻,而Brockman更是親自參與到了收集工作當中。 最終的故事大家都知道了,在如此高質(zhì)量數(shù)據(jù)的加持下,地表最強的GPT-4橫空出世。 谷歌:我也一樣 有趣的是,谷歌其實早就知道OpenAI在利用YouTube視頻收集數(shù)據(jù),但從未想過要出面阻止。 你猜的沒錯,谷歌也在利用YouTube視頻來訓練自家的AI模型。 而如果要對OpenAI的行為大加指責,他們不僅會暴露自己,甚至還會引發(fā)公眾更加強烈的反應。 不僅如此,那些儲存在Google Docs、Google Sheets等應用里的數(shù)十億文字數(shù)據(jù),也是谷歌的目標。 2023年6月,谷歌的法律部門要求隱私團隊修改服務條款,從而擴展公司對消費者數(shù)據(jù)的使用權限。 也就是,為公司能夠利用用戶公開分享的內(nèi)容開發(fā)一系列的AI產(chǎn)品,鋪平道路。 據(jù)員工透露,他們被明確指示要在7月發(fā)布新的條款,因為那時大家的注意力都在即將到來的假期上。 7月1日發(fā)布的新條款不僅允許谷歌使用這些數(shù)據(jù)開發(fā)語言模型,還能用于創(chuàng)建像Google Translate、Bard和Cloud AI等廣泛的AI技術和產(chǎn)品 Meta數(shù)據(jù)不足,高管被迫天天開會 同樣在追趕OpenAI的,還有Meta。 為了能夠超越ChatGPT,小扎不分晝夜地催促公司的高管和工程師加快開發(fā)一個能與之競爭的聊天機器人。 然而,到了去年年初,Meta也遇到了和其他競爭者一樣的難題——數(shù)據(jù)不足。 盡管Meta掌管著龐大的社交網(wǎng)絡資源,但不僅用戶沒有保留帖子的習慣(很多人會刪除自己之前的發(fā)布),而且Facebook畢竟也不是一個大家習慣發(fā)高質(zhì)量長文的地方。 此前,小扎曾自豪聲稱Meta Platforms的訪問數(shù)據(jù),是Meta AI的一大優(yōu)勢 生成式AI副總裁Ahmad Al-Dahle向高層透露,為了開發(fā)出一個模型,他的團隊幾乎利用了網(wǎng)絡上所有可找到的英文書籍、論文、詩歌和新聞文章。 但這些還遠遠不夠。 2023年3月到4月,公司的商務發(fā)展負責人、工程師和律師幾乎每天都在密集會議,試圖找到解決方案。 他們考慮了為獲取新書的完整版權支付每本10美元的可能性,并討論了收購出版了斯蒂芬·金等作者作品的Simon & Schuster的想法。 與此同時,他們還討論了未經(jīng)允許就對網(wǎng)絡上的書籍、論文等作品進行摘要的做法,并考慮進一步「吸收」更多內(nèi)容,哪怕這可能招致法律訴訟。 好在,作為行業(yè)標桿的OpenAI,就在未經(jīng)授權的情況下使用了版權材料,而Meta或許可以參考這一「市場先例」。 根據(jù)錄音,Meta的高管們決定借鑒2015年作家協(xié)會(Authors Guild)對谷歌的法庭判決。 在那個案例中,谷歌被允許掃描、數(shù)字化并在在線數(shù)據(jù)庫中編目書籍,因為它僅在線上復制了作品的一小部分,并且改變了原作,這被認定為合理使用。 在會議中,Meta的律師們表示,用數(shù)據(jù)訓練人工智能系統(tǒng)應當同樣被視為合理使用。 但即便如此,Meta似乎還是沒攢夠數(shù)據(jù)…… AI生圖工具拒絕「白人和亞洲人」合影 最近,外媒The Verge的記者在多次嘗試后發(fā)現(xiàn),Meta的AI圖像生成工具并不能創(chuàng)建一張東亞男性和白人女性同框的圖片。 不管prompt是「亞洲男性與白人朋友」、「亞洲男性與白人妻子」、「亞洲女性與白人丈夫」,還是經(jīng)過魔改的「一位亞洲男性和一位白人女性帶著狗微笑」,都于事無補。 當他將「白人」改為「高加索人」時,結果依舊如此。 比如「亞洲男性和高加索女性的婚禮日」這個prompt,得到的卻是一張身穿西裝的亞洲男性與身著旗袍/和服混搭的亞洲女性的圖像…… AI居然難以想象亞洲人與白人并肩而立的場景,這著實有些匪夷所思。 而且,在生成的內(nèi)容中,還隱藏著更加微妙的偏見。 舉個例子,Meta總是將「亞洲女性」描繪成東亞面孔,似乎忽略了印度作為世界上人口最多國家的事實。與此同時,「亞洲男性」多為年長者,而亞洲女性卻總是年輕化。 相比之下,OpenAI加持的DALL-E 3,就完全沒有這個問題。 對此,有網(wǎng)友指出,出現(xiàn)這個問題的原因是Meta在模型訓練時沒有輸入足夠多的場景示例。 簡而言之,問題不在于代碼本身,而在于模型訓練時所使用的數(shù)據(jù)集不夠豐富,沒有充分覆蓋所有可能的場景。 但更深層次的是,AI的行為是其創(chuàng)造者偏見的體現(xiàn)。 在美國媒體中,「亞洲人」通常就是指東亞人,不符合這一單一形象的亞洲人幾乎從文化意識中被抹去,即便是符合的人也在主流媒體中被邊緣化。 而這,只是因數(shù)據(jù)造成的AI偏見的一隅而已。 參考資料: https://www.reuters.com/technology/inside-big-techs-underground-race-buy-ai-training-data-2024-04-05/ https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism 文章來源:新智元
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選