太平洋科技要聞

AI“肥料”不足，OpenAI被曝瘋狂轉(zhuǎn)錄YouTube視頻

頭號(hào)AI玩家整合編輯：龔震發(fā)布于：2024-04-08 15:22

在大模型競(jìng)賽中，數(shù)據(jù)短缺危機(jī)正越來越嚴(yán)峻。

最近《紐約時(shí)報(bào)》的一項(xiàng)調(diào)查顯示，為了獲得大量且高質(zhì)量的訓(xùn)練數(shù)據(jù)，包括OpenAI、Google和Meta在內(nèi)的科技公司紛紛走捷徑，忽視平臺(tái)政策，在違法邊緣瘋狂試探。

其中OpenAI通過語音轉(zhuǎn)錄工具Whisper，收集了超100萬小時(shí)的YouTube視頻文本，作為GPT-4的訓(xùn)練數(shù)據(jù)。

《紐約時(shí)報(bào)》報(bào)道封面

AI公司正瘋狂從互聯(lián)網(wǎng)上獲取各類數(shù)據(jù)以訓(xùn)練AI大模型，但這是否合法、符合平臺(tái)政策呢？

一場(chǎng)圍繞數(shù)據(jù)資源的權(quán)益爭(zhēng)奪戰(zhàn)已在創(chuàng)作者、內(nèi)容平臺(tái)和AI公司之間展開。

AI“肥料”不足，

OpenAI瘋狂轉(zhuǎn)錄YouTube視頻

據(jù)《紐約時(shí)報(bào)》報(bào)道，OpenAI多年來一直在收集數(shù)據(jù)、清理數(shù)據(jù)，并將其輸入到一個(gè)龐大的文本池中，以訓(xùn)練大型語言模型。

這些數(shù)據(jù)包括來自Github的計(jì)算機(jī)代碼、國(guó)際象棋數(shù)據(jù)庫(kù)、來自Quizlet的高中考試題和作業(yè)內(nèi)容等。

到了2021年底，OpenAI已經(jīng)耗盡了互聯(lián)網(wǎng)上所有可靠的英文文本資源，急需更多數(shù)據(jù)來訓(xùn)練下一代模型GPT-4。

為此，OpenAI內(nèi)部商量了幾個(gè)方案：轉(zhuǎn)錄播客、有聲讀物和YouTube視頻；用AI系統(tǒng)從頭開始創(chuàng)建數(shù)據(jù)；收購(gòu)已經(jīng)收集了大量數(shù)字?jǐn)?shù)據(jù)的初創(chuàng)公司。

OpenAI的研究團(tuán)隊(duì)后來創(chuàng)建了一個(gè)名為Whisper的語音識(shí)別工具，用于轉(zhuǎn)錄YouTube視頻和播客，生成新的對(duì)話文本，以進(jìn)一步提高AI的智能程度。

Whisper博客：https://openai.com/research/whisper

三名知情人士表示，OpenAI員工知道這樣做會(huì)涉足法律灰色地帶，可能違反YouTube的規(guī)則。Google旗下的YouTube禁止將其視頻用于“獨(dú)立”的應(yīng)用程序，還禁止通過“任何自動(dòng)化手段（如機(jī)器人或爬蟲）”訪問其視頻。

但OpenAI團(tuán)隊(duì)認(rèn)為用視頻訓(xùn)練AI是合理使用，最終還是轉(zhuǎn)錄了超過100萬小時(shí)的YouTube視頻。

知情人士稱，OpenAI總裁Greg Brockman領(lǐng)導(dǎo)了開發(fā)GPT-4的團(tuán)隊(duì)，他親自參與收集了這些YouTube視頻，然后將其輸入至GPT-4。

除了OpenAI，Meta、Google等科技公司也采取了類似的措施。

據(jù)Meta去年初的內(nèi)部會(huì)議錄音，Meta的生成式AI副總裁Ahmad Al-Dahle稱，團(tuán)隊(duì)已經(jīng)使用了互聯(lián)網(wǎng)上幾乎所有可用的英文書籍、論文、詩(shī)歌和新聞文章來開發(fā)模型，除非Meta獲得更多數(shù)據(jù)，否則無法匹敵ChatGPT。

2023年3月和4月，Meta團(tuán)隊(duì)考慮收購(gòu)出版社Simon & Schuster以獲取其長(zhǎng)篇作品的授權(quán)，以及討論了如何在未經(jīng)許可的情況下，從互聯(lián)網(wǎng)上收集受版權(quán)保護(hù)的數(shù)據(jù)，即使這將帶來訴訟。

他們提到，如果與出版商、藝術(shù)家、音樂家和新聞行業(yè)談判授權(quán)的話，會(huì)耗費(fèi)太長(zhǎng)時(shí)間。

Meta曾表示，已經(jīng)從Instagram和Facebook獲取了數(shù)十億公開共享的圖像和視頻來訓(xùn)練其模型。

有知情人士稱，Google也轉(zhuǎn)錄了YouTube視頻來訓(xùn)練自家的AI模型，并在去年擴(kuò)大了其服務(wù)條款。

此前的隱私政策稱，Google只能使用公開信息來“幫助訓(xùn)練Google的語言模型并構(gòu)建Google翻譯等功能”，更改后的條款擴(kuò)大了AI技術(shù)適用范圍，Google可以利用數(shù)據(jù)“訓(xùn)練AI模型并構(gòu)建Google翻譯、Bard和Cloud AI等產(chǎn)品和功能”。

Google隱私政策修改

Google的內(nèi)部消息顯示，這一變化的目的之一是為了讓Google能利用公開的Google文檔、Google地圖上的餐廳評(píng)論等其他在線數(shù)據(jù)，來完善其AI產(chǎn)品。

創(chuàng)作者紛紛起訴AI侵權(quán)

開發(fā)更大更強(qiáng)的AI，意味著需要看似無盡的數(shù)據(jù)資源。從新聞報(bào)道、出版作品，到網(wǎng)絡(luò)留言、博客文章、社交平臺(tái)上的照片和視頻等等，互聯(lián)網(wǎng)上的各類數(shù)據(jù)正成為AI行業(yè)發(fā)展的重要基石。

而對(duì)于創(chuàng)作者來說，AI公司使用他們的作品來訓(xùn)練模型，存在侵犯版權(quán)和道德問題。

《紐約時(shí)報(bào)》去年底起訴OpenAI和微軟，稱其在未經(jīng)許可的情況下使用受版權(quán)保護(hù)的新聞文章來訓(xùn)練AI聊天機(jī)器人。OpenAI和微軟回應(yīng)稱這是“合理使用”，或者說受版權(quán)法保護(hù)的。

去年好萊塢罷工也涉及AI相關(guān)權(quán)利的爭(zhēng)議。電影制作人、演員Justine Bateman是美國(guó)演員工會(huì)（SAG-AFTRA）的AI顧問，她認(rèn)為AI模型在未經(jīng)許可或付費(fèi)的情況下獲取內(nèi)容（包括她的作品和電影），“這是美國(guó)最大的盜竊案”。

近期，包括知名歌手Billie Eilish、Nicki Minaj等在內(nèi)的200多名藝術(shù)家簽署了一封公開信，要求科技公司承諾不開發(fā)破壞或取代人類創(chuàng)意的AI工具，“我們必須防止AI被掠奪性地用來竊取專業(yè)創(chuàng)作者的聲音和肖像，侵犯創(chuàng)作者的權(quán)利，并破壞音樂生態(tài)系統(tǒng)”。

面對(duì)創(chuàng)作者的抗議，內(nèi)容平臺(tái)也亮明了態(tài)度。

YouTube首席執(zhí)行官Neal Mohan近日在接受彭博社采訪時(shí)強(qiáng)調(diào)，下載YouTube視頻，然后用于訓(xùn)練Sora等AI模型顯然違反了YouTube現(xiàn)行的相關(guān)條款。

他承認(rèn)Google在訓(xùn)練Gemini模型時(shí)“使用了YouTube上的一些內(nèi)容”，但在使用前已得到創(chuàng)作者的授權(quán)，這是YouTube與創(chuàng)作者之間的協(xié)議所允許的。

Google發(fā)言人Matt Bryant針對(duì)隱私政策的變更回應(yīng)稱，Google沒有在未經(jīng)用戶“明確許可”的情況下使用Google文檔或相關(guān)應(yīng)用的信息來訓(xùn)練AI，條款中指的是一個(gè)允許用戶測(cè)試實(shí)驗(yàn)性功能的自愿計(jì)劃。

AI合成數(shù)據(jù)可行嗎

回顧AI大模型的進(jìn)程，2020年之前，大多數(shù)AI模型使用的訓(xùn)練數(shù)據(jù)比現(xiàn)在小得多。

AI大模型訓(xùn)練數(shù)據(jù)量變化，圖源《紐約時(shí)報(bào)》

直到約翰·霍普金斯大學(xué)理論物理學(xué)家Jared Kaplan發(fā)表了一篇關(guān)于AI的開創(chuàng)性論文，發(fā)現(xiàn)訓(xùn)練大型語言模型所需的數(shù)據(jù)越多，它的性能就越好。

此后，“規(guī)模即一切（Scale Is All You Need）”很快成為AI研究的口號(hào)。

論文地址：https://arxiv.org/pdf/2001.08361.pdf

OpenAI在2020年11月推出了GPT-3，它是當(dāng)時(shí)訓(xùn)練數(shù)據(jù)量最大的模型——約3000億個(gè)token。Google旗下的AI實(shí)驗(yàn)室DeepMind更進(jìn)一步，在2022年測(cè)試了400個(gè)AI模型，其中一個(gè)模型Chinchilla接受了1.4萬億token的訓(xùn)練。

不過這一紀(jì)錄沒有維持多久。去年，中國(guó)的研究人員發(fā)布了一個(gè)AI模型Skywork，中英文文本訓(xùn)練數(shù)據(jù)量達(dá)3.2萬億token。Google的PaLM 2更是超過3.6萬億token。

研究機(jī)構(gòu)Epoch表示，AI公司使用數(shù)據(jù)的速度比產(chǎn)生數(shù)據(jù)的速度更快，最早到2026年，互聯(lián)網(wǎng)上的高質(zhì)量數(shù)據(jù)可能被使用殆盡。

如何解決“數(shù)據(jù)荒”以及一系列產(chǎn)業(yè)問題，成了當(dāng)下AI發(fā)展的焦點(diǎn)。

面對(duì)數(shù)據(jù)短缺危機(jī)，科技公司正在開發(fā)“合成數(shù)據(jù)”（Synthetic data），即使用AI生成的文本、圖像和代碼，讓AI從自己生成的內(nèi)容中進(jìn)行學(xué)習(xí)。

OpenAI發(fā)言人Lindsay Held告訴The Verge，OpenAI的每個(gè)模型都擁有獨(dú)特的數(shù)據(jù)集，他們的數(shù)據(jù)來源眾多，包括公開數(shù)據(jù)和非公開數(shù)據(jù)的合作伙伴，并且正在考慮生成自己的合成數(shù)據(jù)。

Sam Altman曾表示，未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)。既然AI模型可以產(chǎn)生類似人類的文本，那么也可以創(chuàng)建額外的數(shù)據(jù)來開發(fā)更好的AI，這將減少團(tuán)隊(duì)對(duì)版權(quán)數(shù)據(jù)的依賴。

不少業(yè)內(nèi)人士推測(cè)，Sora可能已經(jīng)通過使用了基于數(shù)據(jù)驅(qū)動(dòng)的Unreal Engine5大量生成了合成數(shù)據(jù)作為訓(xùn)練集。

但構(gòu)建一個(gè)可以自我訓(xùn)練的AI系統(tǒng)說起來容易，做起來難。從自己的輸出中學(xué)習(xí)的AI模型可能會(huì)陷入一個(gè)死循環(huán)，不斷強(qiáng)化自己的怪癖、錯(cuò)誤和局限。

“這些AI系統(tǒng)需要的數(shù)據(jù)就像在叢林中尋找出路，”前OpenAI研究員Jeff Clune說，“如果它們只在合成數(shù)據(jù)上訓(xùn)練，很可能會(huì)在叢林中迷路�！�

為了對(duì)抗這一點(diǎn)，OpenAI和其他公司正在研究?jī)蓚€(gè)不同的AI模型如何合作生成更有用、更可靠的合成數(shù)據(jù)。一個(gè)AI產(chǎn)生數(shù)據(jù)，另一個(gè)評(píng)估信息以分離好的數(shù)據(jù)和壞的。不過這種方法是否有效仍未得到研究證實(shí)。

此外，目前海外已有Scale AI、Gretel.ai等企業(yè)開始給外界提供合成數(shù)據(jù)服務(wù)。

國(guó)內(nèi)方面，清華大學(xué)蘇世民書院院長(zhǎng)、人工智能國(guó)際治理研究院院長(zhǎng)薛瀾在近期的公開演講中談到，中國(guó)的數(shù)據(jù)量很大，但沒有真正產(chǎn)業(yè)化，相對(duì)標(biāo)準(zhǔn)化的數(shù)據(jù)服務(wù)商還比較少，因?yàn)榇髷?shù)據(jù)服務(wù)不賺錢，公共數(shù)據(jù)企業(yè)沒有意愿去清洗，定制化服務(wù)又一般收費(fèi)比較高。因此，數(shù)據(jù)市場(chǎng)如何構(gòu)建也是需要解決的問題。

參考文章：

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

https://www.bloomberg.com/news/articles/2024-04-04/youtube-says-openai-training-sora-with-its-videos-would-break-the-rules?utm_source=website&utm_medium=share&utm_campaign=copy

https://baijiahao.baidu.com/s?id=1795539096138279593&wfr=spider&for=pc

文章來源：頭號(hào)AI玩家

數(shù)據(jù)短缺危機(jī) 合成數(shù)據(jù) 創(chuàng)作者權(quán)益

頭號(hào)AI玩家

原創(chuàng)欄目