太平洋科技要聞

AI音樂戰(zhàn)火升級！三路國產(chǎn)大軍全面對決Suno

量子位整合編輯：太平洋科技發(fā)布于：2024-12-12 15:09

在與Suno對壘這條道路上，國內(nèi)在AI音樂領(lǐng)域積累已久的公司，已經(jīng)紛紛在自己的優(yōu)勢之上推出了相應(yīng)的模型及應(yīng)用，正與全球頂級產(chǎn)品展開了一場你追我趕的精彩對決。

有趣的音樂創(chuàng)作玩法，不斷驚艷用戶的模型效果，以及現(xiàn)象級的產(chǎn)品傳播方式，音樂大模型是今年垂直大模型賽道上一個(gè)十分稀缺的亮點(diǎn)。

3月，當(dāng)Suno V3面世之后，許多人驚呼音樂行業(yè)要“一夜變天”。最近，Suno發(fā)布了V4版本，允許用戶生成音質(zhì)更高、更好聽、時(shí)長更長（4分鐘）的音樂，也就意味著，一首完整的歌曲可以被AI創(chuàng)造出來，AI音樂創(chuàng)作進(jìn)入了一個(gè)全新的階段。這在海內(nèi)外引起了廣泛的關(guān)注與討論。

事實(shí)上，即便是已經(jīng)到了V4版本，Suno更擅長的還是英文曲目，中文曲目和中國區(qū)用戶并不是其迭代產(chǎn)品需求的重心。而在與Suno對壘這條道路上，國內(nèi)在AI音樂領(lǐng)域積累已久的公司，已經(jīng)紛紛在自己的優(yōu)勢之上推出了相應(yīng)的模型及應(yīng)用，正與全球頂級產(chǎn)品展開了一場你追我趕的精彩對決。

國產(chǎn)AI音樂應(yīng)用三路出擊

在Suno V3發(fā)布之后，國內(nèi)大模型玩家紛紛上線了類似的產(chǎn)品，以防錯(cuò)過音樂行業(yè)的“ChatGPT時(shí)刻”。

不過，隨著時(shí)間的流逝，以近一年的時(shí)間線觀察來看，到目前，還堅(jiān)持在AI音樂大模型賽道投入的玩家主要有三類：

以字節(jié)跳動豆包旗下海綿音樂為代表的大廠派

以昆侖萬維旗下的天工SkyMusic為代表的新興大模型廠商

以趣丸科技旗下天譜樂為代表的垂直賽道獨(dú)角獸科技公司

作為字節(jié)跳動推出的一款免費(fèi)AI音樂創(chuàng)作和分享平臺，海綿音樂主打利用人工智能技術(shù)幫助用戶生成個(gè)性化的音樂作品。

在海綿音樂，用戶只需輸入一句靈感或上傳一張圖片，即可生成專屬的音樂作品。平臺提供多種音樂風(fēng)格和創(chuàng)作工具，幫助用戶輕松創(chuàng)作出高質(zhì)量的音樂。

相比Suno，海綿音樂在AI生成的中文歌曲，提高了吐字的清晰度和演唱的流暢性，音樂曲風(fēng)也更符合中國人的喜好。

音樂大模型天工“SkyMusic”是昆侖萬維推出的國內(nèi)首個(gè)音樂SOTA模型，基于昆侖萬維的“天工3.0”超級大模型打造，能夠快速生成多種風(fēng)格的音樂作品。

“天工SkyMusic”采用的是音樂音頻領(lǐng)域類Sora模型架構(gòu)，Large-scale Transformer負(fù)責(zé)譜曲，來學(xué)習(xí)Music Patches的上下文依賴關(guān)系，同時(shí)完成音樂可控性，Diffusion Transformer負(fù)責(zé)演唱，通過LDM讓Music Patches被還原成高質(zhì)量音頻，使得“天工SkyMusic”能夠支持生成80秒44100Hz采樣率雙聲道立體聲歌曲。

天譜樂是趣丸科技今年7月發(fā)布的全球首個(gè)多模態(tài)配樂大模型，上線時(shí)間比天工晚，但也比海綿音樂略早一個(gè)月，產(chǎn)品從一上線就全面接入了其旗下應(yīng)用唱鴨APP，向所有用戶開放。

趣丸科技一直深耕音樂、音頻領(lǐng)域，旗下的拳頭產(chǎn)品還有TT語音，如今累計(jì)注冊用戶已超2億，是國內(nèi)最大的興趣社交平臺之一。

天譜樂大模型集成了圖片理解算法、旋律生成算法、視頻理解算法、配器識別算法等領(lǐng)先技術(shù)，多模態(tài)理解與生成能力比肩國際先進(jìn)水平。

值得關(guān)注的是，天譜樂大模型不僅支持文生音樂、音頻生音樂，還首創(chuàng)了圖片、視頻生成音樂功能，比Suno早推出3個(gè)月，某種程度上，意味著它的多模態(tài)輸入能力超越Suno。這也是目前幾款國產(chǎn)AI音樂中，有明顯特色功能的一款產(chǎn)品。

基于自研的畫面情緒理解模型等領(lǐng)先技術(shù)，天譜樂大模型不僅可以根據(jù)視頻畫面的明暗、色彩、情緒的細(xì)微變化逐幀識別和理解，也可以理解音樂的和弦、旋律、歌詞、演唱風(fēng)格等復(fù)雜特征，最終生成高契合度的視頻配樂。

簡單來說，用戶僅需上傳相冊中的一張圖片或一段不超過60秒的視頻，即可生成與高度適配畫面的帶人聲唱詞的完整歌曲，生成效果達(dá)到唱片發(fā)行級水準(zhǔn)。

天譜樂生成人聲歌曲：

音樂大模型持續(xù)進(jìn)化的關(guān)鍵

事實(shí)上，國內(nèi)音樂雙巨頭騰訊音樂和網(wǎng)易云音樂，也分別推出了X·Studio和啟明星這樣的產(chǎn)品，以追趕當(dāng)前生成式人工智能的浪潮。

但或許是巨頭本身憑借強(qiáng)大的版權(quán)庫，已經(jīng)能夠收獲足夠的市場份額和商業(yè)回報(bào)，所以外界感受到的是，這兩家公司在AI音樂上的投入和活躍度始終不及上述代表性的玩家。

而在與全球科技巨頭角逐AI大模型這一場比賽，行業(yè)內(nèi)的一個(gè)共識是，AI應(yīng)用是國內(nèi)公司少有的優(yōu)勢之一，也是少有能夠趕超國外大模型公司的機(jī)會。這也就意味著，探索和創(chuàng)造出更多用戶真正會使用的產(chǎn)品，以及可落地商業(yè)化場景，才是國產(chǎn)大模型能夠持續(xù)進(jìn)化的基石和未來。

這也符合趣丸科技副總裁賈朔對音樂大模型的理解。他表示，“降低門檻讓普通用戶體驗(yàn)音樂創(chuàng)作的樂趣”是自研天譜樂產(chǎn)品的價(jià)值主張。

音樂原創(chuàng)的專業(yè)度很高，但是，在AI的輔助之下，用戶可以只需要輸入一句話、一張照片或一段視頻，在1-2分鐘內(nèi)生成一首詞曲結(jié)構(gòu)相對完整的歌曲。

事實(shí)證明，這樣的策略的確收獲了不少市場的正反饋。目前已有4600萬人注冊使用唱鴨APP或天譜樂官網(wǎng)，累計(jì)創(chuàng)作近1000萬首AI歌曲。

技術(shù)平權(quán)的意義在于，讓更多人能夠享受到科技進(jìn)步帶來的便利和好處，縮小不同群體之間的技術(shù)差距。

除了服務(wù)音樂愛好者等C端用戶，應(yīng)用在影視制作等專業(yè)從業(yè)者的工作流，則為AI音樂大模型落地提供更多可商業(yè)化的場景。

當(dāng)前市面上的音樂大模型，一方面，可以服務(wù)于專業(yè)音樂人，通過縮減詞曲創(chuàng)作、編曲等工作提升了音樂創(chuàng)作效率，讓快速創(chuàng)作和試驗(yàn)新的音樂構(gòu)思成為可能。另一方面，在短視頻浪潮之下，音樂大模型正在輔助短視頻創(chuàng)作者，讓他們更容易創(chuàng)造出符合視頻內(nèi)容的背景音樂，提升內(nèi)容質(zhì)量和觀眾體驗(yàn)。

據(jù)了解，天譜樂還將在近期發(fā)布新功能——MidiRender，功能類比于一個(gè)精準(zhǔn)、可控音樂版的Control Net，專業(yè)的創(chuàng)作用戶可以輸入自己的音樂構(gòu)想，讓天譜樂AI根據(jù)這個(gè)原創(chuàng)音樂片段填充歌詞、完成編曲。

創(chuàng)作者輸入原創(chuàng)音樂片段：

天譜樂填充歌詞完成編曲：

這些提供定制化的音樂解決方案，帶來更多的應(yīng)用場景和商業(yè)機(jī)會，能夠持續(xù)促進(jìn)音樂產(chǎn)業(yè)的創(chuàng)新和發(fā)展。

AI音樂創(chuàng)作還有哪些待解的難題？

盡管音樂大模型在2024年以前所未有的速度在狂飆，但它身后依舊給這個(gè)行業(yè)的操盤手留下了一些難解的尷尬。

首當(dāng)其沖是音樂版權(quán)的問題。高質(zhì)量的音樂生成模型依賴高質(zhì)量的音樂音頻數(shù)據(jù)。

今年6月，環(huán)球音樂集團(tuán)、索尼音樂集團(tuán)和華納音樂集團(tuán)等多家唱片公司就對Suno和Udio發(fā)起訴訟，稱它們非法使用版權(quán)音樂來訓(xùn)練自己的AI模型并對外提供服務(wù)。隨后，Suno進(jìn)行了回?fù)�，指�?zé)它們利用版權(quán)訴訟來保護(hù)自己在人工智能音樂領(lǐng)域的市場主導(dǎo)地位。

目前雙方的爭奪尚未有一個(gè)定論，但唯一可以肯定的是，AI音樂公司在技術(shù)上取得了顯著進(jìn)展，如何在法律框架內(nèi)運(yùn)營和商業(yè)化，將是這些公司未來必須思考的問題。

此外，音樂大模型生成的音樂作品是否享有版權(quán)保護(hù)，其版權(quán)歸屬如何界定，尚無明確的法律規(guī)定，這給音樂大模型的應(yīng)用帶來了不確定性和風(fēng)險(xiǎn)。

針對版權(quán)的問題，賈朔發(fā)現(xiàn)，其實(shí)可以從技術(shù)手段上規(guī)避一些紛爭。比如，在產(chǎn)品側(cè)，當(dāng)用戶在使用AI創(chuàng)作時(shí)，可判斷其是否有主觀意圖模仿現(xiàn)有藝術(shù)家，并且做出彈窗提示。

事實(shí)上，人類在進(jìn)行藝術(shù)創(chuàng)作的時(shí)候，靈感都未必是憑空產(chǎn)生，多數(shù)也是吸取和借鑒過往歷史上、產(chǎn)業(yè)里優(yōu)秀的案例，不斷打磨迭代，在巨人肩膀上創(chuàng)新和創(chuàng)造。訓(xùn)練AI大模型是如此，人類學(xué)習(xí)成長與進(jìn)步也類似。

另一方面，則是音樂的創(chuàng)意與情感。

音樂創(chuàng)作具有很強(qiáng)的專業(yè)性，但也屬于人類的情感和情緒的一種表達(dá)。雖然音樂大模型可以生成具有特定風(fēng)格和情感的音樂作品，但其創(chuàng)意和獨(dú)特性仍然有限。

如何提升音樂大模型的創(chuàng)意能力，使其能夠創(chuàng)作出更具個(gè)性和創(chuàng)新性的音樂作品，是當(dāng)前音樂大模型需要突破的方向之一。

在這一方向上，行業(yè)里有一個(gè)思路是，讓AI生產(chǎn)的音樂聲音更像“人”，以此更契合人類的情感表達(dá)訴求，使生成的歌曲引發(fā)更多人的共情與共鳴。

比如說，消除AI歌曲的電音問題。這是AI音樂過往被用戶吐槽最多的事情，也是很多音樂大模型在人聲技術(shù)上攻克的重點(diǎn)之一。趣丸科技表示，最近這一問題已經(jīng)率先解決，得益于最新的天譜樂大模型2.2版本，在長序列音樂語意建模和高質(zhì)量音頻空間建模上，實(shí)現(xiàn)進(jìn)一步突破，高度還原音樂音頻在高維空間的連續(xù)信號表征，實(shí)現(xiàn)音樂性和音質(zhì)的飛躍。播客“Vibration 歪波音室”主理人拾壹也在公開場合提到，幾乎無法區(qū)分天譜樂的人聲唱詞和真人歌曲。

但也需要看到，盡管AI能夠模擬人類的創(chuàng)作模式，它始終很難真正理解和表達(dá)人類復(fù)雜的情感。音樂中的情感往往是創(chuàng)作者內(nèi)心深處的真實(shí)感受，AI生成的音樂可能在情感表達(dá)上顯得較為膚淺。而一些缺乏人類靈氣和感情的作品，在這個(gè)流量大爆炸和注意力被狂轟濫炸的時(shí)代，我們沒有理由再去承受更多。

作為人類，我們還需要面對的是，AI音樂創(chuàng)作的發(fā)展會對部分人類音樂創(chuàng)作者的就業(yè)和創(chuàng)作空間造成一定的擠壓。但無論如何，在當(dāng)前的階段，我們需要尋找一種平衡，實(shí)現(xiàn)AI與人類創(chuàng)作者的真正的共存。

本文來源：量子位

AI音樂大模型國產(chǎn)公司

量子位

原創(chuàng)欄目