AI視頻模型賽道近期已成為生成式AI領(lǐng)域新風(fēng)口,最新發(fā)布的是“字節(jié)版Sora”。 9月24日,預(yù)告已久的2024火山引擎AI創(chuàng)新巡展深圳站上,字節(jié)跳動首款A(yù)I視頻模型——豆包·視頻生成模型正式登場。 豆包·視頻生成模型基于全新DiT擴散模型架構(gòu),能夠精準(zhǔn)理解復(fù)雜prompt(提示詞),實現(xiàn)多個主體運動的復(fù)雜交互,保持多鏡頭切換內(nèi)容的一致性,且具備高保真高美感的影視級生成水準(zhǔn),從而用于電商營銷、城市文旅、動畫教育、微短劇等多個場景中。 那么,不僅“紙上談兵”,而且還要“真練”,那么我們下面看看“字節(jié)版Sora”效果如何。 首先是一段“童話王國”視頻,花團錦簇在小房子周圍,門窗和燈光清晰可見,橋上和房子背后的動物動作栩栩如生。 第二段是羊群奔跑的狀態(tài),腿部和奔跑狀態(tài)都如同真實場景一般,后面的黑羊穿過烏云跑向前方。 最后一組是呈現(xiàn)多尺寸高清視頻,以及展現(xiàn)AI生成“口紅”廣告的品牌營銷,基于豆包·視頻生成模型,鮮紅色的口紅能讓更多人有了下單購買的欲望。 而且,豆包大模型時隔不到半年還實現(xiàn)6款模型發(fā)布和能力升級,包括:豆包·視頻生成模型、豆包·同聲傳譯模型、豆包·音樂模型;以及升級的豆包通用模型pro、豆包·語音合成模型、豆包·文生圖模型。 很顯然,火山引擎正加速豆包大模型產(chǎn)品和方案落地。 實際上,當(dāng)下大模型技術(shù)快速迭代,技術(shù)可用性大幅提升,已具備文本、語音、視覺的多種模態(tài)能力,并開始完成復(fù)雜指令。因此,生成式AI技術(shù)競賽已進入“下半場”,不僅要有能力,而且商業(yè)化也成為各家AI公司的“必爭之地”。 《生成式AI商業(yè)落地白皮書》顯示,當(dāng)前有53%的中國企業(yè)已開始有組織地進行生成式AI布局。這意味著,很多中國企業(yè)已意識到生成式AI技術(shù)對于自身發(fā)展的重要性,并將在其中投入資源和精力。 一個公開數(shù)據(jù)可以例證:今年上半年,國內(nèi)AI相關(guān)招投標(biāo)市場招標(biāo)總額已超過2023年全年規(guī)模,用于教育、醫(yī)療、交通等多個領(lǐng)域的數(shù)百個場景。 作為中國領(lǐng)先的云和智能解決方案企業(yè),火山引擎最新數(shù)據(jù)顯示,截至今年9月,豆包大模型的日均Tokens使用量已經(jīng)超過1.3萬億,4個月時間里Tokens整體增長超過10倍;同時,C端下載量超過1億次,擁有超過3000萬月活,經(jīng)過字節(jié)跳動內(nèi)部50+真實業(yè)務(wù)場景實踐驗證,30+行業(yè)外部企業(yè)深度共創(chuàng)。 “(今年)下半年是整個AI應(yīng)用的元年!被鹕揭婵偛米T待表示,作為國內(nèi)第一個把模型成本做到每千token低于一厘錢的企業(yè),火山引擎的豆包大模型推動大量的創(chuàng)新應(yīng)用隨之不斷涌現(xiàn),模型調(diào)用量突飛猛進,大家共同努力讓應(yīng)用的生態(tài)更加繁榮。 如果說2023年還是“百模大戰(zhàn)”,大家卷技術(shù)、卷能力。而到了今年,以火山引擎為代表的“中國OpenAI”們,不僅在大模型層面要有強大“能力”,同時也需要實現(xiàn)對客戶的快速交付及商業(yè)落地,證明著生成式AI技術(shù)能夠?qū)ζ髽I(yè)產(chǎn)生更大的業(yè)務(wù)價值、產(chǎn)業(yè)價值。 三大豆包垂直模型首發(fā) 主力模型綜合提升超25% 2024年,全球生成式AI技術(shù)持續(xù)“狂飆”。 Crunchbase數(shù)據(jù)顯示,2024年上半年,全球AI風(fēng)投總投資規(guī)模達330億美元,比2023年同期增長177%。預(yù)計今年全年,全球AI投資規(guī)模將有望達到650億美元,在這其中,被投企業(yè)主要來自AI基礎(chǔ)設(shè)施和AI應(yīng)用領(lǐng)域。 年初至今,OpenAI發(fā)布的三款A(yù)I大模型產(chǎn)品,包括2月的AI視頻模型Sora、5月的實時通話模型GPT-4o、9月的推理最強模型o1-preview和o1-mini持續(xù)引發(fā)關(guān)注。 回到國內(nèi),“百模大戰(zhàn)”正轉(zhuǎn)向百款A(yù)I應(yīng)用和場景模型,并呈現(xiàn)新一輪“百家爭鳴”競爭態(tài)勢。字節(jié)跳動、阿里、騰訊、百度、螞蟻、智譜AI等企業(yè)紛紛發(fā)力,文小言、支小寶、秘塔AI搜索等多款A(yù)I智能體(Agent)應(yīng)用不斷落地。 截至目前,作為國內(nèi)使用量最大、應(yīng)用場景最豐富的大模型服務(wù)商之一,火山引擎已經(jīng)公布超過10款A(yù)I模型。同時,智源研究院旗下FlagEval大模型評測平臺此前發(fā)布的榜單顯示,在閉源大模型的“客觀評測”中,豆包大模型以綜合評分75.96分排名國產(chǎn)大模型第一。 如今,火山引擎再度發(fā)力。9月24日,火山引擎AI創(chuàng)新巡展深圳站上共發(fā)布和升級6款大模型產(chǎn)品: 3款全新發(fā)布:豆包·視頻生成模型、豆包·同聲傳譯模型、豆包·音樂模型; 3款模型能力重磅升級:豆包通用模型pro、豆包·語音合成模型、豆包·文生圖模型。 首先是非常受關(guān)注的豆包·視頻生成模型,堪稱“字節(jié)版Sora”。 全新豆包·視頻生成模型基于DiT架構(gòu),通過自研的高壓縮比、高還原性視頻隱狀態(tài)編碼和解碼模型,強力保證了擴散模型在隱狀態(tài)空間的高效編碼與運轉(zhuǎn)。而豆包·視頻生成模型基于深度優(yōu)化的Transformer結(jié)構(gòu),從而大幅提升視頻生成的泛化能力。 事實上,文生視頻作為新的AI視頻制作工具,當(dāng)前主要解決4個方面的問題:提高效率、降低成本、創(chuàng)意實現(xiàn)、版權(quán)合規(guī)。 全新豆包·視頻生成模型具備諸多卓越特性:精準(zhǔn)的語義理解能力可處理高難度 prompt(提示詞),達成時序性多拍動作與多主體復(fù)雜交互;切鏡方面,全新的擴散模型訓(xùn)練方法攻克了多鏡頭切換一致性難題,10秒就能講述一個起承轉(zhuǎn)合的故事且各鏡頭主體、風(fēng)格等保持一致,支持一致性多鏡頭生成;借助高效的DiT融合計算單元,它能呈現(xiàn)強大的動態(tài)與豐富的運鏡效果,其影視級的生成水準(zhǔn),細節(jié)逼真、美感十足,還支持多種風(fēng)格和比例,能快速生成優(yōu)質(zhì)的視頻片段,賦能電商影視創(chuàng)作、廣告?zhèn)髅、短視頻等多個場景。 例如,電商營銷行業(yè),文生視頻可以把商品變成3D動態(tài)多角度展示視頻,匹配適合的營銷背景素材(中秋、春節(jié)、七夕等)并生成不同尺寸快速上架;動畫教育行業(yè),文生視頻可以降低動畫的制作成本,低門檻的實現(xiàn)童話故事的想象情景等超現(xiàn)實畫面。 這是一段香水廣告,透過豆包·視頻生成模型,可以展現(xiàn)水流淌到香水周圍的畫面,凸顯香水的高貴與典雅。 其次是直接對標(biāo)Suno的豆包·音樂模型——你的專屬“音樂創(chuàng)作大師”。 該音樂模型可以通過“海綿音樂”進行體驗,用戶只需通過簡單的描述或上傳一張圖片,就能輕松生成一首包含旋律、歌詞和演唱的1分鐘高品質(zhì)音樂作品,并支持民謠、流行、搖滾等10余種不同的風(fēng)格和情緒的隨心選,極大地簡化了音樂的創(chuàng)作過程,可應(yīng)用于音樂創(chuàng)作、音樂教育、娛樂產(chǎn)業(yè)、廣告營銷等應(yīng)用場景。目前,豆包·音樂模型已經(jīng)上線“海綿音樂”App和網(wǎng)頁平臺,而且也可以在“豆包”產(chǎn)品內(nèi)進行體驗。 下圖是我們利用一段情感類文字,幾秒鐘就生成了1分鐘左右的高品質(zhì)音樂,你可以聽一下效果。 再次是全新的豆包·同聲傳譯模型。 該模型基于端到端同聲傳譯智能體CLASI,效果已接近專業(yè)人工水平的同聲傳譯。依托于豆包基座大模型和豆包大模型語音組的語音理解能力,具備實時翻譯、超低延時、自然高質(zhì)量、音色克隆等特點。同時,在辦公、法律、教育等場景中,豆包·同聲傳譯模型顯著超過了其他所有競品,并且在兩個語向上均達到78%以上的準(zhǔn)確性,接近甚至超越人類同傳水平,并具備了從外部獲取知識的能力,形成媲美人類水平的同聲傳譯系統(tǒng)。 最后是豆包通用模型pro、豆包·語音合成模型、豆包·文生圖模型實現(xiàn)能力升級。 其中,作為豆包主力模型,此次豆包通用模型Pro的最新模型在數(shù)學(xué)能力、專業(yè)知識方面有超過35%的提升,綜合能力超過25%的提升,其他包括指令遵循、代碼等能力也在持續(xù)提升,能夠面對復(fù)雜的企業(yè)生產(chǎn)場景。同時,Pro具有長文本能力,上下文窗口長度翻至兩倍,達到256K,約40萬漢字。 同時,豆包·文生圖模型全面升級到2.0,采用更高效的DiT架構(gòu),能顯著提升模型的推理效率和整體性能,在復(fù)雜圖文匹配、極速模型出圖、中國文化理解都有提升;诟咝iT構(gòu)架,同等參數(shù)下推理消耗是flux的67%,模型最快做到3秒出圖同時,在內(nèi)部Elo數(shù)十萬輪評測第一名。據(jù)披露,自豆包文生圖模型在豆包App上線以來,人均下載圖片數(shù)量提升1倍,下載用戶人數(shù)提升45%。 比如,這張戴著棒球帽、墨鏡并喝著咖啡的卡通風(fēng)格插圖。 基于全新豆包·文生圖模型,可以實現(xiàn)復(fù)雜圖文匹配,精確呈現(xiàn)真實世界與想象世界的復(fù)雜場景,包括更符合物理世界規(guī)律現(xiàn)實場景,升級多數(shù)量、多屬性、大小、高矮、胖瘦和運動6類圖文生成難點的精準(zhǔn)匹配,并更好實現(xiàn)對中國古代繪畫藝術(shù)的理解和呈現(xiàn)。 此外,豆包·語音合成模型能力也全面升級,一句話聲音復(fù)刻后就能混音創(chuàng)作,支持超強混音功能,打破語音合成的音色數(shù)量限制,并能夠精準(zhǔn)捕捉不同聲音的韻律、音色、表達方式、語氣語調(diào)等特色,而且可以將數(shù)百種精品音色自由組合,無限D(zhuǎn)IY不同音色、情感、性別、年齡和風(fēng)格的聲音,創(chuàng)造出極具戲劇張力的語音效果,在連貫性、音質(zhì)、韻律、氣口等各方面表現(xiàn)堪比真人。 總結(jié)來看,截至目前,從文字到語音合成,從文生圖到視頻生成,豆包大模型都已全部覆蓋,不僅擁有更強模型能力,而且有更低價格、更易落地等特點,利用AI和云幫助企業(yè)和客戶能夠解決一系列實際問題。 譚待表示,任何數(shù)字化底座一定是云,包括現(xiàn)在AI也是數(shù)字化的一部分,基于AI的云設(shè)施可以給客戶傳遞更大價值。企業(yè)要做好大模型落地,面臨模型效果不好、成本太貴、落地太難三大關(guān)鍵挑戰(zhàn),因此,火山引擎既要有好的基礎(chǔ)大模型做支撐,解決復(fù)雜難題,也要有低成本的推理服務(wù)讓大模型被廣泛應(yīng)用,還要更多工具、平臺和應(yīng)用幫助企業(yè)做好場景落地。 加速商業(yè)落地 共創(chuàng)關(guān)鍵場景應(yīng)用 今年上半年,AI大模型“價格戰(zhàn)”又引爆了行業(yè)競爭。 截至目前,在各家大模型最強版本價格對比中豆包大模型比行業(yè)價格低98%以上。 以豆包為核心的國內(nèi)AI大模型將價格逼近“厘時代”。而這種極低的成本,使得大模型商業(yè)化應(yīng)用變得更加可行,不僅對大型企業(yè)有利,而且為中小企業(yè)提供了前所未有的機會。 從“參數(shù)戰(zhàn)”到“價格戰(zhàn)”,AI大模型領(lǐng)域正由技術(shù)之爭,轉(zhuǎn)變?yōu)樯虡I(yè)之爭。這不僅是成本與市場的博弈,也更加考驗企業(yè)的創(chuàng)新能力、應(yīng)用能力、運營和商業(yè)化能力。公開調(diào)研數(shù)據(jù)顯示,有37%的受訪企業(yè)認為,基于生成式AI技術(shù)可以給項目帶來超過10%的成本縮減。 對于中國超過5200萬中小微企業(yè)來說,盡快落地生成式AI技術(shù)至關(guān)重要。當(dāng)前AI時代,企業(yè)面臨諸多挑戰(zhàn),降本增效是生存關(guān)鍵,且需數(shù)字化、智能化轉(zhuǎn)型升級,不斷創(chuàng)新,以免錯失機遇。在科技快速發(fā)展的今天,未及時跟進的企業(yè)可能會在未來競爭中處劣勢。 作為國內(nèi)云與智能服務(wù)商,基于豆包大模型更強模型、更易落地、更低價格特點,火山引擎已經(jīng)宣布與30+行業(yè)外部企業(yè)深度共創(chuàng)豆包大模型商業(yè)落地,全面助力零售、游戲、汽車、教育、醫(yī)療、企業(yè)服務(wù)等領(lǐng)域,助力客戶提速增效。 以企業(yè)物流領(lǐng)域龍頭G7易流為例。 當(dāng)前隨著直播電商和外賣物流需求快速增長,國內(nèi)快遞包裹數(shù)量高達1150億件以上,因此,物流領(lǐng)域面臨預(yù)訂單和訂單的管理問題。然而,不同系統(tǒng)、平臺和通信渠道(如微信群)中的訂單單據(jù)格式千差萬別,這給物流行業(yè)的錄單工作帶來了極大的挑戰(zhàn)。傳統(tǒng)的人工錄單方式需要將原始的、非結(jié)構(gòu)化的信息轉(zhuǎn)化為格式化數(shù)據(jù),這一過程不僅工作量大、效率低下,而且容易出錯。 因此,G7易流利用豆包大模型的強大語言理解和文字抽取能力,聯(lián)合豆包大模型打造“智能接單”機器人,可迅速從微信群中提取關(guān)鍵信息如客戶名稱、貨物詳情、發(fā)車時間等,并將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)直接導(dǎo)入業(yè)務(wù)系統(tǒng),進一步顯著提高接單的效率和準(zhǔn)確性,使錄單工作變得異常便利。 其中,處理能力層面,大模型簡化了G7易流平臺數(shù)據(jù)處理流程,大幅縮短接單時間,產(chǎn)品日均處理量穩(wěn)定在300-400單之間,接單時間從原2小時減至30分鐘以內(nèi),效率提升高達75%,提升了整體業(yè)務(wù)效率。而且,通過精確的數(shù)據(jù)處理,顯著提高訂單的準(zhǔn)確性,進而提升客戶滿意度。 2024 ITValue Summit數(shù)字價值年會上,G7易流創(chuàng)始人、首席執(zhí)行官翟學(xué)魂提到,“如果我們能夠在窘迫的產(chǎn)業(yè)中,發(fā)現(xiàn)可以改變產(chǎn)業(yè)結(jié)構(gòu)的稀缺的數(shù)據(jù),并讓這些數(shù)據(jù)形成閉環(huán),產(chǎn)生飛輪效應(yīng),我們就有可能獲得‘一線生機’! G7易流首席科學(xué)家王守崑則認為,事實證明,結(jié)合大模型技術(shù),確實能夠提升我們平臺的接單效率。G7易流和火山引擎是一次成功的嘗試,也是技術(shù)與物流行業(yè)的創(chuàng)新結(jié)合,我們對未來更多更深入的合作充滿期待。 除了物流行業(yè),客服、銷售這一領(lǐng)域也是大模型能夠快速落地以及產(chǎn)生價值的重要場景。 專注智能客服10余年的曉多科技選擇與火山引擎合作,基于豆包大模型,曉多科技全面升級智能客服能力。結(jié)果顯示,在火山引擎提供的豆包大模型幫助下,曉多科技的“AI訓(xùn)練場”場景獲得了更高的并發(fā)保障,同時成本也優(yōu)化了50倍以上,實現(xiàn)了效率成本雙提升。通過使用豆包大模型能力強化的“AI訓(xùn)練場”,曉多科技不僅將客服培訓(xùn)周期縮短了50%以上,還通過更多元化的顧客模擬,訓(xùn)練出能力超越常規(guī)培訓(xùn)的客服團隊,推動銷售轉(zhuǎn)化率上升了3%-5%。 很顯然,豆包大模型以創(chuàng)新技術(shù)驅(qū)動的極致性價比,助力G7易流、曉多科技在業(yè)務(wù)當(dāng)中提質(zhì)增效,實現(xiàn)了效率成本雙升級,從而為火山引擎在物流、智能客服、零售等行業(yè)性整體落地和開拓商業(yè)模式打下了堅實的基礎(chǔ)。 譚待強調(diào),火山引擎的定位是云和AI服務(wù)提供商,在大模型的時代,他們的主要目標(biāo)是幫助企業(yè)降低成本、提高效率,并且促進企業(yè)的創(chuàng)新。在生成式AI的時代,找到產(chǎn)品市場匹配度(PMF)是至關(guān)重要的。這需要廠商不僅要對技術(shù)有深入的了解,還要對業(yè)務(wù)有透徹的認識,這樣才能確保技術(shù)能夠真正落地并發(fā)揮作用,進而構(gòu)建起火山引擎的AI生態(tài)系統(tǒng)。 大模型落地非一蹴而就 火山引擎與產(chǎn)業(yè)共創(chuàng)新AI時代 中國以大模型為核心的生成式AI競爭已進入“下半場”,商業(yè)落地成為關(guān)鍵,尤其AI已逐步給企業(yè)帶來直接的成本節(jié)約或效率提升。可以預(yù)見,“價格戰(zhàn)”的下半場將是“商業(yè)戰(zhàn)”、“生態(tài)戰(zhàn)”。 不過,當(dāng)前OpenAI的商業(yè)化之路不如預(yù)期,導(dǎo)致市場對AI產(chǎn)生了更多的質(zhì)疑。 據(jù)報道,2023年OpenAI年收入達到34億美元左右,但包括租用微軟服務(wù)器(40億美元)、招聘大量頂尖人才(15 億美元)在內(nèi),OpenAI運營成本卻可能高達85億美元,即OpenAI每年或虧損高達50億美元。而如其他商湯、云從在內(nèi)的AI軟件公司,也依然面臨持續(xù)虧損、盈利能力較弱等風(fēng)險。 而相對于OpenAI面臨的商業(yè)挑戰(zhàn),火山引擎依托字節(jié)跳動強大的算法、算力、數(shù)據(jù)和商業(yè)化經(jīng)驗?zāi)芰,在豆包大模型層面擁有更清晰的研發(fā)路徑、商業(yè)化路徑,基于豐富的端到端、垂類、場景化豆包大模型,火山方舟等一系列解決方案,火山引擎將技術(shù)能力優(yōu)勢和行業(yè)落地相結(jié)合,不僅發(fā)力B端市場,而且在C端市場上也有更多的商業(yè)想象空間,持續(xù)釋放其價值潛力,正成為各行各業(yè)落地實踐的更優(yōu)選。 未來,生成式AI將開啟一個新的黃金時代,擁有巨大的市場潛力。 據(jù)研究機構(gòu)IDC預(yù)測,到2030年,AI將為全球經(jīng)濟貢獻19.9萬億美元,推動2030年全球GDP增長3.5%。這意味著,AI是全球經(jīng)濟增長的新引擎。 當(dāng)前,圍繞AI能力的新應(yīng)用和服務(wù)將不斷涌現(xiàn),在各個行業(yè)掀起智能化變革的浪潮。從金融、醫(yī)療、教育到制造、交通、能源等領(lǐng)域,AI技術(shù)都將找到廣闊的應(yīng)用空間,為傳統(tǒng)行業(yè)注入新的活力。 面對新一輪生成式AI革命,企業(yè)需要以開放、創(chuàng)新的心態(tài)擁抱變革。而從文生圖的DiT架構(gòu)升級,到語音模型的“All-in-One”,火山引擎將持續(xù)提供強大AI模型、云計算等技術(shù)優(yōu)勢和能力,有志于“用科技改變世界”,以更強模型、更低價格、更易落地方式助力企業(yè)成長,推動各行各業(yè)在AI變革中抓住先機,重塑現(xiàn)有的行業(yè)格局和價值鏈。 當(dāng)AI技術(shù)變得無處不在、無所不能時,它將像互聯(lián)網(wǎng)一樣,深度融入商業(yè)和社會的方方面面,就像今天的互聯(lián)網(wǎng)一樣滲透到每個角落,成為支撐一切活動的基礎(chǔ)設(shè)施,推動中國經(jīng)濟持續(xù)產(chǎn)生新動能。 本文來源:鈦媒體 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選