1. 創(chuàng )業(yè)頭條
  2. 前沿領(lǐng)域
  3. AI智能
  4. 正文

數字內容“遍地開(kāi)花”,AI技術(shù)如何創(chuàng )新“造夢(mèng)”?

 2024-06-24 10:37  來(lái)源:A5專(zhuān)欄  我來(lái)投稿 撤稿糾錯

  域名預訂/競價(jià),好“米”不錯過(guò)

文 | 智能相對論

作者 | 陳泊丞

這是春晚舞臺西安分會(huì )場(chǎng)《山河詩(shī)長(cháng)安》的一幕:“李白”現世,帶領(lǐng)觀(guān)眾齊頌《將進(jìn)酒》,將中國人骨子里的豪情與浪漫演繹得淋漓盡致。

這又是浙江義烏商品市場(chǎng)里的另一幕:只會(huì )說(shuō)幾個(gè)英文單詞的女老板秒變外語(yǔ)達人,無(wú)縫切換36國語(yǔ)言流暢介紹自家商品,瘋狂帶貨。

這一幕幕不可思議的畫(huà)面,成就了今天中國文化、商業(yè)的頻頻出圈。而一切的背后,都有著(zhù)相同的支持:AI技術(shù)賦能數字內容生產(chǎn)和應用。

近年來(lái),隨著(zhù)AI大模型技術(shù)的持續升級與賦能,數字內容生產(chǎn)與應用的趨勢愈發(fā)強烈,現實(shí)場(chǎng)景與數字內容不斷融合,悄然改變著(zhù)整個(gè)內容創(chuàng )作行業(yè)的格局,甚至進(jìn)一步推動(dòng)了相關(guān)產(chǎn)業(yè)和商業(yè)的新變革。

技術(shù)創(chuàng )新重塑數字內容生產(chǎn)與應用新范式

數字人“李白”的精彩演繹、義烏女老板的AI帶貨——這些熱門(mén)事件的背后,是技術(shù)創(chuàng )新突破所帶來(lái)的結果。AI大模型的成熟應用,讓越來(lái)越多不同形式的數字內容得以爆發(fā),并廣泛進(jìn)入大眾視野。

在6月21日舉辦的華為開(kāi)發(fā)者大會(huì )(HDC 2024)上,華為云盤(pán)古大模型迎來(lái)5.0版本升級,其中盤(pán)古媒體大模型在語(yǔ)音生成、視頻生成以及AI翻譯上的技術(shù)創(chuàng )新就重塑了數字內容生產(chǎn)和應用的新范式。

對比過(guò)去的技術(shù)能力,新的技術(shù)所帶來(lái)的效果是非常顯著(zhù)的。

一、語(yǔ)音生成進(jìn)階:只需三言?xún)烧Z(yǔ),沉浸式、真實(shí)感的語(yǔ)音易如反掌

過(guò)去的語(yǔ)音生成依賴(lài)傳統的聲音克隆模型,由于模型比較小,精度低等原因,往往在實(shí)際操作上就要復雜得多。比如,在數據收集階段,對目標人物的語(yǔ)音數據就要盡可能的多樣化,包括不同的語(yǔ)速、語(yǔ)調、音量以及不同語(yǔ)境下的語(yǔ)音,需用到幾百句話(huà)的錄音。

然后到了預處理階段,需要對收集到的語(yǔ)音數據進(jìn)行清洗,通過(guò)人工標注等形式去除噪聲、靜音片段和其他不需要的部分。進(jìn)而還要進(jìn)行語(yǔ)音分割,將連續的語(yǔ)音信號切割成較小的語(yǔ)音片段(如音素或單詞)。最后提取音頻特征,再用于后續的聲音建模。

以上,還只是數據收集和預處理,尚未進(jìn)入真正的語(yǔ)音生成階段。但其中的工作量和操作復雜度就已經(jīng)很大了,對語(yǔ)音生成的效率和質(zhì)量都是一個(gè)非常大的影響和挑戰。

時(shí)至今日,隨著(zhù)技術(shù)的創(chuàng )新,基于更先進(jìn)的模型,比如盤(pán)古媒體大模型的語(yǔ)音生成能力,這一問(wèn)題得到了很好的解決。只需要幾句話(huà)、幾秒鐘的聲音,AI即可學(xué)習到個(gè)性化的音色、語(yǔ)調、表達韻律,從而獲得高質(zhì)量的個(gè)性化語(yǔ)音。同時(shí),還支持喜怒哀樂(lè )等擬人情感語(yǔ)音,閑聊、新聞、直播等10多種語(yǔ)氣風(fēng)格,讓生成的語(yǔ)音更真實(shí)、更有情感色彩,能沉浸式地應用到不同場(chǎng)景中。

比如,在視頻譯制中,AI將能做到配音演員的專(zhuān)業(yè)程度——通過(guò)盤(pán)古媒體大模型提供的視頻翻譯能力,AI可以把視頻翻譯為目標語(yǔ)言,并保留原始角色的音色、情感、語(yǔ)氣。華為云也在積極聯(lián)合伙伴邏輯智能,打造高感情語(yǔ)音克隆以及14國小語(yǔ)種配音,共同構建高感情超擬人多模態(tài)音頻應用能力等。同時(shí),再結合盤(pán)古媒體大模型的口型驅動(dòng)模型,還可以實(shí)現音唇同步,尤其是在側面、多人對話(huà)、物體遮擋以及人物移動(dòng)等場(chǎng)景,也能做到很好的口型匹配。

二、視頻生成跨越:只需幾十張圖,可控的、一致的視頻唾手可得

傳統的視頻生成技術(shù)在資源需求、數據集、時(shí)序一致性、物理定律遵守、效率與質(zhì)量平衡、可控性、逼真度和連貫性以及應用限制等方面都存在一定的局限性。如今,基于盤(pán)古媒體大模型,只需要訓練幾十張特定美學(xué)風(fēng)格的圖片,如吉卜利、二次元等風(fēng)格,再輸入實(shí)拍視頻即可快速生成該風(fēng)格的動(dòng)漫視頻。

除了按需時(shí)長(cháng)生成穩定的動(dòng)漫視頻,再通過(guò)ID一致性模型,還能對生成畫(huà)面中的關(guān)鍵角色進(jìn)行一致性處理,確保視頻中角色樣貌特征在前一幀和后一幀中所呈現的效果始終一致,在側臉、運動(dòng)軌跡下的視覺(jué)效果合理一致,由此增強AI視頻生成的可控性、一致性,讓視頻內容更合理、真實(shí)。

此外,業(yè)內對視頻生成的真實(shí)度、復雜度也在聚焦增強。比如,OpenAI的Sora正在試圖模擬復雜的攝像機運鏡,同時(shí)準確地保持角色和視覺(jué)風(fēng)格一致,讓AI創(chuàng )作的數字內容更加趨于現實(shí)創(chuàng )作。英偉達更是發(fā)布了一系列技術(shù)套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo™以及RTX™等,去增強數字內容的真實(shí)感,讓數字人物的互動(dòng)、對話(huà)更加復雜、逼真。

三、AI翻譯強化:準確性>93%,實(shí)時(shí)的、跨語(yǔ)言溝通指日可待

過(guò)去的機器翻譯系統往往是基于統計模型或規則模型構建的,因此翻譯結果大多無(wú)法與原文一致,顯得生硬、不自然,并不具備應用到不同場(chǎng)景的條件?,F如今,華為云通過(guò)AI實(shí)現多語(yǔ)種實(shí)時(shí)傳譯,準確性>93%,可應用于實(shí)時(shí)通話(huà)、云會(huì )議等需要實(shí)時(shí)翻譯場(chǎng)景。

同時(shí),基于盤(pán)古媒體大模型的語(yǔ)音復刻、AI文字翻譯以及TTS技術(shù),便可以實(shí)現語(yǔ)音的同聲傳譯,成功實(shí)現跨語(yǔ)言母語(yǔ)溝通體驗。甚至還可以結合數字人技術(shù),讓數字人來(lái)模擬用戶(hù)說(shuō)話(huà),結合口型模型技術(shù)做到口型與聲音精準匹配,讓AI翻譯、數字人與語(yǔ)音生成高度結合用于線(xiàn)上開(kāi)會(huì )、跨國貿易交流等場(chǎng)景中。

技術(shù)的“瓶頸”在收縮?

技術(shù)的創(chuàng )新和突破帶來(lái)了數字內容生產(chǎn)和應用的爆發(fā),但另一方面隨著(zhù)生產(chǎn)和應用的進(jìn)程加速,相應的技術(shù)瓶頸也在出現,并不斷收縮、聚焦。目前,AI大模型在數字內容生產(chǎn)和應用上的問(wèn)題主要呈現在三個(gè)層面。

其一,能源與計算效率瓶頸。 當前,大模型訓練的算力當量還在進(jìn)一步增大,從GPT-3到GPT-4算力當量增長(cháng)了68倍。隨著(zhù)訓練的token數、模型參數增加,大模型訓練所需的計算量也需要隨之增加。

更重要的是,其背后的成本投入是難以為繼的。根據計算,訓練一個(gè)5000億參數規模的Dense模型,基礎算力設施投入約10億美金,無(wú)故障運行21個(gè)月,電費約5.3億元——這遠遠超出了企業(yè)的承受范圍。

但是,如果想要規?;厣a(chǎn)高質(zhì)量的數字內容,大模型的精進(jìn)又是必要的路徑。在這個(gè)階段,業(yè)內開(kāi)始尋求更高效、更優(yōu)的算力解決方案。像華為云昇騰AI云服務(wù)就在致力于提供方便、好用的算力服務(wù),在算力層面不斷革新計算能力和計算效率,提供從云化算力、模型開(kāi)發(fā)、模型托管到生態(tài)的全棧服務(wù)。

其二,算法架構的優(yōu)化挑戰。 隨著(zhù)大模型參數的增加,想要實(shí)現更好的計算結果和輸出更優(yōu)的答案,那么其處理的時(shí)長(cháng)就會(huì )不斷延長(cháng)的。但是,這在實(shí)際應用中是一個(gè)困擾數字內容生產(chǎn)和應用的顯著(zhù)問(wèn)題,非常不利于數字內容的規?;?、商業(yè)化發(fā)展。

由此,業(yè)內也開(kāi)始在算法架構上進(jìn)行優(yōu)化,調整計算邏輯、處理方法來(lái)實(shí)現更優(yōu)效果。其中,以稀疏激活機制為代表的MoE模型就是目前AI行業(yè)的一個(gè)焦點(diǎn),類(lèi)似于“術(shù)業(yè)有專(zhuān)攻”的理念,稀疏激活機制通過(guò)對數據任務(wù)進(jìn)行拆解,分門(mén)別類(lèi),再分配給特定的“專(zhuān)家”(Experts)進(jìn)行處理,最終綜合加權輸出——不僅實(shí)現了計算效率優(yōu)化,也讓輸出結果更加全面、強大。

其三,安全與倫理問(wèn)題。 大模型內部運行機制復雜,生產(chǎn)出來(lái)的內容欠缺可解釋性和可控性,又易受對抗樣本攻擊,存在監管難題和安全漏洞。對此,在數字內容生產(chǎn)和應用中,相關(guān)的安全和倫理問(wèn)題隨著(zhù)行業(yè)的廣泛發(fā)展而日趨突顯。

因此,在數字內容行業(yè)高速發(fā)展的階段,盡管企業(yè)能吃上數字內容的紅利,但也需要鑒別模型的安全性、可靠性,避免因模型的安全和倫理問(wèn)題而引發(fā)負面輿論影響。在這樣的挑戰下,華為云盤(pán)古大模型也隨即作出升級,在數據治理、安全合規等方面達到了較高標準。

以技術(shù)“造夢(mèng)”,數字內容未來(lái)可期

新范式的明確帶來(lái)更明確的技術(shù)方向,對于整個(gè)數字內容行業(yè)而言,這意味著(zhù)未來(lái)的發(fā)展已經(jīng)有了基礎的雛形,前景仍是樂(lè )觀(guān)的。但是,不可忽視的是,技術(shù)的瓶頸客觀(guān)存在,且更加突出,擺在行業(yè)面前的依舊是一條較為嚴峻的發(fā)展之路。

盡管拋開(kāi)技術(shù)瓶頸不談,在具體的實(shí)踐中,數字內容的生產(chǎn)和應用也不簡(jiǎn)單,往往都需要面對很多在技術(shù)之外的具像化問(wèn)題,只有基于問(wèn)題去一步步解決才能最終完成落地。

華為云團隊在進(jìn)行紀錄片譯制時(shí)就發(fā)現,項目實(shí)際開(kāi)展起來(lái)會(huì )遇到各種各樣的問(wèn)題,比如環(huán)境聲音太雜太亂,AI無(wú)法準確識別人聲保證音譯的完整度,或是隨著(zhù)場(chǎng)景的切換,人物的狀態(tài)、口型都呈現出不同的樣子,需要AI精準地匹配等等。

如果這些問(wèn)題不一一解決,AI譯制的效果就打了個(gè)大大的折扣。對此,華為云團隊通過(guò)精準分析問(wèn)題,采用不同的技術(shù)去解決各類(lèi)細微問(wèn)題,比如通過(guò)分離模型技術(shù)讓環(huán)境聲和人聲分開(kāi),通過(guò)口型模型技術(shù)讓聲音與口型精準匹配等。

技術(shù)或許一直都有,但是如何用恰恰才是項目落地的關(guān)鍵。換句話(huà)說(shuō),在今天數字內容行業(yè)高速發(fā)展、技術(shù)創(chuàng )新加速迭代的階段,只有實(shí)踐了才能真正推動(dòng)行業(yè)的發(fā)展。這是一個(gè)比拼項目的階段,誰(shuí)家的項目經(jīng)驗越豐富,越能知道相關(guān)的技術(shù)應該如何應用才能發(fā)揮出應有的效果。

目前,中影集團與華為云合作,將媒體大模型應用到影視工業(yè),共同打造影視譯制大模型,通過(guò)AI將視頻譯制成不同語(yǔ)言,并保留原始角色的音色、情感、語(yǔ)氣,還能支持口型匹配,為影片譯制提供全新的AI制作方式。

今天,數字內容迎來(lái)迸發(fā),越來(lái)越多精彩內容面世的另一面恰恰是廠(chǎng)商們不斷運用技術(shù)、驗證技術(shù)、完善技術(shù)的過(guò)程。未來(lái)的項目之路任重而道遠,同時(shí)也是行業(yè)走向成熟的必經(jīng)之路。靜待技術(shù)在創(chuàng )新中、實(shí)踐中持續升級、完善,未來(lái)便更快能看到一個(gè)數字內容精彩紛呈,如同夢(mèng)境一般的世界。

*本文圖片均來(lái)源于網(wǎng)絡(luò )

此內容為【智能相對論】原創(chuàng ),

僅代表個(gè)人觀(guān)點(diǎn),未經(jīng)授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來(lái)自網(wǎng)絡(luò ),且未核實(shí)版權歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。

•AI產(chǎn)業(yè)新媒體;

•澎湃新聞科技榜單月度top5;

•文章長(cháng)期“霸占”鈦媒體熱門(mén)文章排行榜TOP10;

•著(zhù)有《人工智能 十萬(wàn)個(gè)為什么》

•【重點(diǎn)關(guān)注領(lǐng)域】智能家電(含白電、黑電、智能手機、無(wú)人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開(kāi)發(fā)者以及背后的芯片、算法等。

申請創(chuàng )業(yè)報道,分享創(chuàng )業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng )業(yè)新機遇!

相關(guān)標簽
ai技術(shù)

相關(guān)文章

  • AI提高效率:用智譜清言打造爆款視頻號

    關(guān)注盧松松,會(huì )經(jīng)常給你分享一些我的經(jīng)驗和觀(guān)點(diǎn)。(1)想做副業(yè)、短視頻的同學(xué),看完本文一定對你有所幫助!(2)很多人說(shuō)2024是視頻號紅利的一年,有分成收益,廣告主也多,流量大。(3)松松一共做了10多個(gè)視頻號,在視頻號布局3年了,幾乎啥都做過(guò),有的收益千八百、有的收益1-2k,有的收益3-5k。(4

    標簽:
    ai技術(shù)
  • 開(kāi)發(fā)者怎么擁抱智能化浪潮?昇騰AI給出了“通關(guān)指南”

    在大模型代表的新一輪技術(shù)浪潮下,智能化轉型已然是毋庸置疑的趨勢,科技大廠(chǎng)們紛紛給出了智能化的“道法術(shù)”,大大小小的企業(yè)也開(kāi)始更新認知,想要從創(chuàng )新中挖掘出驅動(dòng)增長(cháng)的新質(zhì)生產(chǎn)力。但現實(shí)和智能化的美好愿景之間,仍然橫亙著(zhù)一片鮮有人涉足的“荒?!?,腳下還沒(méi)有堅實(shí)的路。3月23日在天津舉辦的昇騰AI開(kāi)發(fā)者創(chuàng )享

  • 8款AI視頻生成產(chǎn)品實(shí)測,誰(shuí)將成為中國Sora?

    ?自象限原創(chuàng )作者丨羅輯、蘇奕編輯丨程心2024年開(kāi)年,科技圈沒(méi)有什么比Sora的出現更讓人興奮。如同ChatGPT在2023年初帶來(lái)的LLM創(chuàng )業(yè)潮,Sora的發(fā)布也同樣將視頻生成模型推到了風(fēng)口浪尖??萍季揞^猛推產(chǎn)品,創(chuàng )業(yè)公司則乘風(fēng)而上。3月13日,AI視頻大模型公司愛(ài)詩(shī)科技完成億元級人民幣A1輪融資

  • AI手機需要新故事

    言必稱(chēng)AI的時(shí)代,已經(jīng)來(lái)了,尤其是隨著(zhù)sora等的震撼發(fā)布,以及Google、微軟和國內大廠(chǎng)等在A(yíng)I研發(fā)、大模型等方面的日新月異。就手機行業(yè)而言,在存量時(shí)代出貨量連年不及預期的情況下,如何刺激用戶(hù)換機,成了一道擺在所有手機廠(chǎng)商面前的共同命題。從三星到國內的一些手機廠(chǎng)商,實(shí)際上已先行一步打出了“AI手

    標簽:
    ai技術(shù)
  • AI學(xué)習機踏進(jìn)AI時(shí)代:科大訊飛、網(wǎng)易有道快馬加鞭

    最令家長(cháng)們頭大的問(wèn)題大概就是給孩子輔導作業(yè)了吧,而包括學(xué)習機在內的一系列教育硬件產(chǎn)品的誕生,則很好地彌補了這一問(wèn)題,成為了孩子們在家庭場(chǎng)景中學(xué)習的好幫手。隨著(zhù)用戶(hù)需求的增長(cháng),教育智能硬件行業(yè)也實(shí)現了穩定發(fā)展。而在教育硬件賽道,學(xué)習機這一品類(lèi)格外受人關(guān)注。說(shuō)起學(xué)習機,相信絕大多人都不會(huì )感到陌生。從最早

編輯推薦