每日經(jīng)濟(jì)新聞 2025-10-16 20:52:44
百度副總裁、移動(dòng)生態(tài)商業(yè)體系負(fù)責(zé)人陳一凡將AI視頻發(fā)展階段比作從“3G到4G”的轉(zhuǎn)折期,認(rèn)為競(jìng)爭(zhēng)正從技術(shù)比拼轉(zhuǎn)向門(mén)檻之爭(zhēng),實(shí)時(shí)交互是關(guān)鍵。百度視頻生成大模型迭代押注實(shí)時(shí)交互,采用自回歸流式擴(kuò)展架構(gòu),以解決累積誤差和一致性問(wèn)題。降低門(mén)檻、豐富玩法將吸引更多用戶(hù),平臺(tái)視頻生成量級(jí)已達(dá)千萬(wàn)級(jí)。
每經(jīng)記者|可楊 每經(jīng)編輯|魏官紅
從Runway、Pika到Sora,AI(人工智能)視頻工具不斷刷新想象空間,而在國(guó)內(nèi),實(shí)踐者們開(kāi)始探索更深層次的問(wèn)題——AI如何真正融入內(nèi)容產(chǎn)業(yè),形成可持續(xù)的生產(chǎn)模式。
百度副總裁、移動(dòng)生態(tài)商業(yè)體系負(fù)責(zé)人陳一凡在接受包括《每日經(jīng)濟(jì)新聞》記者在內(nèi)的媒體記者采訪時(shí)將這一節(jié)點(diǎn)比作通信史上“3G到4G”的轉(zhuǎn)折期——從“能生成”邁向“可實(shí)時(shí)互動(dòng)”。
陳一凡認(rèn)為,實(shí)時(shí)交互被低估了,“如果只是生成,可能只是做了一個(gè)類(lèi)似AI版的抖音”。他表示,AI視頻競(jìng)爭(zhēng)的下半場(chǎng),正在從技術(shù)比拼轉(zhuǎn)向門(mén)檻之爭(zhēng),誰(shuí)能讓更多人更低成本地參與創(chuàng)作,誰(shuí)就能在生態(tài)中積累更大的勢(shì)能。
在AI視頻生成的快速演進(jìn)中,技術(shù)的焦點(diǎn)似乎正在悄然轉(zhuǎn)移,從“能生成”邁向“能交互”。
陳一凡將這一節(jié)點(diǎn)比作通信史上3G到4G變革的前夜,“沒(méi)有3G,就沒(méi)有移動(dòng)互聯(lián)網(wǎng)的繁榮;沒(méi)有4G,就不會(huì)有短視頻的爆發(fā)”。在他看來(lái),生成模型的能力已趨近成熟,下一階段的突破不在于更大的參數(shù)或更高的分辨率,而在于讓生成變得實(shí)時(shí)、可控、可互動(dòng)。
百度商業(yè)研發(fā)首席架構(gòu)師李雙龍也認(rèn)為,人類(lèi)創(chuàng)作的過(guò)程并不是一次性做成的,而是一個(gè)邊寫(xiě)邊改、不斷思考與修正的過(guò)程。他指出,當(dāng)前許多視頻生成產(chǎn)品仍停留在“盲盒式”體驗(yàn)——用戶(hù)等待模型一次性生成10秒或20秒片段,再判斷結(jié)果是否可用,這種反射性生成方式并不符合真實(shí)的創(chuàng)作邏輯。
為了實(shí)現(xiàn)可打斷和可修改的實(shí)時(shí)交互,百度“蒸汽機(jī)”選擇將整個(gè)架構(gòu)從窗口式擴(kuò)展升級(jí)為自回歸流式擴(kuò)展架構(gòu)。“這未必是顛覆性的創(chuàng)新,但它是更符合人性的創(chuàng)作過(guò)程。”李雙龍說(shuō)。
在談及如何實(shí)現(xiàn)交互式生成時(shí),李雙龍?zhí)寡?,這一方向背后存在大量技術(shù)挑戰(zhàn),傳統(tǒng)的窗口式擴(kuò)散生成方式無(wú)法支撐長(zhǎng)視頻創(chuàng)作,因?yàn)樗?0秒為單位生成,出現(xiàn)問(wèn)題時(shí)無(wú)法局部修改,只能重來(lái)。為此,團(tuán)隊(duì)對(duì)底層架構(gòu)進(jìn)行了升級(jí),從“窗口擴(kuò)散”轉(zhuǎn)向“自回歸流式擴(kuò)展生成”。
但該機(jī)制也帶來(lái)了新的問(wèn)題,例如累積誤差和一致性挑戰(zhàn)。對(duì)此,李雙龍介紹,團(tuán)隊(duì)通過(guò)采用歷史幀和穩(wěn)定錨點(diǎn)幀技術(shù)等優(yōu)化手段,來(lái)全局管理一致性,解決自回歸帶來(lái)的問(wèn)題。
陳一凡認(rèn)為,實(shí)時(shí)交互的需求是被低估了,“如果只是生成,可能只是做了一個(gè)類(lèi)似AI版的抖音”,這當(dāng)然也有很大的空間,但可互動(dòng)性之所以重要,在于它提升了信息密度,將傳統(tǒng)的單向、寫(xiě)好劇本的內(nèi)容消費(fèi)轉(zhuǎn)變?yōu)殡p向互動(dòng)。
這能讓用戶(hù)擁有不同的情景體驗(yàn),極大地提升娛樂(lè)性。從淺層應(yīng)用來(lái)看,實(shí)時(shí)交互能提升廣告線索質(zhì)量;從深層應(yīng)用來(lái)看,它能完成整個(gè)咨詢(xún)或服務(wù)過(guò)程的深度交互,例如在心理咨詢(xún)等場(chǎng)景中,數(shù)字人可以實(shí)時(shí)感知用戶(hù)表情并作出反饋,實(shí)現(xiàn)與傳統(tǒng)廣告截然不同的深度。
在百度內(nèi)部,“蒸汽機(jī)”承擔(dān)著模型、工具、產(chǎn)品三層結(jié)構(gòu)的中樞角色:底層是模型層,中層是工具層,上層是產(chǎn)品層。在這種布局之下,百度在視頻生成模型方面的打法,更偏向于構(gòu)建一個(gè)AI內(nèi)容生態(tài)的基礎(chǔ)設(shè)施。
放眼全球,AI視頻生成模型領(lǐng)域競(jìng)爭(zhēng)的激烈程度和變化速度遠(yuǎn)超想象。
OpenAI的Sora 2模型一經(jīng)發(fā)布,憑借“電影級(jí)”的短視頻生成能力和對(duì)物理、人物塑造的巨大突破,其驅(qū)動(dòng)的創(chuàng)作應(yīng)用“Sora”迅速登上美區(qū)應(yīng)用商店下載榜首,證明了其在To C(面向用戶(hù))端強(qiáng)大的市場(chǎng)號(hào)召力。緊隨其后,谷歌的Veo 3.1迅速更新,不僅新增了音頻生成功能,支持為視頻添加背景音樂(lè)和音效,更在對(duì)象控制、視頻分辨率與時(shí)序連貫性上實(shí)現(xiàn)技術(shù)升級(jí),提升了高質(zhì)量?jī)?nèi)容創(chuàng)作的適用性。
這場(chǎng)全球范圍內(nèi)的技術(shù)競(jìng)賽正以前所未有的速度向前推進(jìn),但與此同時(shí),底層架構(gòu)和技術(shù)路徑日益趨同。對(duì)于行業(yè)終局和應(yīng)對(duì)策略,陳一凡認(rèn)為,創(chuàng)新和用戶(hù)體驗(yàn)將成為核心突破口。
陳一凡指出,從技術(shù)發(fā)展歷程來(lái)看,視頻生成行業(yè)經(jīng)歷了“從想法到實(shí)現(xiàn),再到反思優(yōu)化”的階段。初期技術(shù)迭代主要集中在算法性能上,但隨著DIT架構(gòu)等方案成熟,算力需求和生成時(shí)間呈幾何級(jí)增長(zhǎng),限制了大規(guī)模應(yīng)用。
“創(chuàng)新在這個(gè)階段尤為重要。以前大家會(huì)關(guān)注技術(shù)性能,現(xiàn)在更多關(guān)注如何降低使用門(mén)檻,讓玩法更豐富。”陳一凡表示,降低門(mén)檻意味著用戶(hù)能夠即時(shí)獲得互動(dòng)體驗(yàn),而非等待延遲結(jié)果,這也是目前很多大模型在應(yīng)用上仍然存在短板的環(huán)節(jié)。
在具體實(shí)踐中,百度通過(guò)升級(jí)流式架構(gòu)提升生成效率,實(shí)現(xiàn)了大規(guī)模的視頻生產(chǎn)與分發(fā)。陳一凡透露,平臺(tái)視頻生成量級(jí)已經(jīng)從百萬(wàn)級(jí)提升到千萬(wàn)級(jí),“當(dāng)門(mén)檻降低、玩法豐富,自然會(huì)吸引更多用戶(hù)涌入,最終的目標(biāo)是讓用戶(hù)知道怎么玩、愿意玩”。
對(duì)于近期熱門(mén)產(chǎn)品如Sora 2的技術(shù)表現(xiàn),陳一凡認(rèn)為,其底層模型在一致性和運(yùn)鏡豐富度上有所提升,但尚未達(dá)到基礎(chǔ)模型級(jí)別的突破。
在商業(yè)化的思考上,百度“蒸汽機(jī)”當(dāng)前階段的重點(diǎn)仍是內(nèi)部賦能,即通過(guò)技術(shù)能力支撐內(nèi)部產(chǎn)品,提升To C端的價(jià)值。陳一凡坦言,當(dāng)前最明顯的收益是C端整個(gè)的用戶(hù)留存和使用時(shí)長(zhǎng)的提升,這直接帶來(lái)了百度原有商業(yè)化模式收入的增長(zhǎng)。
據(jù)透露,目前,營(yíng)銷(xiāo)相關(guān)和內(nèi)容創(chuàng)作是“蒸汽機(jī)”調(diào)用量最大的兩大落地場(chǎng)景。營(yíng)銷(xiāo)相關(guān)調(diào)用量占到約一半。
對(duì)于未來(lái)是主攻To C還是To B,陳一凡表示,目前兩側(cè)都在投入。To B端,主要滿(mǎn)足內(nèi)部技術(shù)業(yè)務(wù)庫(kù)的需求,以及應(yīng)對(duì)外部客戶(hù)的定制化需求,如專(zhuān)有云應(yīng)用等,需要針對(duì)穩(wěn)定性等進(jìn)行微調(diào);To C端,側(cè)重于結(jié)合百家號(hào)等生態(tài),將創(chuàng)作者生態(tài)做大。
封面圖片來(lái)源:每日經(jīng)濟(jì)新聞 資料圖
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP