星期四, 16 10 月

應對Sora 2,谷歌發布新AI視頻模型Veo 3.1

應對Sora 2,谷歌發布新AI視頻模型Veo 3.1

美國當地時間周三,谷歌正式推出新一代AI視頻生成模型Veo
3.1,通過一系列創意與技術升級,顯著提升了AI視頻的敘事控制能力、音頻融合度與畫面真實感。

此次更新不僅為使用谷歌AI創作應用Flow的愛好者和創作者拓展了可能性,更為企業用戶、開發團隊和創意機構帶來了可擴展、可定製的視頻解決方案。

新模型在畫質、物理模擬效果上均有明顯提升,同時保持了與前代一致的定價體系。控制與編輯功能更加豐富多樣,操作體驗更為流暢。

與OpenAI上月發布的Sora 2相比,Veo
3.1的畫面風格更偏向電影質感,視覺效果更加精緻,但同時也稍顯「人工化」。這種差異各具特色:Sora
2擅長營造手持拍攝的\”自然抓拍\”風格,而Veo 3.1則更適合追求精雕細琢的視覺呈現效果。

敘事與音頻控制能力升級

Veo
3.1在前代基礎上,增強了對對話、環境音效及其他音頻元素的處理能力。值得關注的是,原生音頻生成現已全面集成到Flow平台的三大核心功能中:

「幀轉視頻」:將靜態圖像轉化為動態場景

「素材轉視頻」:整合多張圖像中的元素,創作複合視頻

「延伸視頻」:基於已有片段持續生成,將初始視頻延伸至30秒甚至1分鐘以上

這些功能此前需要用戶手動添加音頻,現在則實現了音畫同步生成。這不僅讓用戶能更好地掌控作品的情感基調和敘事節奏,也省去了後期製作的繁瑣步驟。

對企業用戶而言,這種集成化的音視頻處理方式,使得製作培訓材料、營銷視頻等專業內容更加高效,顯著降低了製作門檻。

多模態輸入架構支撐精細編輯

Veo 3.1支持文本、圖像、視頻片段等多種輸入形式,並在輸出控制上更加精細。新引入的功能包括:

●最多支持3張參考圖像,精準把控輸出內容的視覺風格

●首尾幀插值技術,實現不同場景間的自然無縫過渡

●場景延伸功能,突破單次生成時長限制,智能延續原有視頻的動作與運鏡邏輯

這些工具讓企業用戶能夠精細調整內容的外觀質感,確保符合品牌規範或創意要求。

此外,「插入對象」和「移除元素」等編輯功能也同步推出,不過部分功能尚未完全開放給Gemini API用戶。

全平台部署策略滿足多元需求

Veo 3.1通過以下渠道提供服務:

Flow:面向普通用戶的AI輔助視頻創作平台

Gemini API:為開發者提供視頻能力集成方案

Vertex AI:即將支持\”場景延伸\”等企業級功能

透明定價,成本可控

目前Veo 3.1處於預覽階段,僅面向Gemini API付費用戶開放。計費標準延續前代:

標準版:每秒視頻0.40美元

Fast版:每秒視頻0.15美元

採用按需計費模式,僅對成功生成的視頻收費,無免費額度。這種透明的定價策略便於企業團隊進行預算管理。

專業級輸出規格拓寬應用場景

Veo
3.1支持720p與1080p解析度輸出,幀速率穩定在24幀/秒。基礎視頻生成長度提供4秒、6秒或8秒選項,通過延伸功能最長可達148秒的連續片段。

特別值得一提的是,企業用戶上傳產品圖片或風格參考後,模型能夠準確保持這些視覺元素的一致性,這一特性對零售、廣告等行業的內容標準化生產極具價值。

早期用戶反饋:還有改進空間

業界對Veo 3.1的評價呈現兩極分化。

Otherside AI創始人Matt Shumer坦言「有些失望」,認為其「效果明顯遜於Sora
2,價格卻高出不少」。但他也承認,谷歌在參考圖像支持和場景延伸等工具鏈方面的優勢值得肯定。

3D數字藝術家Travis
Davids指出,雖然音頻質量確有提升,但模型仍存在明顯局限:「缺乏自定義語音選項,無法直接選擇生成語音,基礎生成時長仍卡在8秒上限。」他還提到,在多角度拍攝中保持角色一致性仍需精細的提示詞設計,而Flow
Pro付費用戶仍無法直接獲取1080p輸出也令人不解。

不過,AI領域創作者@kimmonismus則給予了「Veo
3.1令人驚艷」的評價,儘管他也認為OpenAI的最新模型在整體體驗上仍略勝一籌。

這些早期反饋表明,儘管Veo
3.1在工具完善度和創作控制上取得了進步,但隨著競爭對手不斷抬高行業標準,用戶對真實性、語音控制和生成長度等方面的期待也水漲船高。

谷歌Veo 3今年在I/O開發者大會亮相後迅速贏得口碑,成為首個實現原生AI同步音頻生成的視頻模型。 然而,OpenAI
Sora的強勢崛起改變了競爭態勢。

隨著兩大科技巨頭在AI視頻領域持續加碼,這場關乎技術創新、創作生態與知識產權保護的複雜博弈正進入全新階段。

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標註