星期六, 18 10 月

「AI教母」李飛飛的全新模型問世!一張AI晶元=無限

「AI教母」李飛飛的全新模型問世!一張AI晶元=無限

World Labs聯合創始人兼CEO李飛飛(圖片來源:彭博)

「AI教母」、美國華人科學家、斯坦福大學計算機科學教授、World
Labs聯合創始人兼CEO李飛飛的全新「世界模型」問世。

10月17日消息,李飛飛的World Labs於今晨發布全新實時生成式世界模型——RTFM(Real-Time
Frame Model,實時幀模型)。

據悉,RTFM是一款基於大規模視頻數據進行端到端訓練、效率極高的自回歸擴散Transformer模型。其核心突破在於不依賴顯式3D表徵,僅通過輸入1張或多張
2D圖像,就能直接生成不同視點的全新2D圖像,被業內稱為「學會渲染的
AI」。通過訓練,該模型已能精準建模3D幾何、反射、陰影等複雜物理現象,還可利用稀疏照片重建真實地點。

李飛飛表示,僅需一塊英偉達H100
GPU晶元,RTFM模型就能實時渲染出持久且3D一致的場景,無論是真實空間還是虛擬想像場景,均可實現互動式體驗。

「那些能隨算力增長優雅擴展的簡潔方法終將在AI領域佔據主導,因為它們能享受數十年來推動技術發展的算力成本指數級下降紅利。生成式世界模型正處在絕佳位置,必將從持續降低的算力成本中獲益。」李飛飛團隊在文章中表示。

對此,前谷歌高級工程師Rui Diao發文評價稱,RTFM最新成果真正解決了,長期困擾世界模型可擴展性的問題。

實際上,所謂空間智能,是指人們或機器在三維空間中的感知、理解和交互能力。這一概念最早由美國心理學家霍華德·加德納(Howard
Gardner)在多元智能理論中提出,讓大腦中形成一個外部空間世界的模式,並能夠運用和操作。

空間智能讓人有能力以三度空間的方式來思考,使人知覺到外在和內在的影像,也能重現、轉變或修飾影像,從而能夠在空間中從容地遊走,隨心所欲地操弄物件的位置,以產生或解讀圖形的訊息。

從廣義上看,空間智能不僅包括對空間方位的感知能力,還包括視覺辨別能力和形象思維能力。而對於機器而言,空間智能則是指其在三維空間中的視覺數據處理能力,能夠精準作出預測,並基於這些預測採取行動。這種能力使得機器能夠像人類一樣在複雜的三維世界中導航、操作和決策,從而超越傳統二維視覺的局限。

李飛飛曾坦言,視覺能力引發了寒武紀大爆發,神經系統的進化帶來了智能。「我們想要的不僅僅是能看會說的 AI,我們想要的是能做的
AI。」

而隨著新一輪生成式AI技術的到來,「空間智能+世界模型」成為AGI重要發展路徑之一。強大的世界模型能夠實時重建、生成並模擬具有持久性、可交互且物理精確的世界,這類模型技術將徹底改變軟體、機器人等很多領域和產業。

在李飛飛看來,空間智能與世界模型是解決 AI 技術難題的關鍵法寶。

相對於其他世界模型技術,李飛飛團隊認為,在世界模型的性能不變下,需要減少單卡算力資源投入,用性價比更高的方式解決世界模型和空間智能的實時交互問題。

若直接套用現有視頻架構,生成60幀的4K交互視頻流每秒需產生超過10萬個token(約等於《弗蘭肯斯坦》或首部《哈利·波特》的篇幅),而要維持一小時以上的持續交互,需處理的上下文token更將突破1億大關,但基於當前計算基礎設施,這既不可行也不具備經濟性。

因此,今年3月,李飛飛聯合Ben Mildenhall、Justin Johnson、Christoph
Lassner三位學者創立World Labs,並研發出RTFM——具備高效性、可擴展性、持久性三大核心優勢。

其中,高效性體現在單塊H100
GPU即可支撐互動式幀率推理;可擴展性方面,其通用端到端架構能隨數據與算力增長不斷優化;持久性則依靠「帶位姿幀空間記憶」與「上下文調度」技術,實現世界場景「永不消逝」,用戶長時間交互也能保持場景一致性。

融資方面,今年9月,World
Labs宣布獲得2.3億美元(約合人民幣16億元)融資,由a16z、NEA恩頤投資和Radical
Ventures領投,AMD、Adobe、Databricks的風投部門和Shinrai Investments
LLC,更有黃仁勛執掌的英偉達創投部門參與投資。

公司團隊約24人,其中包括李飛飛在內共4位聯合創始人,而華人面孔約佔據了三分之一。

公開報道顯示,World Labs成立3個月估值便達到10億美元(約合70億元)。

對於World
Labs未來規劃,
投資人曾透露,李飛飛團隊第一階段將構建一個對三維、物理以及空間和時間概念有深入理解的空間智能大模型LWM;接下來大模型將支持AR;再之後,大模型將作用於機器人技術,改進自動駕駛汽車、自動化工廠、人形機器人等領域。

李飛飛表示,團隊最早將在2025年推出產品,並表示現在只是剛起步,在盈利模式等問題上有很多邊界需要突破,相信團隊能夠解決。

除了World
Labs,李飛飛還在打造Behavior視覺挑戰比賽,希望能複製當年ImageNet的成功
——ImageNet已成為深度學習革命的關鍵催化劑,並正式開啟以深度學習為核心的AI熱潮,因此李飛飛被視為「讓AI真正看懂世界」的推動者之一。

李飛飛認為,創建Behavior的靈感來自我們在機器人學習中遇到的三個主要痛點:1、任務缺乏標準化,研究往往依賴隨機設定,導致不同論文之間難以比較;2、缺乏統一的任務體系,很多研究任務非常短、非常局限;3、缺乏訓練數據。

今年10月,李飛飛正式發布了Behavior 1K,也就是Behavior 1000挑戰。

這是一個面向具身智能與機器人研究的綜合模擬基準與訓練環境。它包含了1000個任務,主要聚焦在日常家庭環境中的「長時序任務」(long-horizon
tasks)
,也就是需要多個動作步驟才能完成的真實任務。Behavior為全球研究者提供了一個開放源碼的訓練與評測平台,讓不同機構可以在相同標準下訓練演算法、進行比較和評估。

「更讓我興奮的是,我們正處在一個文明性的轉折時刻:語言、空間、視覺、具身智能等多種AI技術正在融合,並開始真正改變人類社會。只要我們始終把『以人為本』放在心中,這些技術就能成為造福人類的力量。」李飛飛近期表示。

李飛飛團隊表示,未來World Labs將進一步增強模型動態場景模擬與用戶交互功能,更大規模模型有望帶來更優性能。

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標註