星期四, 23 10 月

一家晶元初創公司,單挑Nvidia和Intel

在2024 年 10 月推出隱身模式的時候,以色列晶元初創公司NextSilicon 表示,其即將推出的Maverick-2
是世界上第一款智能計算加速器 (ICA:Intelligent Compute Accelerator),旨在滿足高性能計算人工智慧
(HPC-AI) 應用的需求,是一種「新穎且原創的計算架構」,可在降低功耗和成本的同時提高性能。

剛剛。經過八年時間、3.03 億美元的種子資金和三輪風險投資的NextSilicon 終於推出了其 64
位數據流引擎的多個版本。與此同時,該公司還將推出一款名為 Arbel 的自主研發 RISC-V 處理器,該晶元或將與
Maverick-2 搭配使用,打造諸如英偉達「Superchip」類型的產品。

一家晶元初創公司,單挑Nvidia和Intel

從左到右:NextSilicon Arbel RISC-V CPU、Maverick-1 DFP、Maverick-2 DFP
和用於 OAM 插座的雙晶元 Maverick-2。

NextSilicon 成立於 2017 年,遠早於 GenAI 熱潮興起之時,但當時人們已經意識到 HPC 和 AI
計算引擎架構即將分道揚鑣——而且不利於專註於 64 位和 32 位浮點計算的 HPC 模擬和建模領域。即使沒有像 Cerebras
Systems、Graphcore、Groq、Habana Labs、Nervana Systems、SambaNova
Systems 等公司那樣直接進軍 AI 市場的初步計劃,NextSilicon 也已在三輪融資中籌集了 2.026 億美元,其中 C
輪融資於 2021 年 6 月完成,融資金額為 1.2 億美元。

當時,NextSilicon 的估值約為 15 億美元,這筆資金和原型設計工作的完成意味著美國能源部可以了解
NextSilicon 的動向。彼時,桑迪亞國家實驗室還和 NextSilicon 合作設計和測試了 Maverick-1
數據流引擎,目前桑迪亞正在構建一款名為「Spectra」的新型架構超級計算機,這是其 Vanguard-II
計劃的一部分。據推測,這台超級計算機將使用今天發布的 Maverick-2 數據流引擎構建。

一條全新的道路

在英偉達已經牢牢把持市場的當下,為什麼需要構建一個新的晶元?「這主要是因為沒有專門用於高性能計算的加速器,」NextSilicon
創始人兼首席執行官 Elad
Raz在去年接受媒體採訪的時候如此說。他指出,我們有數百家公司在為人工智慧和機器學習做加速,大多數大型供應商都在轉向人工智慧機器學習。你可以看到大型超級計算機對他們意味著什麼——他們只需構建一個新的
GPU 集群,成本是原來的兩倍,功耗是原來的兩倍,但得到的卻是相同的 FP64 浮點運算能力。而NextSilicon
是一家以高性能計算 (HPC) 為先的公司。」

他們打算走上的是一條全新的道路。

眾所周知,儘管 GPU 和 CPU 助力了高性能計算 (HPC) 和人工智慧 (AI)
領域的重大科學和社會突破,但它們正面臨著收益遞減的未來。NextSilicon
的創始人沒有繼續走老路,沒有投入巨資打造規模越來越大的人工智慧工廠,配備越來越強大的
GPU(以及更先進的電源和冷卻系統),而是決定嘗試一條不同的道路。

Elad Raz 指出,儘管擁有 80
年歷史的馮·諾依曼架構為我們提供了通用可編程的計算基礎,但它也帶來了巨大的開銷。他表示,98%
的晶元用於控制開銷任務,例如分支預測、亂序邏輯和指令處理,而只有 2% 的晶元用於執行應用程序核心的實際計算。

於是,Raz
和他的團隊構想了一種名為「智能計算架構」(ICA)的新架構,該架構使晶元能夠自我重構,以適應不斷變化的工作負載,從而將開銷降至最低,並最大限度地提升計算能力,用於處理高要求的
AI 和 HPC 應用背後的數學運算。這便是 NextSilicon 專利「可重構硬體的運行時優化」的基礎,也是其
Maverick-2 處理器中使用的非馮·諾依曼數據流架構的指導原則。

「NextSilicon 的宗旨是使用軟體來加速你的應用程序,」Raz
解釋道。「其核心是一種複雜的軟體演算法,它能夠理解代碼中的重要內容並對其進行加速。相比之下,大多數 CPU 和 GPU
都是某種形式的處理器核心組。它們接收指令,並試圖構建複雜的流水線和矢量指令集,並採用亂序執行來減少延遲。我們認為這是錯誤的方法。更好的方法是應用帕累托原則,看看哪些
20% 的代碼佔用了 80% 的運行時間。為什麼我們不對計算和內存應用 80/20
規則呢?為什麼我們不能自動識別重要的計算內核並嘗試只關注它們呢?」

Raz
隨後描述了其中的秘訣:「應用程序開始在主機上運行,然後我們會自動識別代碼中計算密集型的部分。我們保留計算圖的中間表示。我們不會將計算圖轉換為指令。你需要將其視為硬體的即時編譯器。我們保留程序的計算圖,並將其放置在數據流硬體上。我們從硬體獲取遙測數據,並以遞歸方式進行,因此我們始終在程序運行時優化計算和內存。」

「先進的軟體分析器就像一個精準定位系統,持續監控您的應用程序。它會精準定位出那些佔用性能的關鍵代碼片段,然後以納秒級的粒度重新配置硬體本身,構建針對該特定代碼優化的自定義數據流水線。這種非對稱執行模型能夠將卓越的效率精準地引導到能夠發揮最大效能的地方,同時讓您的大部分代碼保持正常運行。」Raz總結說。

Raz同時指出,英偉達的CUDA生態,也在將大家綁死在其GPU上,喪失了主動性和議價權。為此,NextSilicon
制定了不是迭代的願景,而是推動一場革命。公司不會墨守成規,而是構建一個全新的遊戲規則,其中計算基礎設施:

1、運行一切,毫不妥協:您現有的 CPU 代碼、複雜的 GPU 內核、要求苛刻的 HPC 任務以及尖端的 AI/ML
模型——無需修改代碼即可運行它們。

2、提供極致速度:體驗高達 10
倍的加速,功耗僅為原來的四分之一。如何實現?通過實時動態優化晶元,優化應用程序最熱門、資源最密集的代碼路徑。

3、消除供應商鎖定:告別專有領域特定語言
(DSL)。告別繁瑣的移植流程。告別框架維護的噩夢。您的代碼,您的語言,加速開發。

4、讓您的創新永不過時: ICA 能夠隨著工作負載的演變而不斷調整。您再也不會遇到「重寫瓶頸」。

總結而言,NextSilicon
的數據流架構建立在圖形結構之上。數據流處理器並非像馮·諾依曼那樣逐條處理指令,而是由一系列計算單元(稱為
ALU)組成,這些單元以圖形結構互連。每個 ALU
處理特定類型的函數,例如乘法或邏輯運算。當輸入數據到達時,計算會自動觸發,結果將流向圖形中的下一個單元。與串列數據處理相比,這種新方法具有很大的優勢,因為晶元不再需要處理數據提取、解碼或調度,這些是消耗計算周期的開銷任務。

在預告Maverick-2 一年之後,NextSilicon終於帶來了這顆革命性晶元的詳細細節披露。

一顆與眾不同的晶元

如下圖所示,Maverick-2 晶元有四個計算區域,32 個 RISC-V E
核位於晶元左右兩側的外緣。據統計,計算塊網格由七列組成,每列八個計算塊,晶元上總共有 224 個計算塊。每個計算塊有數百個
ALU,因此可以輕鬆獲得數萬到近十萬個 ALU。對於這顆採用台積電 5 納米工藝製造,擁有540 億個晶體管的 Maverick-2
晶元來說,這樣的數據似乎並不合理。

但如果我們按照 NextSilicon 的圖表所示做一個 14 x 14 的網格,那麼每個計算塊有 196 個
ALU;我們不知道一個計算塊中有多少個浮點單元。每個 ALU 都有一個 FPU 是有道理的。

作為對比,英偉達的「Ampere」 A100 GPU 採用台積電 7 納米工藝製造,擁有 542 億個晶體管和 6912 個
FP32 CUDA 核心;而「Hopper」 H100 和 H200 GPU 採用 4 納米工藝製造,擁有 800 億個晶體管和
18432 個 FP32 核心。Blackwell B200 插槽有兩個晶元組,每個晶元組包含 1040
億個晶體管,但每個晶元組僅包含 16896 個 CUDA 核心,採用 4 納米工藝製造。我們推測,ALU 比 CUDA 核心更小,並且
Maverick-2 晶元上的 ALU 數量比英偉達 GPU 上的 CUDA 核心數量更多。

歸根結底,ALU 數量不如一組 mill 核心所能支持的線程數量重要。NextSilicon 聯合創始人兼架構副總裁、前
Mellanox(現為 Nvidia 網路部門)軟體總監 Ilan Tayari 表示,典型的 CPU 有兩個線程,GPU 有 32
到 64 個線程,但一個 mill 核心可以同時支持數百個線程。當然,mill 核心的大小和形狀會有所不同,但每個計算塊可能有數十個
mill 核心,每個 Maverick-2 有 224 個計算塊,因此可以輕鬆支持數千個線程,所有線程都以 1.5 GHz
的頻率運行——大約相當於一個慢速 CPU 或一個普通 GPU 的速度——並且所有線程都連接到 HBM3E 顯存以獲得快速帶寬。

如上圖右側所示,這個主邏輯單元連接到一條內存匯流排,該匯流排上有一個保留站,用於在 ALU
調用數據之前臨時存儲數據。(NextSilicon 已獲得這種保留站、調度器和數據流計算塊組合的專利。)與常規 CPU
一樣,Maverick ICA 也使用內存管理單元和表後備緩衝區,但這些單元的使用頻率很低,並且僅在 ALU
調用特定數據時才會使用。它不進行推測或預測,只進行數據提取。

Tayari 自豪地說:「NextSilicon 的數據流架構使我們能夠顯著降低與傳統 CPU 和 GPU
相比的開銷。我們調整了矽片的分配比例。我們將大部分資源用於實際計算,而不是控制開銷。我們獨特的方法消除了指令處理開銷。我們最大限度地減少了不必要的數據移動,從而使計算單元保持充分利用。我們並非試圖隱藏延遲,而是通過設計來容忍並最小化延遲。」

當應用程序為數據流引擎編譯時,它實際上被映射到數據流引擎上,形成一個稱為 mill
core(看起來像一個圖)的東西。它看起來像程序在編譯之前的中間表示圖,並被放置在 ALU 上。NextSilicon
聯合創始人兼首席執行官 Elad Raz 表示,多個 mill core
可以像俄羅斯方塊一樣放置在同一個計算塊上,並且可以根據工作負載的需要,在幾納秒內載入和刪除 mill core。

據介紹,Maverick-2 提供單晶元和雙晶元兩種配置。單晶元 Maverick-2 擁有 32 個 RISC-V
核心,採用台積電 5nm 納米工藝製造,主頻為 1.5GHz。該卡支持 PCIe Gen5x16,配備 96GB HBM3E
內存,內存帶寬高達每秒 3.2TB。它擁有 128MB 的一級緩存,配備 100GbE 網卡,熱設計功耗 (TDP) 為
400W,並採用風冷散熱。雙晶元 Maverick-2 則有效地將所有這些功能翻倍,但它需要接入 OAM(OCP
加速器模塊)匯流排,配備兩個 100GbE 網卡,支持風冷或液冷散熱,熱設計功耗為 750W。

NextSilicon 還分享了 Maverick-2 的一些內部基準測試數據。就每秒千兆次更新 (GUPS)
而言,Maverick-2 能夠以 460 瓦的功耗提供 32.6 GUPS,據稱這比 CPU 快 22 倍,比 GPU 快近 6
倍。在 HPCG(高性能共軛梯度)類別中,Maverick-2 以 750 瓦的功耗實現了 600 GFLOPS
的計算能力,據稱這與領先的 GPU 相當,但功耗僅為後者的一半。

NextSilicon 研發副總裁 Eyal Nagar
表示:「我們今天詳細討論的不僅僅是晶元,而是一個基礎,一種思考計算的新方式。它為工程師和科學家打開了一個充滿可能性和優化的全新世界。」

一顆意外的RISC-V晶元

NextSilicon 在發布會上,還同時披露了一顆名為Arbel 的RISC-V CPU。該公司對 RISC-V CPU
設計其實並不陌生。如上面提到的Maverick-2 就使用了一個定製的 RISC-V
內核來處理難以並行化的串列代碼。該晶元性能出色,因此該公司選擇採用獨立內核。

NextSilicon 表示,該核心顯然已經在台積電 5nm 工藝中實現,將支持高達 2.5 GHz 的時鐘速度,具有 10
寬的發射管道、480 條目的重新排序緩衝區,支持 16 條縮放器指令,並集成四個 128 位矢量單元用於單指令多數據 (SIMD)
工作負載。

具體而言,Arbel 核心在整數端擁有一個 10 位寬的發射解碼器和 6 個 ALU,在矢量端擁有 4 個 128 位
FPU。該核心可以並行支持 16 條標量指令。它擁有靠近 ALU 的 64 KB L1 指令緩存和 64 KB L1
數據緩存,以及靠近 FPU 的 1 MB L2 緩存。(這兩個緩存顯然都與所有計算單元交叉鏈接。)每個核心有 2 MB
的緩存,但同樣,我們不知道 Arbel 晶元上有多少個核心。

NextSilicon 表示 Arbel 核心可以與英特爾的「LionCove」Xeon 核心和 AMD 的「Zen5」Epyc
核心「相媲美」。

NextSilicon 強調,能實現這樣的突破,主要歸功於Arbel 通過四項關鍵架構創新:

1、大規模指令流水線具有 10 寬的發射寬度和 480 條目的重新排序緩衝區,使 Arbel
能夠一次發現更多問題並最大限度地提高核心利用率。

2、2.5 GHz 的核心頻率可提供高單線程性能,同時保持功率效率。

3、寬執行單元支持並行 16 條標量指令,加上四個集成的 128 位矢量單元,可在數據並行工作負載上實現卓越的性能。

4、先進的內存子系統具有 64KB L1 緩存和大型共享 L3,可保持數據接近且核心持續供電 –
解決限制現代應用程序的內存帶寬和延遲瓶頸。

5、Elite TAGE 分支預測器可確保更快、更準確的決策,減少錯誤預測和浪費的工作。

「這是基於台積電 5 納米工藝打造的真正矽片——這是我們自主研發的專利 IP,並非授權或借用。由 NextSilicon
工程師打造,旨在實現 NextSilicon 的未來願景。」他們強調。

那麼,這是否意味著NextSilicon 將會成為一家 CPU 公司?

該公司回應道:「不完全是,但我們正在探索一些更有趣的東西。」

NextSilicon表示,公司看到客戶對 Arbel 表現出濃厚的興趣,這讓其看到了 AMD 和 NVIDIA
所意識到的機遇:CPU 和加速器技術之間垂直整合的強大力量。當你同時掌控通用計算和專用加速時,你就能以依賴其他 CPU
架構時無法實現的方式優化整個堆棧。

這種做法類似於 Nvidia 在其 GH200 和 GB200 超級晶元中對 Grace CPU 所做的那樣。

「當你同時控制通用計算和專用加速時,你可以優化整個堆棧,而當你依賴其他人的 CPU 架構時,這是不可能的,」Raz
解釋道。

NextSilicon聲稱,對於正在應對現代人工智慧和高性能計算 (HPC)
基礎設施複雜性的企業來說,計算難題已不再是不可避免的。Maverick-2 代表了最佳平衡:工作負載優化的性能與通用可編程性、ASIC
級效率(無需多年的開發周期)以及即時加速,無需數十年來困擾業界的供應商鎖定。

Maverick-2 的數據流架構已經徹底改變了計算領域,而 Arbel
也展現了我們從零開始設計世界一流晶元的能力,我們正在證明,計算的未來並不需要你做出妥協,而是需要從頭開始重新思考架構。

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標註