您當(dāng)前的位置:檢測(cè)資訊 > 科研開(kāi)發(fā)
嘉峪檢測(cè)網(wǎng) 2026-03-20 09:22
在 GPU 加速應(yīng)用程序性能的早期——實(shí)際上從 2012 年 5 月的“開(kāi)普勒”數(shù)據(jù)中心 GPU 到 2017 年 5 月的“伏特”——英偉達(dá),這家全球最重要的科技公司,也是 GenAI 革命中硬件和系統(tǒng)軟件的絕對(duì)主導(dǎo)供應(yīng)商,在發(fā)布路線圖方面做得非常出色。
但在2021年之前的幾年里,英偉達(dá)一直把產(chǎn)品路線圖折疊起來(lái),放在聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛皮夾克左前內(nèi)袋里。隨著人工智能時(shí)代(GenAI)的蓬勃發(fā)展從化學(xué)領(lǐng)域轉(zhuǎn)向核能領(lǐng)域,英偉達(dá)敏銳地意識(shí)到,在各方都在努力協(xié)調(diào)資金、土地、電力、冷卻和系統(tǒng),以構(gòu)建IT市場(chǎng)有史以來(lái)規(guī)模最大的基礎(chǔ)設(shè)施建設(shè)之際,每個(gè)人都需要一份真正意義上的路線圖,最好是未來(lái)幾年的規(guī)劃路線圖。第一份這樣的新時(shí)代路線圖于2023年底發(fā)布,并非黃仁勛在GTC大會(huì)上展示的幻燈片,而是在一份財(cái)務(wù)報(bào)告中。我們對(duì)這份路線圖進(jìn)行了大量的編輯,添加了缺失的組件,例如一些GPU和DPU,并在各列中修正了正確的年份。但我們始終感激英偉達(dá)能夠清晰地展現(xiàn)其現(xiàn)狀和未來(lái)發(fā)展方向。我們收集了2021年至2023年間所有能找到的路線圖,并將它們整理到這篇文章中,供您參考。
2023年10月發(fā)布的路線圖也讓我們首次了解到英偉達(dá)為其人工智能系統(tǒng)組件制定的年度更新計(jì)劃。在這份2023年末的路線圖中,2025年的產(chǎn)品被命名為GX200、GX200NVL、X100和X40,這讓我一度以為他們會(huì)沿用游戲產(chǎn)品線的“Xavier”代號(hào),但我們也承認(rèn)“X”可能是一個(gè)變量。最終,2025年的產(chǎn)品被證實(shí)是黃仁勛在2024年6月臺(tái)北國(guó)際電腦展上詳細(xì)介紹的“Blackwell”GPU,而我們現(xiàn)在看到的路線圖樣式已經(jīng)多次更新了。(對(duì)于我們這些上了年紀(jì)的人來(lái)說(shuō),字體可能有點(diǎn)小,所以你可能需要瞇著眼睛才能看清。)
英偉達(dá)在2024年6月公布了其到2027年的數(shù)據(jù)中心發(fā)展路線圖,當(dāng)時(shí)我們首次了解到了“Vera”CV100 Arm服務(wù)器CPU和“Rubin”R200 GPU加速器。隨后,黃仁勛在去年的GTC大會(huì)上又公布了到2028年的數(shù)據(jù)中心發(fā)展路線圖。
在 2026 年 GTC 大會(huì)上,黃仁勛補(bǔ)充了 2026 年至 2028 年期間的一些技術(shù)細(xì)節(jié),但他沒(méi)有談到未來(lái)可能推出的“Feynman Ultra”GPU,以及更新的 ConnectX-10 SmartNIC,甚至可能還有更新的 Groq LPU,這些產(chǎn)品也可能在當(dāng)年推出。
英偉達(dá)在訓(xùn)練方面占據(jù)絕對(duì)優(yōu)勢(shì),并且在推理方面也具備競(jìng)爭(zhēng)力。
這些路線圖對(duì)于將英偉達(dá)技術(shù)轉(zhuǎn)化為運(yùn)行人工智能訓(xùn)練和推理系統(tǒng)的原始設(shè)備制造商 (OEM) 和原始設(shè)計(jì)制造商 (ODM) 至關(guān)重要,這些系統(tǒng)服務(wù)于全球絕大多數(shù)用戶。對(duì)于客戶而言,路線圖同樣重要,因?yàn)槲覀兌贾?,客戶?huì)投資于路線圖,而不僅僅是購(gòu)買單個(gè)產(chǎn)品。盡管人工智能計(jì)算引擎和網(wǎng)絡(luò)領(lǐng)域經(jīng)歷了前所未有的爆發(fā)式增長(zhǎng),競(jìng)爭(zhēng)異常激烈,但英偉達(dá)目前仍占據(jù)著絕對(duì)的市場(chǎng)份額,并且在未來(lái)許多年內(nèi)仍將保持這一優(yōu)勢(shì)。至于未來(lái)能持續(xù)多久,我們拭目以待。
如果你粗略估算一下(你知道我喜歡這么做),根據(jù)IDC和Gartner有限的數(shù)據(jù),2025年服務(wù)器市場(chǎng)總規(guī)模將在4200億美元到4500億美元之間,其中約1900億美元的系統(tǒng)物料成本將作為收入流向英偉達(dá)。此外,OEM和ODM廠商銷售的、至少安裝了英偉達(dá)GPU(很可能還安裝了更多組件)的機(jī)器,在2025年的收入可能在2750億美元到3250億美元之間。這意味著基于英偉達(dá)技術(shù)的機(jī)器在整個(gè)系統(tǒng)市場(chǎng)中的份額將達(dá)到61%到77%左右。要想獲得更精確的估算,我們需要使用量子概率分布(你應(yīng)該笑一笑),或者查看所有公有和私有服務(wù)器制造商的財(cái)務(wù)數(shù)據(jù)并進(jìn)行匯總。
我想重點(diǎn)是,人工智能系統(tǒng)幾乎所有的利潤(rùn)都流向了英偉達(dá),其毛利潤(rùn)、營(yíng)業(yè)利潤(rùn)和凈利潤(rùn)都清楚地表明了這一點(diǎn)。
真是太棒了。
這就引出了黃仁勛在GTC主題演講中提出的2026年路線圖:

這一次,除了計(jì)算和網(wǎng)絡(luò)引擎的演進(jìn)之外,“Oberon”和“Kyber”機(jī)架的演進(jìn)也被明確地提及。
您還會(huì)注意到,Quantum InfiniBand 沒(méi)有被提及,這并不是因?yàn)橛ミ_(dá)停止了對(duì) InfiniBand 的開(kāi)發(fā),而是因?yàn)橛ミ_(dá)并不期望 AI 工廠部署 InfiniBand,即使在某些情況下,運(yùn)行較小集群的 HPC 中心甚至一些 AI 中心可能會(huì)選擇它。
此外,正如我們?cè)谥皩?duì)黃仁勛主題演講的報(bào)道中所指出的,去年九月發(fā)布的“Rubin”CPX長(zhǎng)上下文和衰減處理引擎并未列入路線圖。Rubin CPX原計(jì)劃于今年年底交付,用于處理100萬(wàn)個(gè)詞元或以上的AI上下文窗口,并輔助生成圖像模型(而非文字模型)的視頻?,F(xiàn)在就斷言CPX將無(wú)法勝任此類工作負(fù)載可能還為時(shí)尚早。事實(shí)上,我們可能會(huì)看到Nvidia CPX和Groq LPU計(jì)算引擎的組合來(lái)處理這兩種推理任務(wù)——而Vera-Rubin計(jì)算復(fù)合體則不會(huì)參與其中。(Nvidia并未如此表態(tài),但這是我的推測(cè)。)
Vera-Rubin 系統(tǒng)已準(zhǔn)備就緒,將于 2026 年下半年按計(jì)劃進(jìn)行批量出貨。Vera Arm 服務(wù)器 CPU 擁有 88 個(gè)定制的 Nvidia “Olympus” 核心,每個(gè)核心支持兩個(gè)線程,并配備 1.8 TB/秒的 NVLink 芯片間互連,可作為一個(gè)或多個(gè)“Rubin”R200 GPU 加速器之間的高速連接。正如我們?nèi)ツ晁?,Rubin 由兩個(gè)光刻膠大小的 GPU 芯片組成,通過(guò) NVLink C2C 端口連接在單個(gè)插槽內(nèi),配備 288 GB HBM4 顯存,其張量核心可提供 50 petaflops 的 FP4 性能,相比之下,“Blackwell”B200 為 10 petaflops,B300 為 15 petaflops。這些 B200 和 B300 GPU 配備 288 GB HBM3E 堆疊式顯存。預(yù)計(jì) Rubin 將采用臺(tái)積電的 3 納米 N3E 或 N3P 工藝進(jìn)行蝕刻。據(jù)我們所知,Oberon 機(jī)架式服務(wù)器將采用與 Blackwell 架構(gòu)的 B200 和 B300 相同的 NVL72 機(jī)架式系統(tǒng),配備 72 個(gè) GPU 插槽和 36 個(gè) CPU 插槽。(英偉達(dá)曾一度將這些服務(wù)器稱為 NVL144,因?yàn)樗麄兘y(tǒng)計(jì)的是 GPU 芯片的數(shù)量,而不是插槽的數(shù)量,這不僅讓自己感到困惑,也讓不少客戶感到困惑。)
與 Vera 和 Rubin 一樣,Groq LP30 將采用專用機(jī)架包裝,并配備標(biāo)準(zhǔn)的 Spectrum 以太網(wǎng)主干網(wǎng)(有時(shí)也稱為背板)。據(jù)我們所知,該以太網(wǎng)主干網(wǎng)未使用帶有共封裝光器件的 Spectrum-6 ASIC,但它可能在主干網(wǎng)中使用光器件,并在 Groq 芯片引出的芯片間連接器中使用銅線。
Nvidia 將此稱為 Oberon ETL256 配置,這意味著 256 個(gè) Vera CPU 或 256 個(gè) Groq LPU 可以連接到此背板。
今年推出的 Groq sleds ,每個(gè)sled有四個(gè)插槽,每個(gè)插槽裝有八個(gè) LP30 ,它們的外觀如下:

一組LP30處理器機(jī)架被稱為Groq 3 LPX系統(tǒng),它包含32個(gè)滑橇,總共擁有315 petaflops的FP8推理計(jì)算能力,256個(gè)芯片上配備128 GB的SRAM,總SRAM帶寬為40 PB/秒,Spectrum ETL背板上的總擴(kuò)展帶寬為640 TB/秒。(同樣,目前尚不清楚這是移除CPO后的Spectrum-5還是Spectrum-6。我們懷疑是結(jié)構(gòu)更簡(jiǎn)單的Spectrum-5。)
今年晚些時(shí)候,用戶還可以將整架 Vera 服務(wù)器 CPU 集成到配備 ETL 主干網(wǎng)的 Oberon 機(jī)架中。(Meta Platforms 將成為這項(xiàng)技術(shù)的早期客戶。)計(jì)算一下,每個(gè)機(jī)架單元 (sled) 可容納 8 個(gè) Vera CPU(可能是 4 個(gè)雙向 Vera-Vera 節(jié)點(diǎn)),一個(gè) Vera ETL 機(jī)架可容納 32 個(gè)機(jī)架單元。這意味著總共有 256 個(gè) CPU,22,528 個(gè)核心,512 TB 的主內(nèi)存,以及 300 TB/s 的內(nèi)存帶寬。

想必這款機(jī)架會(huì)被命名為 Vera CPX 機(jī)架,其中 CPX 是 Compute Processing Rack(計(jì)算處理機(jī)架)的縮寫(xiě)(不要與 Rubin CPX 處理器混淆)。基于 BlueField-4 DPU 并運(yùn)行來(lái)自十幾個(gè)合作伙伴的各種分布式存儲(chǔ)軟件棧的存儲(chǔ)機(jī)架被稱為 BlueField STX 機(jī)架,類似地,Spectrum-6 交換機(jī)機(jī)架則被稱為 Spectrum-5 SPX 機(jī)架。
或許在命名中加入“X”并不是個(gè)好主意?;蛟S,它們應(yīng)該分別叫做CPR、STX和SPR?命名很重要。它們都基于MGX模塊化服務(wù)器架構(gòu),而MGX并非中東那家私募股權(quán)公司,該公司目前正為全球眾多人工智能設(shè)施提供融資。
展望2027年,“Rubin Ultra”GPU(暫定名為R300)實(shí)際上只是將Rubin插槽內(nèi)的GPU芯片數(shù)量從兩顆增加到四顆,并提供100 petaflops的FP4性能。英偉達(dá)計(jì)劃在新推出的“Kyber”機(jī)架中將插槽數(shù)量翻倍至144個(gè),該機(jī)架將采用銅質(zhì)中板,取代之前用于連接GPU插槽的數(shù)千根銅纜。英偉達(dá)將為這四顆Rubin GPU芯片配備16組HBM4E顯存,總?cè)萘繛?TB,讀寫(xiě)速度為32TB/s。(理論上,HBM4E顯存的讀寫(xiě)速度可達(dá)64TB/s,我們不禁好奇英偉達(dá)為何降低了讀寫(xiě)速度——或許是出于功耗和散熱方面的考慮。)
我們來(lái)簡(jiǎn)單聊聊 NVLink 端口和 NVSwitch 內(nèi)存互連技術(shù)。這兩個(gè)名稱最初出現(xiàn)的時(shí)間有點(diǎn)不一致,因?yàn)?2016 年隨“Pascal” P100 GPU 一同推出的 NVLink 1.0 并沒(méi)有交換機(jī),而是使用網(wǎng)狀互連技術(shù)在 Pascal GPU 之間共享內(nèi)存。端口和交換機(jī)的命名與 Blackwell B300 GPU(我記得是這樣)是同步的,之后芯片和端口的命名就保持一致了。例如:

NVSwitch 內(nèi)存架構(gòu) ASIC 的增強(qiáng)方式有很多,但可以肯定的是,ASIC 的端口數(shù)(即基數(shù))已經(jīng)過(guò)低,我認(rèn)為英偉達(dá)很有可能會(huì)開(kāi)始考慮晶圓級(jí) ASIC 設(shè)計(jì),而不是芯片組設(shè)計(jì)。(仔細(xì)想想,他們甚至可能在未來(lái)的 Groq LPU 中也采用這種設(shè)計(jì)。)這些設(shè)計(jì)不必完全采用晶圓級(jí),但這意味著要徹底消除所有芯片間的 C2C 互連,以及數(shù)據(jù)在芯片間通過(guò) C2C 互連傳輸?shù)较噜徯酒瑫r(shí)所需的所有緩沖。(我們認(rèn)為,神秘的網(wǎng)絡(luò)芯片初創(chuàng)公司 Eridu 已經(jīng)在著手進(jìn)行這項(xiàng)技術(shù),而 Cerebras 也已經(jīng)展示了它在并行計(jì)算方面的出色表現(xiàn)。)
簡(jiǎn)而言之,Rubin GPU 上的 NVLink 6 端口的帶寬將比 NVLink 5 端口翻倍,達(dá)到 3,600 GB/秒,而 Rubin Ultra GPU 的帶寬將再次翻倍,考慮到 Rubin 和 Rubin Ultra 之間的性能翻倍以及 HBM4 內(nèi)存帶寬幾乎翻了三倍,這是理所當(dāng)然的。
在 Rubin 系列產(chǎn)品中,Spectrum-6 以太網(wǎng) ASIC 將采用共封裝光器件,該系列 102.4 Tb/s 交換機(jī)也將支持 Rubin Ultra 系統(tǒng)的橫向擴(kuò)展網(wǎng)絡(luò)需求。2027 年推出的 Rubin Ultra 產(chǎn)品線將采用 Groq LP35 芯片,該芯片將支持 NVFP4 格式的 FP4 浮點(diǎn)運(yùn)算,從而與 Blackwell 和 Rubin GPU 的精度相匹配。2028 年,Rosa-Feynman 系統(tǒng)將搭載 Groq LP40 計(jì)算引擎,并為其添加 NVLink 端口,以便 Groq 引擎能夠與 Rosa Arm 服務(wù)器 CPU(以諾貝爾獎(jiǎng)得主、醫(yī)學(xué)物理學(xué)家羅莎琳·薩斯曼·亞洛 (Rosalyn Sussman Yalow) 的名字命名,她開(kāi)發(fā)了放射免疫分析法,用于檢測(cè)血液或組織中微量化學(xué)物質(zhì))和 Feynman GPU(以著名物理學(xué)家和邦戈鼓演奏家理查德·費(fèi)曼 (Richard Feynman) 的名字命名)保持內(nèi)存一致性。
您將在路線圖中看到,英偉達(dá)將在 2028 年為 NVLink 8 端口添加 CPO 功能,并且很可能也會(huì)在另一端的 NVSwitch ASIC 上添加 CPO 功能。雖然我們一直敦促計(jì)算引擎制造商在其設(shè)備上采用 CPO,但他們也可以在一端使用銅纜,另一端則使用采用 CPO 的多層交換機(jī) ASIC 網(wǎng)絡(luò)。兩端都不需要采用 CPO。(英偉達(dá)在這張圖表中似乎對(duì) NVSwitch 和 NVLink 的使用比較寬泛,因此請(qǐng)注意。)我們認(rèn)為 NVSwitch 的 CPO 功能很有意義,因?yàn)樗鼘⒃试S構(gòu)建快速、高帶寬的雙層 NVSwitch 網(wǎng)絡(luò),從而為模型創(chuàng)建更大的 GPU 計(jì)算內(nèi)存域。
Hopper GPU 的官方可擴(kuò)展性為 8 個(gè) GPU(采用內(nèi)存鏈接),但非官方的可擴(kuò)展性為使用兩層網(wǎng)絡(luò)時(shí)可達(dá) 256 個(gè) GPU。Blackwell 的官方 GPU 內(nèi)存域大小為 72 個(gè) GPU,但理論上,通過(guò)多層 NVSwitch,可擴(kuò)展至 576 個(gè) GPU。Kyber 機(jī)架采用垂直滑槽設(shè)計(jì),可容納兩倍數(shù)量的 GPU,并配備銅質(zhì)背板,其機(jī)架級(jí) GPU 域大小為 144 個(gè) GPU。最終,隨著 NVSwitch 8 CPO(我知道圖表上寫(xiě)的是 NVLink 8 CPO)的推出,單個(gè)機(jī)架的 GPU 容量仍將保持在 144 個(gè),但在多層網(wǎng)絡(luò)(我們認(rèn)為是兩層網(wǎng)絡(luò),但如果不知道 NVSwitch 8 設(shè)備的基數(shù),就無(wú)法確定)下,NVIDIA 的 GPU 域大小將達(dá)到 1152 個(gè) GPU。
幾十年前,Cray 超級(jí)計(jì)算機(jī)的機(jī)架內(nèi)采用銅質(zhì)背板,并通過(guò)路由器引出光纖鏈路連接各個(gè)機(jī)架。我們推測(cè)英偉達(dá)也會(huì)采取類似的策略。原則始終是:能用銅線就用銅線,必須用光纖才行,這既是技術(shù)原則,也是經(jīng)濟(jì)原則。但是,鑒于英偉達(dá)在人工智能系統(tǒng)投資中占據(jù)如此大的份額,如果說(shuō)有什么工作負(fù)載能夠推動(dòng) CPO(計(jì)算產(chǎn)品)的產(chǎn)量增長(zhǎng),從而降低單價(jià),那一定是 GenAI 推理;如果說(shuō)有什么公司能夠推動(dòng)這項(xiàng)工作并協(xié)調(diào)整個(gè)供應(yīng)鏈,那也非英偉達(dá)莫屬。有人可能會(huì)說(shuō),只有英偉達(dá)才能做到這一點(diǎn),如果它做到了,所有系統(tǒng)都將從中受益。
16 倍以上的 GPU 插槽數(shù)量,再加上 Feynman GPU 預(yù)期帶來(lái)的性能提升——英偉達(dá)只透露這一代芯片將采用芯片堆疊技術(shù)和定制 HBM 內(nèi)存——將為 CPU-GPU 混合系統(tǒng)帶來(lái)巨大的吞吐量提升。
如果芯片堆疊僅用于SRAM緩存(這相對(duì)容易實(shí)現(xiàn)),那么仍然可以在一個(gè)插槽中添加更多2D GPU核心。英偉達(dá)可能會(huì)在Feynman架構(gòu)中采用2納米或更小的工藝,這也意味著將采用全環(huán)柵極(GAA)晶體管和高數(shù)值孔徑EUV工藝,同時(shí)由于芯片高度只能減半,最大光刻尺寸將從858平方毫米縮小到429平方毫米。因此,無(wú)論Feynman架構(gòu)最終如何,它都將在一個(gè)插槽中至少容納八個(gè)GPU芯片,而Rubin Ultra插槽中只有四個(gè),并且利用工藝縮小來(lái)增加更多電路。
當(dāng)然,英偉達(dá)也有可能在費(fèi)曼芯片中同時(shí)集成SRAM和計(jì)算能力。如果真是這樣,那確實(shí)會(huì)非常有趣。

來(lái)源:Internet