中国一极毛片爱爱欧美一区,av不卡无码在线观看海角

深度解讀英偉達(dá)芯片路線圖

嘉峪檢測(cè)網(wǎng) 2026-03-20 09:22

在 GPU 加速應(yīng)用程序性能的早期——實(shí)際上從 2012 年 5 月的“開(kāi)普勒”數(shù)據(jù)中心 GPU 到 2017 年 5 月的“伏特”——英偉達(dá)，這家全球最重要的科技公司，也是 GenAI 革命中硬件和系統(tǒng)軟件的絕對(duì)主導(dǎo)供應(yīng)商，在發(fā)布路線圖方面做得非常出色。

但在2021年之前的幾年里，英偉達(dá)一直把產(chǎn)品路線圖折疊起來(lái)，放在聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛皮夾克左前內(nèi)袋里。隨著人工智能時(shí)代（GenAI）的蓬勃發(fā)展從化學(xué)領(lǐng)域轉(zhuǎn)向核能領(lǐng)域，英偉達(dá)敏銳地意識(shí)到，在各方都在努力協(xié)調(diào)資金、土地、電力、冷卻和系統(tǒng)，以構(gòu)建IT市場(chǎng)有史以來(lái)規(guī)模最大的基礎(chǔ)設(shè)施建設(shè)之際，每個(gè)人都需要一份真正意義上的路線圖，最好是未來(lái)幾年的規(guī)劃路線圖。第一份這樣的新時(shí)代路線圖于2023年底發(fā)布，并非黃仁勛在GTC大會(huì)上展示的幻燈片，而是在一份財(cái)務(wù)報(bào)告中。我們對(duì)這份路線圖進(jìn)行了大量的編輯，添加了缺失的組件，例如一些GPU和DPU，并在各列中修正了正確的年份。但我們始終感激英偉達(dá)能夠清晰地展現(xiàn)其現(xiàn)狀和未來(lái)發(fā)展方向。我們收集了2021年至2023年間所有能找到的路線圖，并將它們整理到這篇文章中，供您參考。

2023年10月發(fā)布的路線圖也讓我們首次了解到英偉達(dá)為其人工智能系統(tǒng)組件制定的年度更新計(jì)劃。在這份2023年末的路線圖中，2025年的產(chǎn)品被命名為GX200、GX200NVL、X100和X40，這讓我一度以為他們會(huì)沿用游戲產(chǎn)品線的“Xavier”代號(hào)，但我們也承認(rèn)“X”可能是一個(gè)變量。最終，2025年的產(chǎn)品被證實(shí)是黃仁勛在2024年6月臺(tái)北國(guó)際電腦展上詳細(xì)介紹的“Blackwell”GPU，而我們現(xiàn)在看到的路線圖樣式已經(jīng)多次更新了。（對(duì)于我們這些上了年紀(jì)的人來(lái)說(shuō)，字體可能有點(diǎn)小，所以你可能需要瞇著眼睛才能看清。）

英偉達(dá)在2024年6月公布了其到2027年的數(shù)據(jù)中心發(fā)展路線圖，當(dāng)時(shí)我們首次了解到了“Vera”CV100 Arm服務(wù)器CPU和“Rubin”R200 GPU加速器。隨后，黃仁勛在去年的GTC大會(huì)上又公布了到2028年的數(shù)據(jù)中心發(fā)展路線圖。

在 2026 年 GTC 大會(huì)上，黃仁勛補(bǔ)充了 2026 年至 2028 年期間的一些技術(shù)細(xì)節(jié)，但他沒(méi)有談到未來(lái)可能推出的“Feynman Ultra”GPU，以及更新的 ConnectX-10 SmartNIC，甚至可能還有更新的 Groq LPU，這些產(chǎn)品也可能在當(dāng)年推出。

英偉達(dá)在訓(xùn)練方面占據(jù)絕對(duì)優(yōu)勢(shì)，并且在推理方面也具備競(jìng)爭(zhēng)力。

這些路線圖對(duì)于將英偉達(dá)技術(shù)轉(zhuǎn)化為運(yùn)行人工智能訓(xùn)練和推理系統(tǒng)的原始設(shè)備制造商 (OEM) 和原始設(shè)計(jì)制造商 (ODM) 至關(guān)重要，這些系統(tǒng)服務(wù)于全球絕大多數(shù)用戶。對(duì)于客戶而言，路線圖同樣重要，因?yàn)槲覀兌贾?，客戶?huì)投資于路線圖，而不僅僅是購(gòu)買單個(gè)產(chǎn)品。盡管人工智能計(jì)算引擎和網(wǎng)絡(luò)領(lǐng)域經(jīng)歷了前所未有的爆發(fā)式增長(zhǎng)，競(jìng)爭(zhēng)異常激烈，但英偉達(dá)目前仍占據(jù)著絕對(duì)的市場(chǎng)份額，并且在未來(lái)許多年內(nèi)仍將保持這一優(yōu)勢(shì)。至于未來(lái)能持續(xù)多久，我們拭目以待。

如果你粗略估算一下（你知道我喜歡這么做），根據(jù)IDC和Gartner有限的數(shù)據(jù)，2025年服務(wù)器市場(chǎng)總規(guī)模將在4200億美元到4500億美元之間，其中約1900億美元的系統(tǒng)物料成本將作為收入流向英偉達(dá)。此外，OEM和ODM廠商銷售的、至少安裝了英偉達(dá)GPU（很可能還安裝了更多組件）的機(jī)器，在2025年的收入可能在2750億美元到3250億美元之間。這意味著基于英偉達(dá)技術(shù)的機(jī)器在整個(gè)系統(tǒng)市場(chǎng)中的份額將達(dá)到61%到77%左右。要想獲得更精確的估算，我們需要使用量子概率分布（你應(yīng)該笑一笑），或者查看所有公有和私有服務(wù)器制造商的財(cái)務(wù)數(shù)據(jù)并進(jìn)行匯總。

我想重點(diǎn)是，人工智能系統(tǒng)幾乎所有的利潤(rùn)都流向了英偉達(dá)，其毛利潤(rùn)、營(yíng)業(yè)利潤(rùn)和凈利潤(rùn)都清楚地表明了這一點(diǎn)。

真是太棒了。

這就引出了黃仁勛在GTC主題演講中提出的2026年路線圖：

深度解讀英偉達(dá)芯片路線圖

這一次，除了計(jì)算和網(wǎng)絡(luò)引擎的演進(jìn)之外，“Oberon”和“Kyber”機(jī)架的演進(jìn)也被明確地提及。

您還會(huì)注意到，Quantum InfiniBand 沒(méi)有被提及，這并不是因?yàn)橛ミ_(dá)停止了對(duì) InfiniBand 的開(kāi)發(fā)，而是因?yàn)橛ミ_(dá)并不期望 AI 工廠部署 InfiniBand，即使在某些情況下，運(yùn)行較小集群的 HPC 中心甚至一些 AI 中心可能會(huì)選擇它。

此外，正如我們?cè)谥皩?duì)黃仁勛主題演講的報(bào)道中所指出的，去年九月發(fā)布的“Rubin”CPX長(zhǎng)上下文和衰減處理引擎并未列入路線圖。Rubin CPX原計(jì)劃于今年年底交付，用于處理100萬(wàn)個(gè)詞元或以上的AI上下文窗口，并輔助生成圖像模型（而非文字模型）的視頻?，F(xiàn)在就斷言CPX將無(wú)法勝任此類工作負(fù)載可能還為時(shí)尚早。事實(shí)上，我們可能會(huì)看到Nvidia CPX和Groq LPU計(jì)算引擎的組合來(lái)處理這兩種推理任務(wù)——而Vera-Rubin計(jì)算復(fù)合體則不會(huì)參與其中。（Nvidia并未如此表態(tài)，但這是我的推測(cè)。）

Vera-Rubin 系統(tǒng)已準(zhǔn)備就緒，將于 2026 年下半年按計(jì)劃進(jìn)行批量出貨。Vera Arm 服務(wù)器 CPU 擁有 88 個(gè)定制的 Nvidia “Olympus” 核心，每個(gè)核心支持兩個(gè)線程，并配備 1.8 TB/秒的 NVLink 芯片間互連，可作為一個(gè)或多個(gè)“Rubin”R200 GPU 加速器之間的高速連接。正如我們?nèi)ツ晁?，Rubin 由兩個(gè)光刻膠大小的 GPU 芯片組成，通過(guò) NVLink C2C 端口連接在單個(gè)插槽內(nèi)，配備 288 GB HBM4 顯存，其張量核心可提供 50 petaflops 的 FP4 性能，相比之下，“Blackwell”B200 為 10 petaflops，B300 為 15 petaflops。這些 B200 和 B300 GPU 配備 288 GB HBM3E 堆疊式顯存。預(yù)計(jì) Rubin 將采用臺(tái)積電的 3 納米 N3E 或 N3P 工藝進(jìn)行蝕刻。據(jù)我們所知，Oberon 機(jī)架式服務(wù)器將采用與 Blackwell 架構(gòu)的 B200 和 B300 相同的 NVL72 機(jī)架式系統(tǒng)，配備 72 個(gè) GPU 插槽和 36 個(gè) CPU 插槽。（英偉達(dá)曾一度將這些服務(wù)器稱為 NVL144，因?yàn)樗麄兘y(tǒng)計(jì)的是 GPU 芯片的數(shù)量，而不是插槽的數(shù)量，這不僅讓自己感到困惑，也讓不少客戶感到困惑。）

與 Vera 和 Rubin 一樣，Groq LP30 將采用專用機(jī)架包裝，并配備標(biāo)準(zhǔn)的 Spectrum 以太網(wǎng)主干網(wǎng)（有時(shí)也稱為背板）。據(jù)我們所知，該以太網(wǎng)主干網(wǎng)未使用帶有共封裝光器件的 Spectrum-6 ASIC，但它可能在主干網(wǎng)中使用光器件，并在 Groq 芯片引出的芯片間連接器中使用銅線。

Nvidia 將此稱為 Oberon ETL256 配置，這意味著 256 個(gè) Vera CPU 或 256 個(gè) Groq LPU 可以連接到此背板。

今年推出的 Groq sleds ，每個(gè)sled有四個(gè)插槽，每個(gè)插槽裝有八個(gè) LP30 ，它們的外觀如下：

深度解讀英偉達(dá)芯片路線圖

一組LP30處理器機(jī)架被稱為Groq 3 LPX系統(tǒng)，它包含32個(gè)滑橇，總共擁有315 petaflops的FP8推理計(jì)算能力，256個(gè)芯片上配備128 GB的SRAM，總SRAM帶寬為40 PB/秒，Spectrum ETL背板上的總擴(kuò)展帶寬為640 TB/秒。（同樣，目前尚不清楚這是移除CPO后的Spectrum-5還是Spectrum-6。我們懷疑是結(jié)構(gòu)更簡(jiǎn)單的Spectrum-5。）

今年晚些時(shí)候，用戶還可以將整架 Vera 服務(wù)器 CPU 集成到配備 ETL 主干網(wǎng)的 Oberon 機(jī)架中。（Meta Platforms 將成為這項(xiàng)技術(shù)的早期客戶。）計(jì)算一下，每個(gè)機(jī)架單元 (sled) 可容納 8 個(gè) Vera CPU（可能是 4 個(gè)雙向 Vera-Vera 節(jié)點(diǎn)），一個(gè) Vera ETL 機(jī)架可容納 32 個(gè)機(jī)架單元。這意味著總共有 256 個(gè) CPU，22,528 個(gè)核心，512 TB 的主內(nèi)存，以及 300 TB/s 的內(nèi)存帶寬。

深度解讀英偉達(dá)芯片路線圖

想必這款機(jī)架會(huì)被命名為 Vera CPX 機(jī)架，其中 CPX 是 Compute Processing Rack（計(jì)算處理機(jī)架）的縮寫(xiě)（不要與 Rubin CPX 處理器混淆）。基于 BlueField-4 DPU 并運(yùn)行來(lái)自十幾個(gè)合作伙伴的各種分布式存儲(chǔ)軟件棧的存儲(chǔ)機(jī)架被稱為 BlueField STX 機(jī)架，類似地，Spectrum-6 交換機(jī)機(jī)架則被稱為 Spectrum-5 SPX 機(jī)架。

或許在命名中加入“X”并不是個(gè)好主意?；蛟S，它們應(yīng)該分別叫做CPR、STX和SPR？命名很重要。它們都基于MGX模塊化服務(wù)器架構(gòu)，而MGX并非中東那家私募股權(quán)公司，該公司目前正為全球眾多人工智能設(shè)施提供融資。

展望2027年，“Rubin Ultra”GPU（暫定名為R300）實(shí)際上只是將Rubin插槽內(nèi)的GPU芯片數(shù)量從兩顆增加到四顆，并提供100 petaflops的FP4性能。英偉達(dá)計(jì)劃在新推出的“Kyber”機(jī)架中將插槽數(shù)量翻倍至144個(gè)，該機(jī)架將采用銅質(zhì)中板，取代之前用于連接GPU插槽的數(shù)千根銅纜。英偉達(dá)將為這四顆Rubin GPU芯片配備16組HBM4E顯存，總?cè)萘繛?TB，讀寫(xiě)速度為32TB/s。（理論上，HBM4E顯存的讀寫(xiě)速度可達(dá)64TB/s，我們不禁好奇英偉達(dá)為何降低了讀寫(xiě)速度——或許是出于功耗和散熱方面的考慮。）

我們來(lái)簡(jiǎn)單聊聊 NVLink 端口和 NVSwitch 內(nèi)存互連技術(shù)。這兩個(gè)名稱最初出現(xiàn)的時(shí)間有點(diǎn)不一致，因?yàn)?2016 年隨“Pascal” P100 GPU 一同推出的 NVLink 1.0 并沒(méi)有交換機(jī)，而是使用網(wǎng)狀互連技術(shù)在 Pascal GPU 之間共享內(nèi)存。端口和交換機(jī)的命名與 Blackwell B300 GPU（我記得是這樣）是同步的，之后芯片和端口的命名就保持一致了。例如：

深度解讀英偉達(dá)芯片路線圖

NVSwitch 內(nèi)存架構(gòu) ASIC 的增強(qiáng)方式有很多，但可以肯定的是，ASIC 的端口數(shù)（即基數(shù)）已經(jīng)過(guò)低，我認(rèn)為英偉達(dá)很有可能會(huì)開(kāi)始考慮晶圓級(jí) ASIC 設(shè)計(jì)，而不是芯片組設(shè)計(jì)。（仔細(xì)想想，他們甚至可能在未來(lái)的 Groq LPU 中也采用這種設(shè)計(jì)。）這些設(shè)計(jì)不必完全采用晶圓級(jí)，但這意味著要徹底消除所有芯片間的 C2C 互連，以及數(shù)據(jù)在芯片間通過(guò) C2C 互連傳輸?shù)较噜徯酒瑫r(shí)所需的所有緩沖。（我們認(rèn)為，神秘的網(wǎng)絡(luò)芯片初創(chuàng)公司 Eridu 已經(jīng)在著手進(jìn)行這項(xiàng)技術(shù)，而 Cerebras 也已經(jīng)展示了它在并行計(jì)算方面的出色表現(xiàn)。）

簡(jiǎn)而言之，Rubin GPU 上的 NVLink 6 端口的帶寬將比 NVLink 5 端口翻倍，達(dá)到 3,600 GB/秒，而 Rubin Ultra GPU 的帶寬將再次翻倍，考慮到 Rubin 和 Rubin Ultra 之間的性能翻倍以及 HBM4 內(nèi)存帶寬幾乎翻了三倍，這是理所當(dāng)然的。

在 Rubin 系列產(chǎn)品中，Spectrum-6 以太網(wǎng) ASIC 將采用共封裝光器件，該系列 102.4 Tb/s 交換機(jī)也將支持 Rubin Ultra 系統(tǒng)的橫向擴(kuò)展網(wǎng)絡(luò)需求。2027 年推出的 Rubin Ultra 產(chǎn)品線將采用 Groq LP35 芯片，該芯片將支持 NVFP4 格式的 FP4 浮點(diǎn)運(yùn)算，從而與 Blackwell 和 Rubin GPU 的精度相匹配。2028 年，Rosa-Feynman 系統(tǒng)將搭載 Groq LP40 計(jì)算引擎，并為其添加 NVLink 端口，以便 Groq 引擎能夠與 Rosa Arm 服務(wù)器 CPU（以諾貝爾獎(jiǎng)得主、醫(yī)學(xué)物理學(xué)家羅莎琳·薩斯曼·亞洛 (Rosalyn Sussman Yalow) 的名字命名，她開(kāi)發(fā)了放射免疫分析法，用于檢測(cè)血液或組織中微量化學(xué)物質(zhì)）和 Feynman GPU（以著名物理學(xué)家和邦戈鼓演奏家理查德·費(fèi)曼 (Richard Feynman) 的名字命名）保持內(nèi)存一致性。

您將在路線圖中看到，英偉達(dá)將在 2028 年為 NVLink 8 端口添加 CPO 功能，并且很可能也會(huì)在另一端的 NVSwitch ASIC 上添加 CPO 功能。雖然我們一直敦促計(jì)算引擎制造商在其設(shè)備上采用 CPO，但他們也可以在一端使用銅纜，另一端則使用采用 CPO 的多層交換機(jī) ASIC 網(wǎng)絡(luò)。兩端都不需要采用 CPO。（英偉達(dá)在這張圖表中似乎對(duì) NVSwitch 和 NVLink 的使用比較寬泛，因此請(qǐng)注意。）我們認(rèn)為 NVSwitch 的 CPO 功能很有意義，因?yàn)樗鼘⒃试S構(gòu)建快速、高帶寬的雙層 NVSwitch 網(wǎng)絡(luò)，從而為模型創(chuàng)建更大的 GPU 計(jì)算內(nèi)存域。

Hopper GPU 的官方可擴(kuò)展性為 8 個(gè) GPU（采用內(nèi)存鏈接），但非官方的可擴(kuò)展性為使用兩層網(wǎng)絡(luò)時(shí)可達(dá) 256 個(gè) GPU。Blackwell 的官方 GPU 內(nèi)存域大小為 72 個(gè) GPU，但理論上，通過(guò)多層 NVSwitch，可擴(kuò)展至 576 個(gè) GPU。Kyber 機(jī)架采用垂直滑槽設(shè)計(jì)，可容納兩倍數(shù)量的 GPU，并配備銅質(zhì)背板，其機(jī)架級(jí) GPU 域大小為 144 個(gè) GPU。最終，隨著 NVSwitch 8 CPO（我知道圖表上寫(xiě)的是 NVLink 8 CPO）的推出，單個(gè)機(jī)架的 GPU 容量仍將保持在 144 個(gè)，但在多層網(wǎng)絡(luò)（我們認(rèn)為是兩層網(wǎng)絡(luò)，但如果不知道 NVSwitch 8 設(shè)備的基數(shù)，就無(wú)法確定）下，NVIDIA 的 GPU 域大小將達(dá)到 1152 個(gè) GPU。

幾十年前，Cray 超級(jí)計(jì)算機(jī)的機(jī)架內(nèi)采用銅質(zhì)背板，并通過(guò)路由器引出光纖鏈路連接各個(gè)機(jī)架。我們推測(cè)英偉達(dá)也會(huì)采取類似的策略。原則始終是：能用銅線就用銅線，必須用光纖才行，這既是技術(shù)原則，也是經(jīng)濟(jì)原則。但是，鑒于英偉達(dá)在人工智能系統(tǒng)投資中占據(jù)如此大的份額，如果說(shuō)有什么工作負(fù)載能夠推動(dòng) CPO（計(jì)算產(chǎn)品）的產(chǎn)量增長(zhǎng)，從而降低單價(jià)，那一定是 GenAI 推理；如果說(shuō)有什么公司能夠推動(dòng)這項(xiàng)工作并協(xié)調(diào)整個(gè)供應(yīng)鏈，那也非英偉達(dá)莫屬。有人可能會(huì)說(shuō)，只有英偉達(dá)才能做到這一點(diǎn)，如果它做到了，所有系統(tǒng)都將從中受益。

16 倍以上的 GPU 插槽數(shù)量，再加上 Feynman GPU 預(yù)期帶來(lái)的性能提升——英偉達(dá)只透露這一代芯片將采用芯片堆疊技術(shù)和定制 HBM 內(nèi)存——將為 CPU-GPU 混合系統(tǒng)帶來(lái)巨大的吞吐量提升。

如果芯片堆疊僅用于SRAM緩存（這相對(duì)容易實(shí)現(xiàn)），那么仍然可以在一個(gè)插槽中添加更多2D GPU核心。英偉達(dá)可能會(huì)在Feynman架構(gòu)中采用2納米或更小的工藝，這也意味著將采用全環(huán)柵極（GAA）晶體管和高數(shù)值孔徑EUV工藝，同時(shí)由于芯片高度只能減半，最大光刻尺寸將從858平方毫米縮小到429平方毫米。因此，無(wú)論Feynman架構(gòu)最終如何，它都將在一個(gè)插槽中至少容納八個(gè)GPU芯片，而Rubin Ultra插槽中只有四個(gè)，并且利用工藝縮小來(lái)增加更多電路。

當(dāng)然，英偉達(dá)也有可能在費(fèi)曼芯片中同時(shí)集成SRAM和計(jì)算能力。如果真是這樣，那確實(shí)會(huì)非常有趣。

深度解讀英偉達(dá)芯片路線圖

來(lái)源：Internet

深度解讀英偉達(dá)芯片路線圖

相關(guān)新聞：