国产国产国产a黄色a,啊啊啊在线看一区成人

英偉達(dá)正式發(fā)布LPU，CPU重磅更新：GPU不再是GTC唯一主角

嘉峪檢測網(wǎng) 2026-03-17 21:48

英偉達(dá)首席執(zhí)行官黃仁勛周一舉辦的GTC 2026上詳細(xì)闡述了他保持公司在人工智能熱潮中處于領(lǐng)先地位的愿景，他預(yù)測人工智能熱潮將在未來一年內(nèi)產(chǎn)生價(jià)值 1 萬億美元的訂單積壓。

黃身穿標(biāo)志性的黑色皮夾克，在加利福尼亞州圣何塞座無虛席的體育館里的舞臺(tái)上漫步了兩個(gè)多小時(shí)。他解釋了英偉達(dá)的處理器如何成為不可或缺的人工智能組件，并重點(diǎn)介紹了他認(rèn)為將使公司保持領(lǐng)先地位的產(chǎn)品。

現(xiàn)年 63 歲的黃仁勛還談到了他近年來作為硅谷最具影響力的人物之一所一直宣揚(yáng)的許多主題，包括他認(rèn)為人工智能的發(fā)展仍處于起步階段的論點(diǎn)。

黃仁勛宣稱：“我們重新定義了計(jì)算，就像個(gè)人電腦革命和互聯(lián)網(wǎng)革命一樣。我們現(xiàn)在正處于一個(gè)全新平臺(tái)變革的開端。”

為了強(qiáng)調(diào)自己的觀點(diǎn)，黃仁勛預(yù)測，到今年年底，英偉達(dá)的芯片訂單積壓額將達(dá)到 1 萬億美元，是去年同期預(yù)測的兩倍。

為了迎接這個(gè)機(jī)會(huì)，他們在會(huì)上發(fā)布了多顆芯片和系統(tǒng)。

Nvidia Groq 3 LPU 正式亮相

在今天的GTC 主題演講中，黃仁勛透露了英偉達(dá)如何利用去年從 Groq 收購的知識(shí)產(chǎn)權(quán)來擴(kuò)展 Rubin 的功能。Rubin 平臺(tái)現(xiàn)在包含一款新的芯片——英偉達(dá) Groq 3 LPU，這是一款推理加速器，能夠增強(qiáng)這些系統(tǒng)以低延遲、大批量的方式交付令牌的能力，從而在人工智能模型的前沿實(shí)現(xiàn)高交互性。

與大多數(shù)依賴 HBM 作為工作內(nèi)存層的 AI 加速器不同，每個(gè) Groq 3 LPU 都集成了 500 MB 的 SRAM，這種內(nèi)存也用于 CPU 和 GPU 的超高速緩存。雖然與每個(gè) Rubin GPU 上容量高達(dá) 288GB 的 HBM4 相比，這顯得微不足道，但正如您所預(yù)期的，這塊 SRAM 可提供 150 TB/s 的帶寬，遠(yuǎn)高于 HBM 的 22 TB/s。對(duì)于帶寬敏感型 AI 解碼操作而言，Groq 3 芯片帶寬的大幅提升為推理應(yīng)用帶來了誘人的優(yōu)勢。

反過來，英偉達(dá)將構(gòu)建包含 256 個(gè) Groq 3 LPU 的 Groq 3 LPX 機(jī)架。該機(jī)架提供 128GB 的 SRAM 和 40 PB/s 的推理加速帶寬，并通過每個(gè)機(jī)架 640 TB/s 的專用擴(kuò)展接口將這些芯片連接起來。

英偉達(dá)將 Groq LPX 設(shè)想為 Rubin 的協(xié)處理器，據(jù)英偉達(dá)超大規(guī)模副總裁 Ian Buck 稱，它將提升“每個(gè)令牌上 AI 模型每一層”的解碼性能，并使 Rubin 能夠服務(wù)于人工智能的下一個(gè)前沿領(lǐng)域：多智能體系統(tǒng)，這些系統(tǒng)需要在推理數(shù)萬億個(gè)參數(shù)的模型的同時(shí)，在數(shù)百萬個(gè)token的上下文窗口中提供交互式性能。

隨著多智能體系統(tǒng)中的人工智能代理越來越多地與其他人工智能進(jìn)行交互，而非與查看聊天機(jī)器人窗口的人類進(jìn)行交流，對(duì)響應(yīng)速度的要求也隨之改變。對(duì)人類而言看似合理的每秒token生成速率，對(duì)人工智能代理來說卻如同蝸牛爬行。在巴克所描述的未來多智能體系統(tǒng)中，Rubin GPU 和 Groq LPU 的組合將人工智能代理間通信的吞吐量從每秒 100 個(gè)token提升到每秒 1500 個(gè)token甚至更高。

Rubin平臺(tái)新增Groq 3 LPU，有望幫助其在低延遲推理領(lǐng)域抵御挑戰(zhàn)者。Cerebras公司憑借其晶圓級(jí)引擎，融合海量SRAM和計(jì)算資源，利用先進(jìn)模型實(shí)現(xiàn)低延遲推理，該公司曾多次就Nvidia GPU在這方面的劣勢向Nvidia發(fā)起挑戰(zhàn)。包括OpenAI在內(nèi)的眾多大型客戶已簽約使用Cerebras的計(jì)算能力，以利用該平臺(tái)優(yōu)異的延遲特性來運(yùn)行其部分尖端模型。

Buck 還暗示，Groq 3 LPU 的推出可能會(huì)導(dǎo)致 Rubin CPX 推理加速器的作用降低，他表示公司目前專注于將 Groq 3 LPX 機(jī)架與 Rubin 集成。雖然他沒有透露更多細(xì)節(jié)，但在如今內(nèi)存資源緊張的環(huán)境下，這種重心轉(zhuǎn)移是合理的，因?yàn)檫@兩款芯片旨在提供類似的推理性能提升，而且 Groq LPU 不需要像每個(gè) Rubin CPX 模塊那樣大量的 GDDR7 內(nèi)存。

全新88核Vera CPU叫板AMD/Intel

在 GTC 2026 大會(huì)上，英偉達(dá)公布了其全新 88 核 Vera 數(shù)據(jù)中心 CPU 的更多細(xì)節(jié)，聲稱其性能比標(biāo)準(zhǔn) CPU 提升了 50%，這得益于 Olympus 核心 IPC 提升 1.5 倍，以及英偉達(dá)所稱的創(chuàng)新高帶寬設(shè)計(jì)，該設(shè)計(jì)可提供市場上最快的單線程性能。該公司還發(fā)布了全新的 Vera CPU 機(jī)架架構(gòu)，該架構(gòu)將 256 個(gè)液冷 CPU 集成到一個(gè)機(jī)架中，專為以 CPU 為中心的工作負(fù)載而設(shè)計(jì)，據(jù)稱其 CPU 吞吐量提升了 6 倍，在智能 AI 工作負(fù)載中的性能提升了 2 倍。

Vera CPU 的演進(jìn)及其與可部署機(jī)架級(jí)系統(tǒng)的集成，標(biāo)志著英偉達(dá)正式進(jìn)軍 CPU 直銷領(lǐng)域，成為傳統(tǒng) CPU 市場中英特爾和 AMD 的有力競爭對(duì)手。更不用說，它還要與全球最大的超大規(guī)模數(shù)據(jù)中心運(yùn)營商使用的各種定制 Arm 處理器展開競爭。此前，英偉達(dá)宣布Meta 將在其基礎(chǔ)設(shè)施中部署多代英偉達(dá)純 CPU 系統(tǒng)，因此這一舉措并不令人意外。英偉達(dá)還將繼續(xù)在其以 GPU 為中心的系統(tǒng)中使用這些 CPU，例如我們此前深入報(bào)道過的 Vera Rubin 平臺(tái)。

英偉達(dá)最初于 2022 年 GTC 大會(huì)上發(fā)布了第一代 Grace CPU，預(yù)示著該系列的持續(xù)發(fā)展最終將使其躋身更廣泛的 CPU 市場。新款處理器面向人工智能和通用應(yīng)用場景，尤其側(cè)重于前者。英偉達(dá)不斷拓展其功能和目標(biāo)市場，這將對(duì) AMD 和英特爾在人工智能數(shù)據(jù)中心的插槽爭奪戰(zhàn)構(gòu)成嚴(yán)峻挑戰(zhàn)。這些芯片現(xiàn)已全面投產(chǎn)，并將于今年下半年提供給英偉達(dá)的合作伙伴。接下來，我們將詳細(xì)了解這些新芯片及其機(jī)架級(jí)架構(gòu)。

Nvidia 設(shè)計(jì) Vera CPU 的目的是為了融合多方面的優(yōu)勢，將超大規(guī)模云 CPU 的高核心數(shù)、游戲 CPU 的高單線程性能和移動(dòng)芯片的能效相結(jié)合，從而加速智能 AI、訓(xùn)練和推理工作負(fù)載中常見的 GPU 驅(qū)動(dòng)任務(wù)，例如 Python 執(zhí)行、SQL 查詢和代碼編譯。

總而言之，英偉達(dá)聲稱其沙箱性能比 x86 競爭對(duì)手高出 1.5 倍，每個(gè)核心的內(nèi)存帶寬高出 3 倍，能效高出兩倍。為了實(shí)現(xiàn)這些目標(biāo)，該公司設(shè)計(jì)了一款 88 核 144 線程的 CPU，比第一代 Grace 的 72 核有所增加。英偉達(dá)還聲稱，這些核心的每周期指令數(shù) (IPC) 吞吐量提高了 1.5 倍，相對(duì)于其他競爭架構(gòu)而言，這是一個(gè)巨大的代際飛躍，因?yàn)槠渌偁幖軜?gòu)通常每一代只有個(gè)位數(shù)或十幾個(gè)百分點(diǎn)的提升。在上一代 Grace 中，英偉達(dá)使用了現(xiàn)成的 Arm Neoverse 核心，但該公司明確指出 Vera 上的全新 Olympus 核心是“英偉達(dá)設(shè)計(jì)的”，這表明該公司對(duì)參考設(shè)計(jì)進(jìn)行了定制修改。

Arm v9.2-A Olympus 內(nèi)核采用空間多線程技術(shù)，通過避免對(duì)執(zhí)行單元、緩存和寄存器文件等關(guān)鍵元素進(jìn)行時(shí)間片輪換，從而在物理上隔離流水線的各個(gè)組件。這與其它同步多線程 (SMT) 實(shí)現(xiàn)中常見的標(biāo)準(zhǔn)時(shí)間片輪換機(jī)制截然不同，后者是指線程輪流使用資源?？臻g多線程通過在執(zhí)行單元空閑時(shí)從其他線程拉取指令，從而提高指令級(jí)并行性 (ILP)、吞吐量和性能可預(yù)測性，確保資源得到充分利用。

實(shí)際上，這使得兩個(gè)線程能夠真正地在單個(gè)核心上同時(shí)運(yùn)行，而標(biāo)準(zhǔn)的SMT實(shí)現(xiàn)中，線程實(shí)際上是輪流在單個(gè)核心上運(yùn)行的。這自然對(duì)多租戶環(huán)境來說是一大優(yōu)勢。

英偉達(dá)將所有 88 個(gè)核心排列在一個(gè)域中，因此不存在 NUMA 架構(gòu)中常見的延遲問題，這與目前高核心數(shù)的 x86 競爭對(duì)手形成了鮮明對(duì)比。這顯著提升了延遲、可預(yù)測性、帶寬和可編程性。該公司尚未透露如何在保持每個(gè)核心足夠延遲的情況下實(shí)現(xiàn)這一壯舉的全部細(xì)節(jié)，但該芯片采用了新一代英偉達(dá)可擴(kuò)展一致性架構(gòu) (SCF)，這是一種基于 Arm CMN-700 一致性網(wǎng)狀網(wǎng)絡(luò)的網(wǎng)狀拓?fù)浣Y(jié)構(gòu)，該網(wǎng)絡(luò)也用于Grace 的 Arm Neoverse 核心。Arm 在其最新設(shè)計(jì)中已升級(jí)到更新的 Neoverse CMN S3 網(wǎng)狀網(wǎng)絡(luò)，Vera 很可能采用了該設(shè)計(jì)或其變體。

網(wǎng)狀網(wǎng)絡(luò)能夠?yàn)樗泻诵奶峁┝钊擞∠笊羁痰膬?nèi)存吞吐量，尤其是在某些核心比其他核心更需要帶寬的情況下。Grace 架構(gòu)支持 546 GB/s 的網(wǎng)狀內(nèi)存吞吐量，平均每個(gè)核心 7.6 GB/s。Vera 架構(gòu)在此基礎(chǔ)上翻了一番，帶寬達(dá)到 1.2 TB/s，這得益于 1.5TB SOCAMM LPPDDR5 內(nèi)存模塊（容量提升 3 倍），在滿載情況下，平均每個(gè)核心可達(dá) 13.6 GB/s。更重要的是，當(dāng)網(wǎng)狀網(wǎng)絡(luò)中的負(fù)載情況不一致時(shí)，該架構(gòu)現(xiàn)在支持單個(gè)核心最高 80 GB/s 的吞吐量，這對(duì)帶寬密集型線程來說是一個(gè)顯著的提升。

執(zhí)行路徑包括一個(gè) 10 寬的指令解碼單元、一個(gè)支持每個(gè)周期進(jìn)行兩次分支預(yù)測的神經(jīng)分支預(yù)測器、一個(gè)自定義的圖數(shù)據(jù)庫分析預(yù)取引擎和一個(gè) PyTorch 優(yōu)化的指令緩沖區(qū)。

該芯片全面支持機(jī)密計(jì)算，相比 Grace 芯片，這是一項(xiàng)顯著的進(jìn)步，可實(shí)現(xiàn)完全保護(hù)的 CPU+GPU 域。該 CPU 還配備了 NVLink-C2C 芯片間接口，吞吐量高達(dá) 1.8 TB/s，是 Grace 芯片 900 GB/s 互連速度的兩倍，比 PCIe 6.0 快七倍。此外，它還支持雙處理器 (2P) 配置。

總體而言，Vera 支持現(xiàn)代數(shù)據(jù)中心處理器所期望的全套技術(shù)，包括 PCIe 6.0 和 CXL 3.1 支持，但其計(jì)算設(shè)計(jì)以帶寬和延遲為重點(diǎn)，使其在 AI 工作流程中具有獨(dú)特的優(yōu)勢。

Grace 已成為許多英偉達(dá) GPU+CPU 系統(tǒng)的基本構(gòu)建模塊，包括一些地球上速度最快的 AI 超級(jí)計(jì)算機(jī)，但英偉達(dá)的擴(kuò)展目標(biāo)是利用 Vera 在純 CPU 機(jī)架中實(shí)現(xiàn)更廣泛的部署。

Vera CPU 機(jī)架通過 256 個(gè)液冷 Vera CPU、74 個(gè) Bluefield-4 DPU 和 ConnectX SuperNIC 網(wǎng)絡(luò)來實(shí)現(xiàn)這一目標(biāo)。該機(jī)架配備高達(dá) 400 TB 的 LPDDR5 內(nèi)存，總內(nèi)存吞吐量達(dá) 300 TB/s。這足以支持 45,056 個(gè)線程，據(jù) Nvidia 稱，這些線程可同時(shí)支持 22,500 個(gè)獨(dú)立運(yùn)行的 CPU 環(huán)境。

Nvidia 分享了各種工作負(fù)載的基準(zhǔn)測試結(jié)果，聲稱在腳本編寫、編譯、數(shù)據(jù)分析、圖分析和 HPC 工作負(fù)載等方面，其性能比 Grace 提高了 1.8 倍到 2.2 倍。

人們自然會(huì)認(rèn)為這套系統(tǒng)會(huì)部署在 Meta 公司，該公司最近宣布與英偉達(dá)合作開發(fā)純 CPU 系統(tǒng)，但英偉達(dá)表示，它還將向包括 Oracle、Coreweave、Nebius、阿里巴巴等在內(nèi)的超大規(guī)模數(shù)據(jù)中心運(yùn)營商提供 Vera CPU 機(jī)架系統(tǒng)。

眾多OEM和ODM廠商也將為更廣泛的市場提供單路和雙路服務(wù)器，以滿足各種應(yīng)用場景的需求，其中包括戴爾、HPE、聯(lián)想、超微、富士康等行業(yè)巨頭。Vera CPU也將用于Nvidia HGX NVL8系統(tǒng)。

或許最重要的是，這些機(jī)架還將成為英偉達(dá)更廣泛的 Vera Rubin 平臺(tái)的組成部分，該平臺(tái)總共包含七款芯片，包括 Rubin GPU、用于機(jī)架級(jí)互連的 NVLink6 交換機(jī)、用于網(wǎng)絡(luò)連接的 ConnectX-9 SuperNIC、Bluefield 4 DPU、Spectrum-X 102.4T 共封裝光交換機(jī)和英偉達(dá)的 Groq 3 LPU。

Vera CPU 目前已全面投產(chǎn)，預(yù)計(jì)將于今年下半年開始交付。

發(fā)布 Vera Rubin 太空模塊

在GTC 2026大會(huì)上，英偉達(dá)還發(fā)布了Vera Rubin太空模塊，聲稱其在軌道推理工作負(fù)載方面的AI計(jì)算能力是H100的25倍。據(jù)悉，已有六家商業(yè)航天公司部署了該平臺(tái)。

根據(jù)英偉達(dá)官方新聞稿，Vera Rubin 空間模塊專為在太空直接運(yùn)行 LLM 和高級(jí)基礎(chǔ)模型的軌道數(shù)據(jù)中心而設(shè)計(jì)，它采用緊密集成的 CPU-GPU 架構(gòu)和高帶寬互連，旨在實(shí)時(shí)處理來自太空儀器的大量數(shù)據(jù)流。

其次是Nvidia IGX Thor，它面向任務(wù)關(guān)鍵型邊緣環(huán)境，支持實(shí)時(shí)AI處理、功能安全、安全啟動(dòng)和自主運(yùn)行。與此同時(shí)，Nvidia Jetson Orin則采用最小尺寸設(shè)計(jì)，面向?qū)Τ叽?、重量和功耗（SWaP）有嚴(yán)格限制的衛(wèi)星，用于機(jī)載視覺、導(dǎo)航和傳感器數(shù)據(jù)處理。

回到地球上，Nvidia 將RTX PRO 6000 Blackwell系列服務(wù)器版 GPU 定位為地理空間智能工作負(fù)載，聲稱在分析大型圖像存檔時(shí)，其性能比傳統(tǒng)的基于 CPU 的批處理系統(tǒng)提升高達(dá) 100 倍。

英偉達(dá)表示，目前有六家公司正在軌道和地面環(huán)境中使用其平臺(tái)：Aetherflux、Axiom Space、Kepler Communications、Planet Labs PBC、Sophia Space 和 Starcloud。其中，Kepler 已在其衛(wèi)星星座中部署了 Jetson Orin，用于人工智能驅(qū)動(dòng)的數(shù)據(jù)管理。“英偉達(dá) Jetson Orin 將先進(jìn)的人工智能直接引入我們的衛(wèi)星，使我們能夠智能地管理和路由整個(gè)星座的數(shù)據(jù)，”該公司首席執(zhí)行官 Mina Mitry 在英偉達(dá)的官方新聞稿中表示。

去年十月，亞馬遜和藍(lán)色起源創(chuàng)始人杰夫·貝佐斯預(yù)測，軌道上千兆瓦級(jí)數(shù)據(jù)中心還需要10到20年才能建成，他認(rèn)為持續(xù)的太陽能發(fā)電和太空簡化的冷卻環(huán)境是其主要優(yōu)勢。英偉達(dá)的六家合作伙伴之一Starcloud已經(jīng)在建設(shè)其所謂的專用軌道數(shù)據(jù)中心，旨在運(yùn)行軌道上的訓(xùn)練和推理工作負(fù)載。

“太空計(jì)算，最后的疆界，已經(jīng)到來，”黃仁勛說道，“人工智能在太空和地面系統(tǒng)中的處理，能夠?qū)崿F(xiàn)實(shí)時(shí)感知、決策和自主性，將軌道數(shù)據(jù)中心轉(zhuǎn)變?yōu)榘l(fā)現(xiàn)的工具，將航天器轉(zhuǎn)變?yōu)樽灾鲗?dǎo)航系統(tǒng)。”

IGX Thor、Jetson Orin 和 RTX PRO 6000 Blackwell 服務(wù)器版現(xiàn)已上市。Vera Rubin 太空模塊尚未公布發(fā)布日期；英偉達(dá)表示將在“稍后”推出。

隨著這顆芯片的發(fā)布，Vera Rubin 成為英偉達(dá)迄今為止最具雄心的系統(tǒng)，它由五個(gè)機(jī)架系統(tǒng)中的七顆芯片組成。英偉達(dá)表示，與 x86 和 Hopper 相比，Vera Rubin 每秒可處理 7 億個(gè)token，而后者僅為 200 萬個(gè)。

英偉達(dá)的推理芯片危機(jī)

英偉達(dá)憑借其在人工智能芯片市場的主導(dǎo)地位，將其年收入從 2022 年的 270 億美元增長到去年的 2160 億美元——這一增長率使這家位于加利福尼亞州圣克拉拉的公司的市值達(dá)到了 4.5 萬億美元。

但自去年 10 月英偉達(dá)市值短暫突破 5 萬億美元大關(guān)以來，該公司一度火熱的股價(jià)已經(jīng)降溫，原因是人們擔(dān)心人工智能的熱潮被過分夸大了。

“對(duì)于科技行業(yè)來說，這真是一段令人膽戰(zhàn)心驚的時(shí)期，”韋德布什證券分析師丹·艾夫斯表示。

即使英偉達(dá)在 2 月下旬發(fā)布的季度報(bào)告遠(yuǎn)超分析師預(yù)期，且管理層也給出了樂觀的展望，但該公司股價(jià)仍比這些數(shù)據(jù)公布前下跌了 6%。

盡管分析師預(yù)計(jì)英偉達(dá)明年的收入將超過 3300 億美元，但隨著谷歌和 Facebook 的母公司 Meta Platforms 等其他科技巨頭試圖開發(fā)自己的處理器，該公司在人工智能芯片市場正面臨著第一個(gè)嚴(yán)峻的挑戰(zhàn)。

英偉達(dá)的潛在增長受到美國安全和貿(mào)易壁壘的制約，這些壁壘阻礙了該公司在中國銷售其先進(jìn)芯片的能力。

黃仁勛設(shè)想，英偉達(dá)將繼續(xù)在人工智能領(lǐng)域發(fā)揮重要作用，通過持續(xù)滿足市場對(duì)驅(qū)動(dòng)聊天機(jī)器人（如 OpenAI 的 ChatGPT 和谷歌的 Gemini）的芯片的狂熱需求，并擴(kuò)大其在推理處理器新興市場的影響力。

一旦人工智能工具經(jīng)過訓(xùn)練，推理芯片就能讓這項(xiàng)技術(shù)運(yùn)用所學(xué)到的知識(shí)并產(chǎn)生響應(yīng)——無論是編寫文檔還是創(chuàng)建圖像——其效率都比構(gòu)建大型語言模型時(shí)使用的處理器更高。

英偉達(dá)首席執(zhí)行官黃仁勛一直以來都宣稱，2026年將是推理能力主導(dǎo)人工智能的一年。在3月4日的投資者大會(huì)上，他承認(rèn)“我們現(xiàn)在看到的這種轉(zhuǎn)折點(diǎn)其實(shí)早已顯而易見，它本質(zhì)上是人工智能使用文件、訪問文件和使用工具的能力。”

“推理轉(zhuǎn)折點(diǎn)已經(jīng)到來，”黃仁勛強(qiáng)調(diào)。

英偉達(dá)目前面臨的挑戰(zhàn)是，其暢銷產(chǎn)品在推理計(jì)算方面的吸引力遠(yuǎn)不如在訓(xùn)練計(jì)算方面。用戶反映，其Grace Blackwell服務(wù)器能耗巨大，且內(nèi)存不足，無法讓AI模型快速高效地回答用戶查詢。

“英偉達(dá)現(xiàn)在處境很尷尬，”風(fēng)險(xiǎn)投資家、麻省理工學(xué)院數(shù)字經(jīng)濟(jì)計(jì)劃研究員保羅·凱德羅斯基表示。“很長一段時(shí)間以來，詹森一直說，‘我們不需要專用的獨(dú)立推理芯片，直接用Blackwell就行了。’但現(xiàn)在情況已經(jīng)不同了，而且涌現(xiàn)出了很多新的競爭對(duì)手。”

凱德羅斯基認(rèn)為，英偉達(dá)最近一個(gè)季度的毛利率高達(dá)73%，但由于兩個(gè)原因，其毛利率必然會(huì)下降。首先，推理計(jì)算的商業(yè)模式非常重視效率和降低最終產(chǎn)品的生產(chǎn)成本，而對(duì)于消費(fèi)者而言，最終產(chǎn)品指的是人工智能工具。其背后的硬件成本不能太高，否則無論是直接銷售還是作為中間商銷售的公司都無法盈利。

其次，由于更多芯片公司找到了降低芯片購買和運(yùn)營成本的方法，推理計(jì)算領(lǐng)域的競爭也更加激烈。英偉達(dá)憑借其硅芯片（相當(dāng)于速度快、性能強(qiáng)、價(jià)格昂貴的法拉利跑車）成為首家市值4萬億美元的公司，但如今，世界需要的是普銳斯和特斯拉Model Y這樣的“家用轎車”。

“所有這些推理方面的東西對(duì)詹森來說都極具威脅，因?yàn)檫@一切都是以效率為導(dǎo)向的，”凱德羅斯基說。“他正拼命想辦法將這個(gè)系列拓展到推理領(lǐng)域。”

于是，為了幫助其順利過渡到推理領(lǐng)域，英偉達(dá)與市場專家 Groq 達(dá)成了一項(xiàng)數(shù)十億美元的授權(quán)協(xié)議，其中包括聘用該初創(chuàng)公司的頂尖工程師。

“英偉達(dá)不會(huì)將任何市場份額讓給谷歌或Meta，”艾夫斯說道，他認(rèn)為英偉達(dá)的市值將在未來一年左右超過6萬億美元。

GPU不再是唯一主角

此外，還有其他跡象表明，英偉達(dá)正在將其重心從GPU轉(zhuǎn)向推理計(jì)算解決方案提供商。今年2月，Meta Platforms宣布將在其人工智能數(shù)據(jù)中心部署數(shù)千顆英偉達(dá)Vera CPU，這是英偉達(dá)人工智能系統(tǒng)首次大規(guī)模部署，且未使用GPU。人們越來越認(rèn)識(shí)到，推理計(jì)算可以使用CPU完成，并不一定需要英偉達(dá)的旗艦芯片。

據(jù)《華爾街日?qǐng)?bào)》報(bào)道，英偉達(dá)也計(jì)劃推出新的計(jì)算解決方案，該方案將采用多個(gè)獨(dú)立于GPU的CPU，類似于Meta的計(jì)劃。英特爾也計(jì)劃推出類似解決方案。

順便提一下，英特爾今天在圣何塞舉行的Nvidia GTC 2026 大會(huì)上宣布，其 Xeon 6 處理器將作為 Nvidia DGX Rubin NVL8 系統(tǒng)的主機(jī) CPU，從而擴(kuò)展了兩家公司此前在基于 DGX B300 Blackwell 的平臺(tái)上使用Xeon 6776P建立的 x86 合作關(guān)系。

DGX Rubin NVL8 是英偉達(dá)的下一代旗艦級(jí) AI 服務(wù)器系統(tǒng)。在該配置中，主機(jī) CPU 負(fù)責(zé)任務(wù)編排、內(nèi)存管理、調(diào)度以及向 GPU 加速器傳輸數(shù)據(jù)。隨著推理工作負(fù)載向智能體 AI 和推理系統(tǒng)轉(zhuǎn)變，這些功能對(duì)單核性能和內(nèi)存帶寬的要求越來越高。

回到GTC主題演講，黃仁勛將英偉達(dá)描述為“垂直整合但橫向開放”，這或許會(huì)引起美國聯(lián)邦貿(mào)易委員會(huì)的關(guān)注。無論如何，英偉達(dá)表示，鑒于其在加速計(jì)算領(lǐng)域的目標(biāo)——向客戶提供完整的技術(shù)棧——“別無他法”。與此同時(shí)，他還將英偉達(dá)描述為“垂直整合但橫向開放”，這或許會(huì)引起美國聯(lián)邦貿(mào)易委員會(huì)的關(guān)注。無論如何，英偉達(dá)表示，鑒于其在加速計(jì)算領(lǐng)域的目標(biāo)——向客戶提供完整的技術(shù)棧——“別無他法”。

在這次大會(huì)上，黃仁勛再次預(yù)告了下一代Feynman系統(tǒng)。該系統(tǒng)配備了全新的GPU、LPU、名為Rosa的全新CPU、Bluefield 5以及Kyber架構(gòu)，并支持銅纜和CPO擴(kuò)展。Feynman系統(tǒng)預(yù)計(jì)將于2028年發(fā)布。

在推理迅速崛起的當(dāng)下，英偉達(dá)能否繼續(xù)壟斷市場，我們邊走邊看，但黃仁勛以及英偉達(dá)肯定充滿信心。

因?yàn)檎缢f，“摩爾定律已經(jīng)失去了動(dòng)力，加速計(jì)算讓我們能夠取得巨大的飛躍。”

來源：半導(dǎo)體行業(yè)觀察

英偉達(dá)正式發(fā)布LPU，CPU重磅更新：GPU不再是GTC唯一主角

相關(guān)新聞：

英偉達(dá)正式發(fā)布LPU，CPU重磅更新：GPU不再是GTC唯一主角