五月天亚洲色图,亚洲手机在线无码不卡

7nm ARM核 CoWoS雙芯粒高性能SoC設(shè)計(jì)全流程

嘉峪檢測(cè)網(wǎng) 2026-04-23 09:00

采用CoWoS層的雙芯粒系統(tǒng)級(jí)封裝八核處理器。兩個(gè)相同的芯粒均采用7納米CMOS工藝實(shí)現(xiàn)，具有15個(gè)金屬層，并包含四個(gè)運(yùn)行在4.0 GHz的Arm Cortex-A72處理器核心。該研究為業(yè)界首個(gè)有源中介層2.5D集成原型，后被廣泛采納應(yīng)用。

Content

1 概述

2 芯粒設(shè)計(jì)與中介層集成

芯粒布圖規(guī)劃

CoWoS雙芯粒架構(gòu)

3 SoC設(shè)計(jì)（提要）

電源網(wǎng)格與標(biāo)準(zhǔn)單元協(xié)同優(yōu)化

模塊邊界、路徑組調(diào)整

門控時(shí)鐘延遲預(yù)測(cè)(ML)

R/C縮放因子調(diào)整

三級(jí)時(shí)鐘樹

通孔柱插入

SOCV

4 裸片間互連網(wǎng)格總線

雙向觸發(fā)器網(wǎng)格站

5 D2D互連

互連IO低功耗

頂層與通道分解

噪聲時(shí)鐘隔離

時(shí)序校準(zhǔn)

兩步式DLL

溫漂時(shí)鐘抖動(dòng)優(yōu)化

微凸塊布局

6 結(jié)果與小結(jié)

核心、總線、D2D互連性能

應(yīng)用與結(jié)論

01、概述

先進(jìn)的高性能計(jì)算處理器從大型單片SoC設(shè)計(jì)轉(zhuǎn)向采用小芯粒的異構(gòu)系統(tǒng)級(jí)封裝解決方案，追求更好的良率和更低的產(chǎn)品成本。多核架構(gòu)通常采用網(wǎng)格總線互連結(jié)構(gòu)，以提供多核、緩存子系統(tǒng)和機(jī)器學(xué)習(xí)加速器之間的連接。對(duì)于芯粒間通信，需要額外的接口電路來(lái)通過封裝內(nèi)互連傳輸數(shù)據(jù)，并管理跨芯片的時(shí)序變化。

研究采用具有15個(gè)金屬層的7納米CMOS工藝技術(shù)實(shí)現(xiàn)，并與晶圓上芯片襯底硅(CoWoS)中介層技術(shù)集成。大規(guī)模測(cè)試系統(tǒng)級(jí)封裝嘗試：

1) 演示Arm核心在高性能計(jì)算應(yīng)用中4.0 GHz的運(yùn)行；

2) 驗(yàn)證片上雙向互連網(wǎng)格總線在高于4.0 GHz頻率下、用于2毫米長(zhǎng)觸發(fā)器到觸發(fā)器傳輸?shù)脑O(shè)計(jì)和運(yùn)行；

3) 演示CoWoS跨中介層的芯粒間鏈路在8.0 Gb/s速率下的低功耗運(yùn)行，從而最小化因芯片劃分而產(chǎn)生的通信設(shè)計(jì)和功耗開銷。

02、芯粒設(shè)計(jì)與中介層

芯粒布圖規(guī)劃

每個(gè)芯粒包含四個(gè)Arm Cortex-A72 CPU核心，這些核心采用高性能標(biāo)準(zhǔn)單元庫(kù)（使用三個(gè)NMOS鰭和三個(gè)PMOS鰭）和專為4.0 GHz運(yùn)行優(yōu)化的定制設(shè)計(jì)L1緩存宏構(gòu)建。

還包含一個(gè)共享的2 MB L2緩存（高電流位單元），以半速運(yùn)行，以及一個(gè)共享的6 MB L3緩存（高密度位單元），以四分之一速運(yùn)行。

嵌入了一個(gè)雙向網(wǎng)格總線，觸發(fā)器間距為2毫米，環(huán)繞整個(gè)芯粒，用于高速片內(nèi)數(shù)據(jù)傳輸。右側(cè)邊緣有兩個(gè)芯粒間互連端口，左側(cè)邊緣有一個(gè)4.0 GHz全數(shù)字鎖相環(huán)。

CoWoS雙芯粒架構(gòu)

晶圓上芯片襯底是一種系統(tǒng)級(jí)封裝平臺(tái)，支持將多個(gè)芯片安裝到硅中介層上，隨后再附著到單個(gè)襯底封裝上。

由于中介層實(shí)現(xiàn)的微凸塊密度比封裝襯底高出約一個(gè)數(shù)量級(jí)，通過中介層的芯粒間連接提供了更高的通道密度，從而以更少的面積和功耗、更高的數(shù)據(jù)速率提供更高的總帶寬。（上圖）兩個(gè)相同芯粒的正面通過微凸塊鍵合安裝到晶圓上芯片襯底中介層芯片上。

一個(gè)芯粒旋轉(zhuǎn)180°，使得兩個(gè)芯粒上的低電壓封裝內(nèi)互連接口彼此相對(duì)，便于通過晶圓上芯片襯底中介層實(shí)現(xiàn)直接的超短距離電氣連接。電源、地和非關(guān)鍵信號(hào)通過晶圓上芯片襯底中介層芯片的背面C4凸塊訪問。硅通孔將中介層正面的微凸塊連接到背面的C4凸塊。

03、SoC設(shè)計(jì)提要

在7納米CMOS設(shè)計(jì)中，應(yīng)對(duì)互連寄生效應(yīng)尤其具有挑戰(zhàn)性。下圖為實(shí)現(xiàn)高速運(yùn)行的關(guān)鍵設(shè)計(jì)步驟。

電源網(wǎng)格與標(biāo)準(zhǔn)單元協(xié)同優(yōu)化

為支持CPU在4.0GHz運(yùn)行，同時(shí)限制片上IR壓降變化，采用超密集電源網(wǎng)格，從Metal-1到上層電源軌每隔八個(gè)接觸柵極間距就有一個(gè)連接。標(biāo)準(zhǔn)單元布局專門進(jìn)行了調(diào)整以支持這種超密集電源網(wǎng)格。每個(gè)單元內(nèi)部的垂直Metal-1布線足夠短，以避免靠近Metal-1電源網(wǎng)格連接短柱，并且這些軌道上不允許有引腳形狀，同時(shí)實(shí)現(xiàn)單元合法化。

模塊邊界

模塊邊界調(diào)整是物理感知的邏輯綜合，協(xié)同優(yōu)化邏輯結(jié)構(gòu)、關(guān)鍵數(shù)據(jù)流時(shí)序和引腳密度。每個(gè)模塊的大小由模塊中占主導(dǎo)地位的單元類型決定，模塊之間模塊邊界重疊的程度與它們之間的連接性和時(shí)序關(guān)鍵性相關(guān)。例如，稀疏的單元分布有利于包含大量復(fù)雜單元的模塊，而密集的單元分布則能為具有簡(jiǎn)單單元的邏輯路徑帶來(lái)更好的性能。

高度耦合的模塊也需要比那些幾乎不相互作用的模塊有更多的模塊邊界重疊。上圖中通過模塊邊界優(yōu)化，實(shí)現(xiàn)單元布局分布，應(yīng)用模塊邊界調(diào)整使CPU工作頻率提高了12%。

路徑組調(diào)整

現(xiàn)代綜合工具中的邏輯優(yōu)化是"成本驅(qū)動(dòng)"的，它試圖最小化"整體設(shè)計(jì)成本"以實(shí)現(xiàn)盡可能最佳的整體性能。邏輯綜合期間的路徑組調(diào)整將根據(jù)靜態(tài)時(shí)序分析報(bào)告識(shí)別關(guān)鍵時(shí)序路徑，并將它們提取到不同的子組中。算法可以調(diào)整這些路徑組的成本權(quán)重，直到無(wú)法進(jìn)一步改善最差時(shí)序路徑組。

門控時(shí)鐘延遲預(yù)測(cè)(ML)

為了在單元布局階段確保良好的時(shí)序收斂，寄存器到集成時(shí)鐘門控路徑通常在綜合期間被過度約束，假設(shè)集成時(shí)鐘門控的時(shí)鐘到達(dá)時(shí)間比其他寄存器時(shí)鐘匯點(diǎn)早得多。這種過度設(shè)計(jì)可能會(huì)消耗過多的設(shè)計(jì)資源，而這些資源本可用于其他電路。

通過機(jī)器學(xué)習(xí)方法，對(duì)每個(gè)集成時(shí)鐘門控應(yīng)用適當(dāng)?shù)募s束，留下更多資源來(lái)優(yōu)化"真正的"關(guān)鍵路徑，并減少設(shè)計(jì)迭代次數(shù)。上圖中訓(xùn)練一個(gè)隨機(jī)森林預(yù)測(cè)器，使用與集成時(shí)鐘門控本地時(shí)鐘結(jié)構(gòu)相關(guān)的許多特征（CTS階段后的CPU數(shù)據(jù)庫(kù)），來(lái)預(yù)測(cè)集成時(shí)鐘門控相對(duì)于其他寄存器匯點(diǎn)的時(shí)鐘到達(dá)時(shí)間。

R/C縮放因子調(diào)整

RC在先進(jìn)CMOS技術(shù)中是邏輯優(yōu)化的同義詞。有多種方法可以進(jìn)一步優(yōu)化關(guān)鍵路徑，例如調(diào)整大小、分解、重新布局、復(fù)制、重定時(shí)和負(fù)載拆分。RC效應(yīng)以及通孔和金屬使用之間的權(quán)衡決定了所選優(yōu)化方法的優(yōu)先級(jí)和趨勢(shì)。下圖中，長(zhǎng)距離傳輸路徑會(huì)選擇分離的邏輯來(lái)分擔(dān)部分傳輸距離，以最小化連線負(fù)載RC。

而當(dāng)輸入和輸出彼此靠近時(shí)，優(yōu)化會(huì)選擇組合邏輯以最小化使用通孔帶來(lái)的RC效應(yīng)。盡管邏輯綜合工具聲稱具有物理感知能力，但在沒有適當(dāng)RC縮放因子的情況下，工具對(duì)最終邏輯結(jié)構(gòu)的估計(jì)與實(shí)際布線后寄生效應(yīng)之間仍存在顯著差距。本案應(yīng)用RC縮放調(diào)整的自動(dòng)化，長(zhǎng)路徑被更均勻地分布，復(fù)雜單元被分解，從而帶來(lái)整體速度的提升。

三級(jí)時(shí)鐘樹

用三級(jí)時(shí)鐘樹架構(gòu)進(jìn)行時(shí)鐘樹綜合（下圖）。

構(gòu)建H樹來(lái)驅(qū)動(dòng)預(yù)布局的時(shí)鐘網(wǎng)格驅(qū)動(dòng)器，這些驅(qū)動(dòng)器均勻分布在CPU布局中，以支持統(tǒng)一的寄存器時(shí)鐘匯點(diǎn)。選擇H樹設(shè)計(jì)以實(shí)現(xiàn)到每個(gè)網(wǎng)格驅(qū)動(dòng)器最平衡的到達(dá)時(shí)間。

接收器驅(qū)動(dòng)器的輸出通過一個(gè)穩(wěn)健的金屬網(wǎng)格連接，以最小化每個(gè)H樹分支之間的片上變化，從而實(shí)現(xiàn)真正低的偏差。

從網(wǎng)格抽頭構(gòu)建一個(gè)局部的、淺層的、低偏差時(shí)鐘樹，將時(shí)鐘分發(fā)到附近的寄存器匯點(diǎn)。成功地將CPU內(nèi)部和頂層片上網(wǎng)絡(luò)應(yīng)用的時(shí)鐘偏差開銷分別降低到8 ps和14 ps，從而在兩種情況下都實(shí)現(xiàn)了4.0 GHz的性能。

通孔柱插入

通孔柱在布線階段插入（下圖）。對(duì)于具有顯著電容性負(fù)載的強(qiáng)驅(qū)動(dòng)器，連接驅(qū)動(dòng)器輸出到負(fù)載的低層通孔和金屬具有極高的電阻，常常限制這些驅(qū)動(dòng)器有效地傳遞電流。

為了減輕高電阻，插入了由并行通孔和小型金屬網(wǎng)格簇組成的"通孔柱"，以較低電阻將這些強(qiáng)驅(qū)動(dòng)器的輸出連接到其上層的布線負(fù)載。通孔柱確實(shí)會(huì)消耗大量布線資源，它們可能跨多個(gè)層阻擋多條布線軌道。顧通孔柱通常謹(jǐn)慎使用，以免耗盡用于修復(fù)其他時(shí)序問題的金屬資源，特點(diǎn)情況下需要判定布線后的時(shí)序收斂是否減少關(guān)鍵路徑延遲，是否最小通孔柱插入節(jié)省布線資源。

統(tǒng)計(jì)性片上擾動(dòng)(SOCV)

統(tǒng)計(jì)片上變化(SOCV)提供了更高的整體設(shè)計(jì)精度，因?yàn)椴辉賹?duì)芯片內(nèi)片上變化裕度在電路結(jié)構(gòu)或單元類型/上下文方面做出隱含假設(shè)。對(duì)于給定的工藝、電源電壓和溫度角條件、轉(zhuǎn)換速率以及來(lái)自其庫(kù)變化格式 (LVF, Liberty Variation Format)庫(kù)的負(fù)載查找表，每個(gè)單元實(shí)例都有其自身的變化裕度，特性作為7納米PDK的一部分可用。

與傳統(tǒng)的平坦OCV方法（無(wú)論時(shí)序關(guān)鍵性如何，都基于使用的最弱單元類型對(duì)電路的所有部分施加統(tǒng)一的裕度）相比，SOCV已通過相互印證SPICE仿真結(jié)果得到驗(yàn)證。下圖中應(yīng)用SOCV通過消除頂部關(guān)鍵路徑以及一般路徑中的悲觀裕度，獲得了130 MHz的速度增益，反過來(lái)又釋放了設(shè)計(jì)資源用于優(yōu)化關(guān)鍵路徑。

04、裸片間互連網(wǎng)格總線

片上網(wǎng)格互連對(duì)于大規(guī)模設(shè)計(jì)中的高速數(shù)據(jù)傳輸至關(guān)重要。（下圖）每個(gè)芯粒有六個(gè)雙向觸發(fā)器網(wǎng)格站：每個(gè)邊緣一個(gè)，中間兩個(gè)，間距為2毫米。這些網(wǎng)格站通過網(wǎng)格總線結(jié)構(gòu)連接，環(huán)繞整個(gè)小芯片。

網(wǎng)格總線寬1968位，采用P256（256納米間距）金屬層，以三層間距在Metal-12和13中布線。布線與相鄰信號(hào)以位為單位交錯(cuò)，且方向相反，以最大限度地減少耦合。緩存和核心集群均連接到最近的左下網(wǎng)格停止點(diǎn)。該互連通過頂部片上數(shù)據(jù)包生成單元和底部數(shù)據(jù)包監(jiān)控單元進(jìn)行測(cè)試。

05、D2D互連

為了降低芯片劃分的開銷，芯粒間互連必須高速、低功耗運(yùn)行，同時(shí)占用較小面積。此外，由于總帶寬需求取決于芯片劃分的選擇，芯粒間互連的設(shè)計(jì)模塊化對(duì)于可擴(kuò)展性至關(guān)重要。設(shè)計(jì)采用LIPINCON物理層(PHY)，用于兩個(gè)芯粒之間的點(diǎn)對(duì)點(diǎn)封裝內(nèi)通信。

互連IO低功耗

互連IO驅(qū)動(dòng)器主導(dǎo)了芯粒間互連的能效，不僅需要高速驅(qū)動(dòng)CoWoS中介層中的長(zhǎng)走線，還需要考慮靜電放電保護(hù)。下圖采用低功耗概念——采用單端、單向的點(diǎn)對(duì)點(diǎn)IO接口，具有低擺幅信號(hào)傳輸。使用僅NMOS輸出驅(qū)動(dòng)器，并為發(fā)送器提供較低的驅(qū)動(dòng)器電源，提供從零到VDDQ的軌到軌擺幅。

接收器選用基于時(shí)鐘的感測(cè)放大器，具有VDDQ跟蹤的切片閾值電壓?？缧玖５男盘?hào)將在IO上被捕獲，從而為平衡緩沖器節(jié)省功耗。驅(qū)動(dòng)器強(qiáng)度的設(shè)計(jì)考慮了目標(biāo)數(shù)據(jù)速率8.0Gb/s以及焊盤、ESD、驅(qū)動(dòng)器和互連布線貢獻(xiàn)的總電容負(fù)載。基于亞毫米級(jí)的中介層通道走線長(zhǎng)度，仿真表明，雖然未端接的接收器會(huì)產(chǎn)生適度的反射從而影響信號(hào)完整性，但可以節(jié)省大量的靜態(tài)功耗。

在寬總線應(yīng)用中使用高速單端信號(hào)傳輸時(shí)，還考慮同時(shí)開關(guān)輸出噪聲?；?20位寬IO同時(shí)以偽隨機(jī)二進(jìn)制序列模式切換，在HSPICE中仿真了電磁干擾。局部添加了足夠的去耦電容，以維持所需數(shù)據(jù)眼圖張開度所需的足夠電源完整性。

頂層與通道分解

下圖顯示LIPINCON接口的頂層架構(gòu)。每個(gè)芯粒包含兩個(gè)LIPINCON通道：一個(gè)用作CPU下行通信到L3緩存的主設(shè)備，另一個(gè)用作反向數(shù)據(jù)流的從設(shè)備。每個(gè)通道包含四個(gè)子通道。每個(gè)子通道包含20個(gè)發(fā)送數(shù)據(jù)位和20個(gè)接收數(shù)據(jù)位，帶有一個(gè)互補(bǔ)的半速轉(zhuǎn)發(fā)時(shí)鐘數(shù)據(jù)選通。

交流數(shù)據(jù)總線反轉(zhuǎn)通過將并發(fā)數(shù)據(jù)翻轉(zhuǎn)限制在不超過一半的數(shù)據(jù)通道上，來(lái)減輕同時(shí)開關(guān)輸出噪聲。保留用于通用應(yīng)用，有效信號(hào)用于指示有效數(shù)據(jù)包?？偩酆蠋挒?20 GB/s，通過總共320個(gè)互連位實(shí)現(xiàn)，每個(gè)位以8.0 Gb/s運(yùn)行。

噪聲時(shí)鐘隔離

在大規(guī)模的設(shè)計(jì)中，由于時(shí)鐘分布樹較長(zhǎng)，每個(gè)芯粒中的時(shí)鐘將包含噪聲。每個(gè)LIPINCON通道都有一個(gè)專用的PLL，作為干凈的本地時(shí)鐘源，與芯粒其余部分使用的噪聲時(shí)鐘隔離。

時(shí)序校準(zhǔn)

除了芯粒核心與LIPINCON之間的相位偏差外，通過捕獲8.0 Gb/s IO信號(hào)來(lái)節(jié)省功耗還引入了另一個(gè)PVT變化源——芯粒到芯粒的變化。數(shù)據(jù)/時(shí)鐘從一個(gè)芯片以邊沿對(duì)齊的關(guān)系發(fā)送。來(lái)自不同PVT變化的額外時(shí)鐘延遲將被校準(zhǔn)，提供精確的90°相移，以便在眼圖中心捕獲數(shù)據(jù)。

每個(gè)子通道有兩個(gè)內(nèi)置的DLL模塊。DLL-Deskew用于對(duì)齊每個(gè)芯粒核心和LIPINCON之間的時(shí)鐘相位。DLL-R90可以補(bǔ)償跨芯粒的PVT變化，并提供精確的90^°相移，以保證居中的數(shù)據(jù)捕獲。兩個(gè)DLL可以獨(dú)立運(yùn)行。

兩步式DLL

分發(fā)多相時(shí)鐘會(huì)消耗大量功耗，并且隨著互連技術(shù)的擴(kuò)展，維持相位偏差很困難。為了使每個(gè)子通道易于擴(kuò)展。啟用一種兩步式DLL，使得DLL只需要一個(gè)與絕對(duì)偏差無(wú)關(guān)的單一PLL時(shí)鐘相位。

第一個(gè)環(huán)路用作本地多相發(fā)生器，鎖定到輸入的時(shí)鐘周期，將其分成八個(gè)等間隔的相位。每個(gè)延遲級(jí)采用具有弱交叉耦合的靜態(tài)CMOS偽差分緩沖器設(shè)計(jì)。邊沿速率可以通過可變電容器負(fù)載進(jìn)行調(diào)整。

第二個(gè)環(huán)路是一個(gè)靜態(tài)相位插值器，將來(lái)自第一個(gè)環(huán)路的兩個(gè)連續(xù)相位進(jìn)一步細(xì)分為16種可能的相位，從而在4.0 GHz下實(shí)現(xiàn)小于2 ps的平均相位分辨率。兩個(gè)環(huán)路都有有限狀態(tài)機(jī)控制的數(shù)字低通濾波器。通過相應(yīng)地設(shè)置配置，同一個(gè)DLL可以用于兩種應(yīng)用。在DLL-Deskew中，鑒相器代表圖中的PD2。

芯粒時(shí)鐘連接到DLL-Deskew的FREF引腳，作為DLL的目標(biāo)相位。DLL-Deskew中高亮的SoC/CPU時(shí)鐘樹模擬了內(nèi)部時(shí)鐘樹分布的插入延遲。DLL將相應(yīng)地延遲本地PLL的時(shí)鐘相位以進(jìn)行對(duì)齊。時(shí)鐘再生后，從PLL到每個(gè)子通道的絕對(duì)時(shí)鐘相位無(wú)關(guān)緊要。

在DLL-R90中，目標(biāo)90°相位由DLL第一個(gè)環(huán)路作為參考生成，將FOUT90直接連接到FREF。DLL-R90環(huán)路內(nèi)不僅有一個(gè)主數(shù)控延遲線，在接收時(shí)鐘分配路徑中還有一個(gè)從數(shù)控延遲線。在DLL將其相位調(diào)整到90°后，DLL-R90將向從數(shù)控延遲線發(fā)送鎖定碼。

溫漂時(shí)鐘抖動(dòng)優(yōu)化

即使接收數(shù)據(jù)可以通過具有90°相移的輸入數(shù)據(jù)選通成功捕獲，解復(fù)用的數(shù)據(jù)也需要由另一個(gè)本地PLL同步。然而，考慮到大型SiP中參考時(shí)鐘分配路徑的顯著偏差，不同芯片間的長(zhǎng)期溫度漂移將導(dǎo)致LIPINCON接收器時(shí)鐘域與本地目標(biāo)芯粒時(shí)鐘域之間的抖動(dòng)跟蹤不良。因此，插入了一個(gè)接收器FIFO來(lái)吸收這種不相關(guān)的抖動(dòng)。FIFO深度是可編程的，并且可以根據(jù)硅片結(jié)果進(jìn)行優(yōu)化。

微凸塊布局

下圖展示整個(gè)芯粒的微凸塊和探針焊盤布局規(guī)劃，具有500μm長(zhǎng)的匹配CoWoS芯粒間互連走線。在每條走線8.0Gb/s速率下，通過320位數(shù)據(jù)總線集群實(shí)現(xiàn)了1.6Tb/s/mm²的總聚合帶寬密度。通過一排虛擬微凸塊，當(dāng)芯片B是芯片A簡(jiǎn)單旋轉(zhuǎn)180°時(shí)，微凸塊布局規(guī)劃集群的旋轉(zhuǎn)對(duì)稱性便于直接的點(diǎn)對(duì)點(diǎn)布線。

06、結(jié)果與小結(jié)

處理器核心在4.05GHz和1.0V下為HPC應(yīng)用運(yùn)行Dhrystone模式時(shí)的測(cè)量shmoo結(jié)果。數(shù)據(jù)包從內(nèi)置自測(cè)試包生成器發(fā)送，并由相距4mm的兩個(gè)網(wǎng)格站點(diǎn)的包監(jiān)視器接收。在VDD_SOC為0.75 V時(shí)，達(dá)到了4.0 GHz的目標(biāo)運(yùn)行速度。

跨芯粒進(jìn)行讀/寫測(cè)試時(shí)8.0 Gb/s芯片到芯片互連的shmoo中，基于0.75V的VDD_SOC、用于低擺幅的0.30 V VDDQ，以及320位同時(shí)翻轉(zhuǎn)的PRBS數(shù)據(jù)，在標(biāo)稱0.80 V的VDD_LIPINCON下實(shí)現(xiàn)了8.0 Gb/s的數(shù)據(jù)速率。即使提高VDD_LIPINCON，頻率性能也受到芯粒時(shí)鐘的限制，停留在8.0 Gb/s。

當(dāng)VDDQ一路掃描低至0.10 V時(shí)，仍可實(shí)現(xiàn)高達(dá)8.0 Gb/s的數(shù)據(jù)速率。由于0.30 V的低擺幅是降低功耗的關(guān)鍵，這也使得IO在高速和寬總線應(yīng)用中對(duì)同時(shí)開關(guān)輸出噪聲更加敏感。

下圖顯示了從嵌入式眼圖掃描功能導(dǎo)出的眼圖，因?yàn)橥箟K間距太小，無(wú)法直接探測(cè)觀察。憑借2 ps/步的DLL分辨率和9.4mV/"步" 的VREF分辨率，在8.0 Gb/s速率和0.30 V擺幅下，測(cè)量到的眼圖實(shí)現(xiàn)了244mV的眼高和0.69UI的眼寬。

這也證明了，基于最左和最右無(wú)誤差DCDL碼，DLL-R90與最佳采樣碼的偏差在±1鎖定碼之內(nèi)。

下圖展示堆疊后的封裝照片和芯粒照片。CoWoS中介層上安裝了兩個(gè)相同的芯粒，微凸塊間距為40μm。芯片到芯片的間距僅為100μm；因此，兩個(gè)芯片看起來(lái)非常接近。每個(gè)芯粒尺寸為4.4mm×6.2mm，每個(gè)LIPINCON通道占用0.42mm×2.4mm。

為了降低芯片劃分的開銷，芯粒間LIPINCON接口提供了1.6Tb/s/mm²的帶寬密度，能效為0.56pJ/bit，并且是模塊化的，易于擴(kuò)展。芯粒間互連在0.3V信號(hào)擺幅下，以86 ps的眼寬和244mV的眼高運(yùn)行。利用CoWoS集成的超短距離通道，數(shù)據(jù)速率可以推高到8Gb/s，且功耗和面積開銷相對(duì)較低。

小結(jié)

采用7nm CMOS工藝、與2.5D CoWoS中介層技術(shù)集成的雙芯粒處理器。構(gòu)建HPC處理器的三項(xiàng)關(guān)鍵技術(shù)得到了驗(yàn)證：Arm核心運(yùn)行在4.0GHz，片上網(wǎng)格總線以相同速度運(yùn)行，以及芯粒間連接在8.0Gb/s速率下運(yùn)行。通過320位寬的數(shù)據(jù)總線，每個(gè)引腳以8.0Gb/s運(yùn)行，實(shí)現(xiàn)了320GB/s的總聚合帶寬。有源中介層集成自此開啟了一種新的范式。

參考文獻(xiàn)

MS.Lin, A 7-nm 4-GHz Arm1-Core-Based CoWoS1 Chiplet Design for High-Performance Computing

related materials

來(lái)源：IC后摩號(hào)

7nm ARM核 CoWoS雙芯粒高性能SoC設(shè)計(jì)全流程

相關(guān)新聞：