华为:逻辑折叠将大幅提升麒麟CPU焦点频率
文/观网硬科技
凭证中国科学院科技论文预宣布平台ChinaXiv,,,,,,华为手艺有限公司董事、半导体营业部总裁何庭波于7月3日宣布《面向多层级电子系统的时间缩微理论》(韬定律)V2 版本。。。。。。新版论文在原有理论框架基础上,,,,,,增补了大宗工程落地细节、实丈量化数据与产品演进蹊径,,,,,,进一步完善了以时间常数τ为焦点的后摩尔时代缩放理论系统。。。。。。
凭证论文披露的数据显示,,,,,,与2025年的麒麟9030 Pro基线相比,,,,,,麒麟2026接纳了LogicFolding双层逻辑折叠,,,,,,使得晶体管密度从155MTr/mm?大幅提升至238MTr/mm?,,,,,,提升了约53.5%,,,,,,而这一提升幅度以往需要三年的几何微缩才华实现。。。。。。
何庭波在论文中提到,,,,,,未来十年间,,,,,,逻辑折叠预计将从局部的要害路径折叠演进为周全的、多层级的折叠——每个封装内将集成三层、四层以致更多的有源层。。。。。。
这一演进由低温混淆键合手艺(放宽了各层之间的热预算限制)以及硅通孔(TSV)着陆点从顶层金属逐步下移至M6层所推动,,,,,,此举将释放凌驾30%的高层布线资源。。。。。。从2026年到2035年,,,,,,晶体管密度预计将向400MTr/mm?及更高水平迈进。。。。。。
与此同时,,,,,,LogicFolding(逻辑折叠)使麒麟芯片能够大幅提升CPU焦点频率,,,,,,并为迈向4GHz及更高频率铺平蹊径。。。。。。该蹊径图是切实可行的,,,,,,并且在本钱方面具有经济可行性。。。。。。
“热治理仍然是LogicFolding架构中的要害挑战。。。。。。为解决此问题,,,,,,我们接纳了热感知分区和结构妄想战略。。。。。。在设计阶段,,,,,,我们有意识地阻止折叠高功耗电路,,,,,,并从结构上防止高功耗子系统的空间相邻。。。。。。”论文中写道。。。。。。
“前方的蹊径图要求很高,,,,,,但偏向是明确的。。。。。。”何庭波体现,,,,,,将τ缩放(韬定律)形貌为一个已完成的系统会具有误导性。。。。。。几个实质性问题仍然悬而未决,,,,,,包括工具链和要领论、晶圆间工艺转变和笔直互连开销。。。。。。
她坦言,,,,,,未来十年的事情规模已经明确。。。。。。许多开放问题仍然保存,,,,,,没有任何一个组织能够单独解决它们——工具链、标准、基准测试、器件物理和经济模子都需要来自任何一家公司之外的孝顺。。。。。。因此,,,,,,本文既是一份来自实践一线的报告,,,,,,也是一份约请。。。。。。
以下为何庭波《多层电子系统的时间缩放理论》论文
六十年来,,,,,,摩尔定律的几何缩放一直驱动着半导体行业的前进。。。。。。然而,,,,,,这一行业左券已不再建设:纯粹依赖缩小尺寸带来的回报已经趋于平缓,,,,,,前沿芯片的设计预算已凌驾每颗10亿美元,,,,,,并且在最先进节点上,,,,,,单位晶体管的本钱也不再下降。。。。。。本文提出了一种新的缩放原理——τ缩放——该原理接纳时间自己,,,,,,而非晶体管面积,,,,,,作为权衡前进的主要指标,,,,,,将简单的特征时间常数τ作为横跨十二个数目级的统一优化目的,,,,,,从晶体管的开关速率到数据中心的负载响应均适用。。。。。。
本文展示了两个生产级规模的验证案例。。。。。。在一款移动SoC上,,,,,,LogicFolding(逻辑折叠,,,,,,一种将数字、模拟和存储电路分区并笔直堆叠在多层有源层中的要领论)在牢靠工艺节点下,,,,,,实现了晶体管密度55% 的阶跃式提升,,,,,,并在一律性能下将功耗降低了41%。。。。。。在AI系统方面,,,,,,通过协同设计的、包括内存语义的统一总线架构、近封装的光I/O以及边沿到外貌的3D折叠手艺,,,,,,预期到2035年可实现凌驾100倍的硬件集成度增添。。。。。。
更深入的叙述在于其要领论层面:τ缩放是继邓纳德缩放之后,,,,,,第一个为整个盘算客栈建设统一优化目的的缩放原理。。。。。。
一、小序
自二十世纪六十年月中期以来,,,,,,半导体行业一直以纳米为单位权衡前进。。。。。。每十八个月,,,,,,晶体管尺寸缩小、频率上升、每个逻辑门的本钱下降。。。。。。摩尔定律既是一个履历视察,,,,,,也资助建设了一个行业左券,,,,,,整个盘算客栈都建设在此之上。。。。。。然而,,,,,,这个行业左券已不再建设。。。。。。在7纳米节点之后,,,,,,几何缩放不再带来其历史上的盈利。。。。。。光刻工具正靠近物理极限,,,,,,极紫外(EUV)光刻的折旧在晶圆本钱中占有主导职位,,,,,,单位晶体管的本钱曲线已经趋于平缓,,,,,,在某些情形下甚至泛起逆转。。。。。。关于那些获取最先进光刻手艺受限的组织而言,,,,,,这一限制更早地成为瓶颈,,,,,,并爆发了更严重的影响。。。。。。
因此,,,,,,行业的焦点问题已经爆发了转变。。。。。。它不再是“晶体管还能缩小几多???”而是“应该缩放什么,,,,,,以及针对什么目的???”
在已往的六年里,,,,,,作者在华为海思的团队在移动SoC、AI加速器、系统互联和封装领域对这一问题举行了硅片层面的研究。。。。。。结论是,,,,,,谜底不在于一个新的节点,,,,,,也不在于一种新的晶体管架构,,,,,,而在于优化目的自己的改变。。。。。。本文以为,,,,,,未来十年电子系统的演进不应由几何缩放来指导,,,,,,而应由时间缩放——即系统性地镌汰客栈每一层的一个简单特征时间常数τ——来指引,,,,,,从皮秒级开关的晶体管到秒级响应的数据中心负载。。。。。。
下文将从科学要领论和工业蹊径图两个角度叙述τ缩放的理论,,,,,,并借鉴了2020年5月至2026年5月时代381颗量产芯片的履历教训。。。。。。
二、几何时代的终结
在其历史的大部分时间里,,,,,,半导体行业只有一个使命:把晶体管做得更小。。。。。。戈登·摩尔在1965年的视察——晶体管密度约莫每两年翻一番——在十年后获得了罗伯特·邓纳德的缩放理论的增补,,,,,,该理论确立了按比例缩小电压和尺寸可以维持恒定电场。。。。。。几何缩放与邓纳德缩放相连系,,,,,,在近五十年的时间里,,,,,,为单位功耗性能和单位整天性能带来了指数级的提升。。。。。。
这种名堂分两个阶段瓦解。。。。。。约莫在2005年,,,,,,邓纳德缩放首先失效:电压不再随特征尺寸按比例缩小,,,,,,暗硅时代最先。。。。。。几何缩放则一连得更久一些,,,,,,由FinFET及随后的围绕栅极(GAA)器件架构维持。。。。。。然而,,,,,,在7纳米之后,,,,,,纯粹依赖尺寸缩放的回报已经趋于平缓。。。。。。其原因现在已有充分纪录:速率饱和将本征延迟对沟道长度的依赖从二次关系降为线性关系;;;;局部互连的寄生电阻和电容在标准单位延迟预算中占有主导职位;;;;掩模本钱、EUV折旧以及设计规则重大性已将2纳米节点的前沿芯片设计预算推高至每颗芯片凌驾10亿美元。。。。。。
其经济效果同样不可阻止。。。。。。先进节点的单位晶体管本钱已经趋于平缓,,,,,,而在最前沿,,,,,,本钱正在上升。。。。。。支持了已往五十年的行业左券——每一代都以更低本钱提供更多晶体管——已不复保存。。。。。。
关于华为海思而言,,,,,,这一转变陪同着一个特另外约束:获取最先进光刻工具受限。。。。。。指望另一个节点能解决问题已不再可行。。。。。。六年前,,,,,,几何蹊径图趋于平缓,,,,,,迫使我们面临一个更基础的问题——这个问题,,,,,,回过头来看,,,,,,整个行业最终都将不得不面临。。。。。。
三、时间,,,,,,而非空间:摩尔时代的真正通货
究其对终端用户的焦点影响,,,,,,摩尔定律从基础上讲历来都不是关于几何尺寸的。。。。。。晶体管变小提升了系统性能,,,,,,是由于它们开关速率更快。。。。。。;;;チ涞酶缂嵘诵阅,,,,,,是由于信号传输距离更短。。。。。。更高的集成度提升了性能,,,,,,是由于数据跨越的界线更少。。。。。。每一代产品所交付的,,,,,,实质上都是时间的缩短——在器件层面是皮秒到纳秒,,,,,,在芯片层面是纳秒到微秒,,,,,,在系统层面是微秒到秒。。。。。。??占渌醴沤鼋鍪茄顾跏奔涞氖侄。。。。。。
一旦熟悉到这一点,,,,,,一个显着的重新构架便浮现出来:时间自己应被接纳为主要指标。。。。。。??梢栽诳驼坏拿恳徊恪骞堋⒌缏贰⑿酒拖低场缢狄桓鎏卣魇奔涑J,,,,,,并将其缩减作为统一的优化目的。。。。。。几何缩放随后成为缩减τ的众多手艺之一,,,,,,而非唯一的手艺。。。。。。
这一原理被称为τ缩放,,,,,,本文提出将其作为几何摩尔缩放的后继者,,,,,,成为半导体演进的指导原则。。。。。。形式上,,,,,,τ被视为一个分层结构,,,,,,可剖析为:
τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)
其中τ_transistor,,,,,, τ_circuit,,,,,, τ_chip,,,,,, 和 τ_system 划分代表晶体管、电路、芯片和系统层的时间常数。。。。。。每一层的τ由其下层τ以及该层引入的组织和通讯开销配合组成。。。。。。如图1所示,,,,,,τ的事情空间在时间维度上跨越约十二个数目级(皮秒到秒),,,,,,在空间维度上跨越相当的规模(纳米到公里)。。。。。。在每一层,,,,,,都有差别的机制可用于缩减τ:
·晶体管:本征开关延迟,,,,,,通过迁徙率增强、应变工程、高κ/金属栅极和GAA架构来解决,,,,,,并且日益需要通过镌汰局部互连的寄生电阻和电容来解决,,,,,,后者现在已凌驾本征传输时间数倍。。。。。。
·电路:信号路径上的RC撒播延迟,,,,,,通过更低电阻率的导体、低κ电介质,,,,,,以及——最主要地——通过笔直集成镌汰线长来解决。。。。。。
·芯片:盘算和内存会见延迟,,,,,,通过架构选择、流水线深度、存储条理和片上互联来解决。。。。。。
·系统:端到端的新闻转达和同步时间,,,,,,通过互联拓扑、协议栈和架构设计来解决。。。。。。
[图1:τ缩放的事情空间在时间和空间维度上跨越12个数目级,,,,,,并划分为四个条理:晶体管、电路、芯片和系统。。。。。。] 从这个分层公式中可以得出一个有用的代际规则:τ_n+1 = τ_n / α其中下标n和n+1划分体现目今代和下一代。。。。。。凭证差别行业部分的市场压力和优化优先级差别,,,,,,我们以为年度缩放因子是应用特定的,,,,,,而非通用的。。。。。。差别的行业部分由于奇异的应用约束,,,,,,需要差别的加速因子。。。。。。我们展望,,,,,,未来十年,,,,,,受功耗和散热预算限制的移动装备,,,,,,其年度缩放因子约为1.3;;;;需要清静要害实时响应的自动驾驶系统约为1.5;;;;而吞吐量直接转化为经济价值的人工智能(AI)令牌天生则可高达10。。。。。。τ之以是能成为一个有用的主要指标,,,,,,而不但仅是对现有指标的重新命名,,,,,,是由于它是整个客栈中相同的指标。。。。。。频率、延迟、带宽和吞吐量都受其各自层级的τ支配。。。。。。工艺工程师、电路设计师和系统架构师可以用相同的单位来讨论统一个量。。。。。。τ是能够实现端到端客栈协同优化的语言——而各层自力优化、时序仅作为事后考量而泛起的时代已经竣事。。。。。。四、LogicFolding:一个移动SoC的验证案例 τ缩放的首次生产级规模测试是在移动领域举行的。。。。。。智能手机SoC是一个特例,,,,,,由于一颗芯片就组成了整个系统。。。。。。多插槽并行不可用;;;;没有千节点互联网络可以掩饰一条慢速链路。。。。。。所有交付给用户的性能都源自单个芯片,,,,,,在几瓦的功耗预算和手持装备形态因素设定的散热限制下运行。。。。。。在2020年之后,,,,,,当获取前沿节点的途径受限时,,,,,,现实的问题酿成了:在节点牢靠的情形下,,,,,,怎样继续在单颗芯片上实现代际性能提升???由此爆发的谜底被称为LogicFolding。。。。。。界说:LogicFolding是一种设计要领论,,,,,,它将数字、模拟和存储电路分区到笔直堆叠的有源层中,,,,,,遵照时间缩放原理,,,,,,配合优化性能、功耗和面积(图2)。。。。。。数字电路分为组合逻辑——寄存器之间的布尔网络——和时序逻辑——生涯状态的触发器。。。。。。数字系统的性能上限由相邻触发器级之间的要害路径延迟决议,,,,,,而该延迟又由该路径上的互连RC和门数目主导。。。。。。古板优化将门电路放置在平面内,,,,,,并通过上方的金属客栈举行布线;;;;导线越长,,,,,,寄生RC越大,,,,,,要害路径就越慢。。。。。。LogicFolding扬弃了平面假设。。。。。。要害路径上的门电路被漫衍到两个(并最终更多)笔直堆叠的有源层中,,,,,,通过超细腻间距的混淆键合毗连。。。。。。从电路设计师的角度来看,,,,,,这两层体现为一个单逐一连的结构,,,,,,单位犹如穿过一个特另外金属层一样漫衍在整个晶圆界面上。。。。。。信号线大幅缩短,,,,,,寄生RC急剧下降,,,,,,时钟偏移收紧,,,,,,芯片在相同的工艺节点下以更高的时钟频率运行。。。。。。 [图2:LogicFolding的原理示意图] 为了充分实现LogicFolding的架构优势,,,,,,要害在于坚持混淆键合与顶部金属布线层之间的低间距比(通常称为“齿轮比”)。。。。。。当笔直互连间距靠近顶部金属层的尺寸时,,,,,,优化目的的实质爆发了根天性转变。。。。。。历史上,,,,,,当笔直互连间距远大于顶部金属间距时,,,,,,设计空间基本被限制为一个离散优化问题。。。。。。设计师在宏观层面手动界说分区界线,,,,,,将整个功效模??榉峙涓囟ǖ男酒 。。。。。。芯片间毗连的粗糙粒度迫使接纳离散的模??榉峙湟,,,,,,这在盘算上是可行的,,,,,,但并非全局最优。。。。。。本文提出的LogicFolding被定位为一个一连优化问题,,,,,,其中细腻粒度的笔直集成使得设计空间能够在远超功效模??橄噶6鹊牟忝嫔暇傩刑剿,,,,,,为跨笔直维度举行全局协调的电路优化翻开了大门。。。。。。随着键合焊盘间距的逐步缩小,,,,,,笔直互连密度一直增添,,,,,,从电路毗连性的角度来看,,,,,,晶圆现实上被拉得越来越近。。。。。。这使得优化空间从离散转变为一连,,,,,,需要使用先进的自动化设计工具。。。。。。值得注重的是,,,,,,虽然顺序3D集成在理论上通过顺序制造器件层来提供最终的细腻粒度(器件或标准单位粒度),,,,,,但它现在面临着重大的制造瓶颈 。。。。。。最要害的是,,,,,,由于顺序制造历程中固有的严炎热预算限制,,,,,,下层器件的性能极易退化。。。。。。作为一种商业可行的实现方式,,,,,,LogicFolding使用成熟的先进晶圆对晶圆混淆键合手艺,,,,,,实现了一连优化所需的低齿轮比。。。。。。在实践中,,,,,,LogicFolding要求齿轮比降至约3以下,,,,,,且该比值越低通常效果越好。。。。。。以目今约720纳米的顶部金属间距盘算,,,,,,这对应于低于2微米的混淆键合间距——理想情形下齿轮比约为1,,,,,,此时键合界面处的“鸟笼式”布线开销将基本消逝。。。。。。实现这一间距,,,,,,以及所需的套刻精度(<0.5微米)、硅通孔(TSV)微缩(临界尺寸和坚持区小于1.5微米,,,,,,间距小于6微米)和良率(通过智能冗余设计靠近100%),,,,,,需要在供应商和相助同伴生态系统中举行多年的工艺开提议劲。。。。。。与2025年的Kirin 9030 Pro基线相比,,,,,,在Kirin 2026上测得的效果提供了详细的实践证据。。。。。。只管两者制造于相同的成熟工艺节点,,,,,,但基线接纳古板平面设计,,,,,,而Kirin 2026接纳了LogicFolding:·晶体管密度在简单代际间实现了阶跃式提升,,,,,,从155 MTr/mm? 提升至 238 MTr/mm?(晶体管密度盘算公式为 2/(CPP × 单位高度);;;;Kirin SoC设计的面积使用率为68%)。。。。。。这一提升幅度以往需要三年的几何微缩才华实现。。。。。。·在情形温度、1.1V供电电压下,,,,,,SoC性能焦点的最高时钟频率提升了近13%。。。。。。·在上下两层构建的一条高速全局片上网络数据通路,,,,,,其面积镌汰了55%,,,,,,同时供电稳固性获得改善。。。。。。一项硅后时钟偏移调解方案自力孝顺了凌驾5% 的SoC性能提升。。。。。。·在SRAM上(其会见速率、每比特能耗和面积强烈依赖于位线和字线长度),,,,,,LogicFolding缩短了要害路径,,,,,,降低了每比特能耗,,,,,,并将事情频率提升了凌驾40%。。。。。。·在一个代表性处理焦点上,,,,,,双层折叠架构使时钟缓冲器数目镌汰了凌驾50%,,,,,,时钟偏移降低了25%,,,,,,线长缩短了约30%。。。。。。热治理仍然是LogicFolding架构中的要害挑战。。。。。。为解决此问题,,,,,,我们接纳了热感知分区和结构妄想战略。。。。。。在设计阶段,,,,,,我们有意识地阻止折叠高功耗电路,,,,,,并从结构上防止高功耗子系统的空间相邻。。。。。。SoC性能焦点是我们详细评估的焦点。。。。。。如表1所示,,,,,,使用LogicFolding带来的性能提升,,,,,,Kirin 2026降低其供电电压以实现与Kirin 9030 Pro的等性能运行。。。。。。在现实丈量中,,,,,,抵达此等性能目的时,,,,,,功耗降低了41%,,,,,,同时功率密度下降了5.6%。。。。。。 表1. Kirin 2026与Kirin 9030 Pro在等性能下的功耗比照 这些增益是在牢靠器件节点上实现的,,,,,,并非通过新的光刻方法,,,,,,而是通过逻辑在三维空间漫衍上的拓扑重组获得的。。。。。。在Kirin 2026中量产的LogicFolding实现是刻意守旧的。。。。。。;;;煜霞渚嗟执锪1.5微米;;;;硅通孔着陆仅向顶部金属下方推进了一步;;;;折叠仅沿要害路径选择性应用,,,,,,而非贯串整个设计(图3)。。。。。。即便云云,,,,,,CPU性能焦点的频率今年已回归至3.1 GHz。。。。。。 图3. (a) 下一代Kirin SoC平台的原理示意图;;;;(b) 其键合界面的横截面图像。。。。。。 在未来十年间,,,,,,LogicFolding预计将从局部的要害路径折叠演进为周全的、多层级的折叠——每个封装内将集成三层、四层以致更多的有源层。。。。。。这一演进由低温混淆键合手艺(放宽了各层之间的热预算限制)以及硅通孔(TSV)着陆点从顶层金属逐步下移至M6层所推动,,,,,,此举将释放凌驾30%的高层布线资源。。。。。。从2026年到2035年,,,,,,晶体管密度预计将向400 MTr/mm?及更高水平迈进。。。。。。与此同时,,,,,,LogicFolding使Kirin能够大幅提升CPU焦点频率,,,,,,并为迈向4 GHz及更高频率铺平蹊径(见图4和表2)。。。。。。该蹊径图是切实可行的,,,,,,并且在本钱方面具有经济可行性。。。。。。 表2. Kirin CPU性能焦点事情频率趋势 图4. 未来Kirin产品晶体管密度与性能焦点频率展望 Highlight — LogicFolding焦点指标一览 混淆键合间距:低于2微米(Kirin 2026中为1.5微米;;;;目的齿轮比≈1)套刻精度:低于0.5微米硅通孔临界尺寸/坚持区:低于1.5微米;;;;间距低于6微米;;;;失效率低于100 ppm;;;;修复率99.9%良率:通过智能冗余设计靠近100%晶体管密度:单代从155 MTr/mm?跃升至238 MTr/mm?能效/频率增益(SoC性能焦点):+41% / +13%SRAM事情频率:提升40%以上代表性焦点上的时钟缓冲器数目/时钟偏移/线长:-50% / -25% / -30%五、从皮秒到微秒:AI数据中心中的τ缩放 一个自然的问题是:在毫瓦级智能手机领域生长出的原理,,,,,,能否乐成迁徙至AI训练和推理所涉及的吉瓦级领域???AI事情负载占有了τ频谱的另一端:并非单颗芯片,,,,,,而是数百或数千颗芯片犹如一台机械般协同事情,,,,,,其总算力在已往十年间增添了约六个数目级。。。。。。谜底是肯定的——只要将τ视为一个系统级目的,,,,,,并应用到整个链条中,,,,,,而非仅限于单个加速器内部。。。。。。塑造AI领域τ论证的两个事实。。。。。。首先,,,,,,AI辖档同续增添——从单芯片到数十颗、数百颗,,,,,,并正增至数万颗。。。。。。其次,,,,,,现代AI系统的能源预算和物料预算主要由数据主导,,,,,,而非盘算。。。。。。在一个大型AI集群中,,,,,,凌驾80%的能源消耗于数据移动;;;;凌驾70%的系统本钱用于数据存储。。。。。。其寄义是直接的:镌汰数据在传输途中的时间——在芯片间、机架间以及封装内部——至少与镌汰盘算自己所破费的时间一律主要。。。。。。τ缩放在AI规模上通过三个协同层实现:系统架构(统一总线)、近封装光学引擎(Hi-ONE)以及封装自己的拓扑重组(3D折叠)。。。。。。这种全栈要领系统性地压缩了漫衍式AI系统固有的系统τ。。。。。。详细而言,,,,,,统一总线通过统一内存语义互连消除了多层协议开销,,,,,,大幅降低了跨节点通讯延迟。。。。。。Hi-ONE使用近封装光学I/O直接压缩物理传输延迟。。。。。。3D折叠通过将边沿受限资源转移到外貌,,,,,,战胜了二次方到线性缩放差别,,,,,,最大限度地镌汰了节点内寄生RC。。。。。。总之,,,,,,这套从电路到系统的优化客栈实现了AI系统中τ缩放的最终目的:使大规模AI集群能够像一个简单逻辑实体一样协同运行。。。。。。1、统一总线——一种τ优先的系统架构 古板的多节点、多加速器架构通过多个堆叠协议传输数据:毗连主机的PCIe、机箱内的NVLink或专有架构、机箱间的以太网或InfiniBand,,,,,,以及其上的软件栈远程内存会见。。。。。。每一层都涉及协议转换、特另外序列化、特另外DMA缓冲以及进一步的握手交互。。。。。。每次转换都会增添延迟、降低可靠性并带来特殊本钱。。。。。。统一总线用一个统一的协议取代了这一客栈,,,,,,该协议在机箱内部和跨机箱运行——这是一个完全对等的架构,,,,,,在整个系统中外地化地袒露内存语义(图5)。。。。。。数据移动被简化为在内存语义层举行无需转换的点对点传输,,,,,,并以硬件治理的缓存一致性取代了软件栈的新闻转达。。。。。。其已测得的收益约为两个数目级:端到端的远程会见延迟从TCP/IP类协议栈典范的数十微秒降至约100纳秒——在主导的通讯路径上实现了约500倍的系统τ缩减。。。。。。在机架规模上,,,,,,这使系统渐近地靠近一台简单的、结构一致的机械——内部将其称为“系统即单芯片”(System-as-One-Chip)。。。。。。 图5. (a) 统一总线原生支持内存会见语义、新闻转达和统一远程历程挪用(uRPC)。。。。。。这使得多样化的盘算资源能够无缝集成,,,,,,实现高带宽和超低延迟,,,,,,同时增进漫衍式系统中高效的资源池化;;;;(b) 通过统一总线实现低开销内存会见的原理示意图。。。。。。 2、Hi-ONE——封装级光学I/O 一旦通讯延迟获得降低,,,,,,下一个瓶颈便浮现出来。。。。。。在单个机架内增添芯片密度会使功率密度和可靠性凌驾其极限——同时也使电气SerDes凌驾其能力规模。。。。。。在每颗AI芯片400 Gb/s的速率下,,,,,,铜缆布线仍是成熟且可靠的方案。。。。。。但当速率抵达每颗芯片数Tb/s时,,,,,,铜缆在物理上变得不切现实:SerDes的传输距离缩短,,,,,,线缆变得过于粗笨,,,,,,面板装置变得不可行,,,,,,且热治理和供电裕度也被耗尽。。。。。。;;;K嘉丝⒌囊焓歉呙芏裙饣チ诘阋妫℉igh-density Optical-interconnect-Node Engine, Hi-ONE)——一种近封装光学引擎,,,,,,每个模??榭商峁8 Tb/s的带宽,,,,,,在简单光学链路上与AI芯片的统一总线带宽相匹配(图6)。。。。。。它将所需的SerDes传输距离从约100厘米缩短至约5厘米,,,,,,消除了粗笨的线缆,,,,,,并将传输距离从缺乏1米扩展至100米——这使得漫衍式、吉瓦级数据中心的高密度互连在物理上成为可能。。。。。。Hi-ONE背后的设计理念自己就是一个τ缩放的论证。。。。。。Hi-ONE并未接纳用于高信号保真度的重型DSP,,,,,,而是接纳了一种线性方案——一种模拟平衡增强型驱动器和跨阻放大器——并允许统一总线协议容忍居心放宽的误码率。。。。。。这种协议层与物理层之间的跨层权衡,,,,,,降低了功耗、本钱和集成重大性,,,,,,并体现了τ优先要领论所推许的跨层折衷。。。。。。 图6. Hi-ONE芯片示意图 3、N?-vs-N的逆境,,,,,,以及为什么3D折叠不可阻止 AI加速器不会止步于2.5D扇出的最深条理原因是几何学的,,,,,,这一点值得明确陈述,,,,,,由于它决议了2030年后的蹊径图。。。。。。在古板的2.5D AI芯片中,,,,,,逻辑芯片位于封装中心,,,,,,HBM客栈和SerDes排列在其边沿,,,,,,电压调理器围绕封装。。。。。。每一个存储器信号、每一个互连信号、每一安培的供电电流,,,,,,都必需穿越芯片的边沿才华抵达内部的盘算资源。。。。。。若是芯片的边长为N,,,,,,那么:●盘算能力与N?成比例(面积),,,,,,●但内存带宽、互连和供电——所有这些都由2.5D扇出沿边沿承载——仅与N成比例(周长)。。。。。。这些二次方曲线与线性曲线之间日益扩大的差别组成了扇出逆境,,,,,,它诠释了2.5D缩放的障碍,,,,,,无论底层逻辑节点何等激进都无法解决。。。。。。没有任何晶体管级的刷新能够填补这种拓扑缺陷。。。。。。3D折叠通过将受边沿限制的资源重新定位到外貌上来解决这一逆境。。。。。。供电(通过反面供电和集成电压调理器)、高速内存(通过与逻辑的混淆键合)和光学I/O(通过近封装Hi-ONE)都从周长迁徙到笔直外貌——一旦位于外貌上,,,,,,它们便按N?扩展,,,,,,与盘算能力的二次方增添速率相匹配。。。。。。封装不再是一个被内存和SerDes周边带围绕的逻辑芯片;;;;它酿成了一个笔直集成的客栈,,,,,,其中内存、结构、供电和逻辑都同步扩展。。。。。。该蹊径图将这一演进置于一个明确的时间表上。。。。。。约莫到2030年,,,,,,AI加速器(昇腾SuperPoD系列——2025年的昇腾910C、2026年的昇腾950,,,,,,以及后续的990)依赖成熟手艺的组合:芯粒、2.5D扇出,,,,,,以及通过微凸点和标准间距混淆键合实现的3D堆叠。。。。。。约莫在2030年,,,,,,昇腾990将把LogicFolding引入AI加速器种别,,,,,,从那时起,,,,,,3D折叠将成为直到2035年的α的主要承载者。。。。。。沿着这条路径,,,,,,到2035年,,,,,,硬件集成度预计将增添凌驾100倍,,,,,,其中τ的缩减漫衍在客栈的每一层,,,,,,而非集中在器件层面。。。。。。亮点——AI系统规模的τ缩放 ●统一总线远程会见延迟:数十微秒 → 约100纳秒(约500倍τ缩减)●Hi-ONE单模??榇恚8 Tb/s(与单芯片统一总线带宽匹配)●Hi-ONE SerDes传输距离:约100厘米 → 约5厘米;;;;面板到面板传输距离:<1米 → 100米●扇出逆境:盘算∝N?,,,,,,受周长限制的带宽/I/O/供电∝N●3D折叠:将带宽、光学I/O和供电从边沿重新定位到外貌,,,,,,恢复N?的对等性●2026年→2035年预计硬件集成度增添:>100倍六、逻辑与内存:从解耦到再融合 τ缩放的一个影响值得单独讨论,,,,,,由于其效果既是工业性的,,,,,,也是手艺性的。。。。。。在8086时代,,,,,,业界通过标准化的内存总线,,,,,,有意地将处理器和内存解耦。。。。。。这种解耦使得两个工业能够自力扩展:处理器性能沿着摩尔曲线快速前进,,,,,,而内存供应商则在其旁边生长出一个重大的、自力的市场。。。。。。AI时代正在逆转这种解耦。。。。。。盘算密度的一连扩展正将内存带宽、延迟、功耗和封装推向极限。。。。。。HBM、混淆键合和3D堆叠SRAM都是一个基本事实的症状:关于现代AI事情负载,,,,,,数据移动与盘算自己一律要害,,,,,,逻辑和内存再次被推向细密的物理集成。。。。。。随着它们融合,,,,,,供应链中的影响力平衡正在向内存和封装供应商转移。。。。。。手艺偏向是明确的,,,,,,但经济上的解决方案尚未确定。。。。。。在AI硬件时代长期的乐成将属于那些能够手艺上融合逻辑与内存,,,,,,并建设一种经济同伴关系,,,,,,使两个行业都能恒久分享这种融合收益的加入者。。。。。。这不但仅是一个研究问题;;;;这是业界在未来十年需要解决的一个结构性问题。。。。。。通过使每次疏散的跨层本钱变得可见,,,,,,τ缩放确保这个问题无法被推迟。。。。。。七、开放挑战 将τ缩放形貌为一个已完成的系统会具有误导性。。。。。。几个实质性问题仍然悬而未决,,,,,,在此指出是为了强调正在举行的事情并约请相助。。。。。。工具链和要领论。。。。。。当今的EDA是为这样一个时代开发的,,,,,,在谁人时代,,,,,,面积、时序和功耗是沿着三条自力的轴举行优化的,,,,,,系统τ是作为一个剩余量泛起的。。。。。。周全的LogicFolding要求工具链将多个堆叠芯片视为一个单逐一连的设计实体——以单位粒度而非模??榱6染傩新呒智,,,,,,在统一的本钱函数下跨越整个三维空间举行结构,,,,,,并在笔直互连寄生效应、坚持区扫除区和晶圆间工艺转变以古板二维训练工具无法充分处理的方式相互作用的跨芯片路径上完成时序收敛。。。。。。已开发出能爆发有用效果的起源内部工具,,,,,,要领细节将在未来几个月内宣布。。。。。。一个τ原生的工具链——开放的、多物理场的、三维原生的——是未来十年最主要的赋能投资。。。。。。晶圆间工艺转变。。。。。。LogicFolding键合可能来自差别批次的晶圆——在某些情形下甚至是差别节点的晶圆。。。。。。晶圆间的阈值电压、驱动电流和互连RC的转变实质上大于晶圆内的转变,,,,,,并且对时钟分配和坚持时间裕度的影响最为严重。。。。。。智能冗余、自顺应赔偿和τ感知的签核流程是应对方案的须要组成部分。。。。。。笔直互连开销。。。。。。每一个混淆键合和每一个硅通孔都会爆发有限的电阻和电容价钱,,,,,,并且硅通孔的坚持区会取代标准单位。。。。。。因此,,,,,,LogicFolding必需逐层地通过一个简朴的不等式来证实其合理性:τ收益(等效硅面积 + 线长缩减) > τ价钱(笔直互连寄生RC)
关于移动要害路径和存储器,,,,,,这个阈值已被跨越;;;;该阈值是特定于事情负载的,,,,,,并且界线将随着键合间距的缩小而移动。。。。。。
功耗。。。。。。τ是时间定律,,,,,,而非焦耳定律。。。。。。一个运行速率快10倍但功耗也高10倍的超等节点并不违反任何缩放原理,,,,,,但却凌驾了电网容量。。。。。。因此,,,,,,τ缩放需要一个能源朋侪:消除客栈开销的内存语义结构、将每比特皮焦耳能耗降低数个数目级的近封装/共封装光学、反面供电、存内/近存盘算,,,,,,以及将τ裕度换回功率的规范实践(数据中心规模的动态电压频率调解——与实现智能手机电池长寿的机制相同)。。。。。。主要的是,,,,,,τ裕度自己在按此偏向分配时,,,,,,也提供了能源裕度。。。。。。
基准测试。。。。。。行业目今的性能基准测试——Linpack、MLPerf、SPEC——是为一个每个事情负载只需一个标量值就足够的时代设计的。。。。。。一个τ缩放的行业需要τ剖析基准测试——能够展现系统每一层主导τ以及该层剩余裕度的向量。。。。。。主导τ层,,,,,,按界说,,,,,,就是下一个投资偏向。。。。。。
八、六年回首,,,,,,十年展望
在2020年5月至2026年5月时代,,,,,,华为海思设计并将381颗芯片投入量产,,,,,,服务于移动、AI、汽车、工业和基础设施市场。。。。。。在整个产品组合中,,,,,,τ缩放的论点经受住了磨练:
●在器件和电路层面,,,,,,到2031年,,,,,,晶体管密度已从155 MTr/mm?向400+ MTr/mm?提升。。。。。。
●在芯片层面,,,,,,LogicFolding已在领先的移动SoC上证实,,,,,,在牢靠器件节点下,,,,,,要害路径频率、能效和密度能够继续前进。。。。。。
●在系统层面,,,,,,统一总线和Hi-ONE已证实,,,,,,数百微秒的通讯τ可以被压缩至数百纳秒,,,,,,并且一个多机架AI集群可以体现为一台简单的一致性机械。。。。。。
●展望未来,,,,,,到2029年,,,,,,CPU性能焦点频率预计将抵达4 GHz及更高;;;;在典范使用情形下,,,,,,Kirin SoC的能效预计在三到五年内翻倍;;;;到2035年,,,,,,AI硬件集成度预计将增添凌驾100倍。。。。。。
逾越任何单个产品,,,,,,更深条理的论断在于要领论层面。。。。。。τ缩放是自邓纳德缩放以来,,,,,,第一个为整个客栈提供共享优化目的的缩放原理。。。。。。它向工艺工程师、电路设计师、架构师、系统工程师和软件团队发出信号:这些群体现在正在用相同的单位优化相同的量,,,,,,并且任何单层的刷新都必需撒播到系统τ才华算数。。。。。。它也向行业战略家和资源设置者批注:下一美元应追随τ,,,,,,而非节点——竞争性性能不再需要永远驻留在光刻的最前沿,,,,,,封装、内存带宽和架构设计现在拥有了先前仅由前沿逻辑节点单独占有的战略权重。。。。。。
关于一代接受“摩尔定律”即等同于“前进”教育的工程师来说,,,,,,这是一个艰难的转变。。。。。。几何时代现实上已经终结;;;;否认这一事实并非可行的战略。。。。。。通过微型化加速的时代,,,,,,正在让位于通过多层电子系统中的τ优化来加速的时代——而那些在未来六到十年内接纳τ作为主要目的的企业、研究团队和生态系统,,,,,,将决议以后十年盘算的面目。。。。。。
未来十年的事情规模已经明确。。。。。。许多开放问题仍然保存,,,,,,没有任何一个组织能够单独解决它们——工具链、标准、基准测试、器件物理和经济模子都需要来自任何一家公司之外的孝顺。。。。。。因此,,,,,,本文既是一份来自实践一线的报告,,,,,,也是一份约请。。。。。。
前方的蹊径图要求很高,,,,,,但偏向是明确的。。。。。。
作者简介
何庭波向导华为的半导体营业。。。。。。她所向导的团队在2020年至2026年间,,,,,,设计并将381颗芯片投入量产,,,,,,产品笼罩移动、AI、汽车和基础设施市场,,,,,,并是本文所述τ缩放要领论以及LogicFolding、统一总线和Hi-ONE手艺的源头。。。。。。
本文借鉴了华为海思及其晶圆厂、装备、EDA和系统相助同伴生态系统中数千名工程师长达六年的事情效果。。。。。。作者谢谢那些以耐心使这项事情成为可能的客户。。。。。。
本文系视察者网独家稿件,,,,,,未经授权,,,,,,不得转载。。。。。。
@林智钧:bg手机官网视讯,,,,,,阿斯:穆帅将更多让姆巴佩禁区外进攻@蔡镇幸:杨紫听到自己获奖爆哭
@张佳群:教你使用高考自愿填报官方工具
热门排行
- 1 存送百分百活动
- 2 火狐体育入口平台
- 3 bet36最新在线体育
- 4 竟博电竞官网
- 5 通宝tb222下载官网
- 6 6822游戏网官网
- 7 365beat官方
- 8 江南jnan
- 9 188体育娱乐