NVIDIA GTC 2022大幕拉起:Hopper架构H100加速卡、AI及超算处理器

2022-03-24

北京时间2022年3月21日晚23:00,NVIDIA 2022年GTC大会正式开启。正如各家媒体预测的那样,官方不但发了万众瞩目的Hopper架构H100加速卡,还推出了专为AI及超算设计的CPU处理器Grace、AI计算系统“DGX H100”。

  值得一提的是,Grace芯片拥有144个核心,内存带宽达恐怖的1TB/s,而整体功耗仅为500W。作为GPU领域的龙头企业,Nvidia表示Grace在性能方面完全碾压业内所有对手。

  厚积薄发的Grace

  事实上,NVIDIA早在2021年就对外宣布了Grace芯片,但其详细规格始终是个迷。今晚,官方终于宣布了它的详细规格:两个CPU芯片,一个叫做Grace Hopper,为CPU+GPU合体设计,它使用了Nvidia的最新NVLink技术连接,带宽为900GB/s。

  与之相较,另个一名为Grace CPU Superchip的芯片则更为强大,它的规格是两个Grac CPU一起封装,总共拥有144个基于ARMv9指令集的CPU内核,缓存容量396MB,支持LPDDR5X ECC内存,带宽为1TB/s。另外,这款芯片还支持PCIe 5.0、NVLink-C2C互连。

  在外界最关注的性能方面,Grace CPU Superchip的SPECint 2017得分为740分,暂时登上了业内最顶峰。

  在首席执行官黄仁勋看来,在Grace Hopper及Grace CPU Superchip的加持下,NVIDIA在未来可以灵活搭配各种B端方案,就像是搭积木那样简单。

  在宣布完规格后,老黄表示:Grace CPU Superchip芯片会在2023年上市。

  专攻AI的Hopper

  与传闻不同,GH100核心采用的其实是台积电目前最先进的4nm工艺,而且是定制版,CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,号称世界上最先进的芯片。

  官方没有公布核心数,但已经被挖掘出来,和此前传闻一直。

  完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元),而每组SM有128个FP32 CUDA核心,总计1843个。

  显存支持六颗HBM3或者HBM2e,控制器是12组512-bit,总计位宽6144-bit。

  Tensor张量核心来到第四代,共有576个,另有60MB二级缓存。

  扩展互连支持PCIe 5.0、NVLink第四代,后者带宽提升至900GB/s,七倍于PCIe 5.0,相比A100也多了一半。整卡对外总带宽4.9TB/s。

  性能方面,FP64/FP32 60TFlops(每秒60万亿次),FP16 2000TFlops(每秒2000万亿次),TF32 1000TFlops(每秒1000万亿次),都三倍于A100,FP8 4000TFlops(每秒4000万亿次),六倍于A100。

  H100计算卡采用SXM、PCIe 5.0两种形态,其中后者功耗高达史无前例的700W,相比A100多了整整300W。

  按惯例也不是满血,GPC虽然还是8组,但只开启了66组TPC(魅族GPC屏蔽一组TPC)、132组SM,总计有16896个CUDA核心、528个Tensor核心、50MB二级缓存。

  显存只用了五颗,最新一代HBM3,容量80GB,位宽5120-bit,带宽高达3TB/s,相比A100多了一半。

  史无前例的DGX H100

  在拥有了强大的芯片基础后,NVIDIA也拥有了强大的算力基础,并以此推出了更加强大的AI运算系统:DGX H100。

  据官方介绍,该系统集成了八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器(Intel Sapphire Rapids四代可扩展至器)。在规格方面,它总共有用6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。

  性能方面,DGX H100的AI算力为32PFlops(每秒3.2亿亿次),浮点算力FP64 480TFlops(每秒480万亿次),FP16 1.6PFlops(每秒1.6千万亿次),FP8 3.2PFlops(每秒3.2千亿次),分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。

  同时,它还配备Connect TX-7网络互连芯片,台积电7nm工艺,800亿个晶体管,400G GPUDirect吞吐量,400G加密加速,4.05亿/秒信息率。

  事实上,如此强大的DGX H100还只是最小的计算单元。为了扩展其应用规模,NVIDIA本次还设计了全新的VNLink Swtich互连系统,可以连接最多32个节点,也就是256颗H100芯片,称之为“DGX POD”。

  在这套拥有极致性能的系统内,NVIDIA为其塞入了20.5TB HBM3内存,总带宽768TB/s,AI性能高达颠覆性的1EFlops(100亿亿亿次每秒),实现百亿亿次计算。

  据黄仁勋表示,目前DGX H100的合作伙伴包括Atos、思科、戴尔、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅、超威。

  另外,该系统的云服务合作伙伴包括阿里云、亚马逊云、百度云、Google云、微软Azure、甲骨文云、腾讯云。

广泛的应用领域

众所周知,近几年兴起的人工智能浪潮,根本原因正是计算力的快速发展,结合互联网、物联网带来的海量数据和深度学习等先进算法共同催生而成,其实际应用效果和社会影响力远远超出以往。

  但是,随着人工智能的快速发展,更深更大的算法模型、更复杂的架构正在成为趋势。在这种情况之下,如果计算力不能相应增长,整个人工智能的学习过程将变得无比漫长。可以说,人工智能对计算的需求是永无止境的。

  正式基于以上背景,我们也就不难理解NVIDIA在这机年中快速崛起的真正秘诀:正是因为其强大的GPU有效弥补了CPU的不足,并大大加速了处理高强度计算负载的能力,从而让GPU计算的潜力得以全面的释放。

  在本次GTC大会上,NVIDIA不但推出了强大的运算芯片,还就AI领域的发展、以及该技术在科研、数字孪生、自动驾驶乃至金融等行业的深度应用作出了前瞻。

  在我们看来,NVIDIA一系列围绕人工智能领域的布局和创新,不仅是大势所趋,更是这家芯片业巨头在新时代的新使命。可以说,AI赋予了NVIDIA未来更大的想象力,而NVIDIA也正引领人工智能走向更大的舞台。

原文来自http://www.toowtech.cn/nws_admin.php/index/index


在线咨询
联系电话

15605156696