NVIDIA发表新一代H100 GPU核心 4nm工艺

发布时间：2022-03-23 15:21 所属栏目：30 来源：互联网

导读：黄仁勋终于公布了NVIDIA新一代架构与核心，当然这次是面向HPC高性能计算、AI人工智能的Hopper，对应核心编号GH100，同时发布的还有基于新核心的加速计算卡H100、AI计算系统DGX H100。与传闻不同，GH100核心采用的其实是台积电目前最先进的4nm工艺，而且是定

　　黄仁勋终于公布了NVIDIA新一代架构与核心，当然这次是面向HPC高性能计算、AI人工智能的“Hopper”，对应核心编号“GH100”，同时发布的还有基于新核心的加速计算卡“H100”、AI计算系统“DGX H100”。

　　与传闻不同，GH100核心采用的其实是台积电目前最先进的4nm工艺，而且是定制版，CoWoS 2.5D晶圆级封装，单芯片设计，集成多达800亿个晶体管，号称世界上最先进的芯片。

　　完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元)，而每组SM有128个FP32 CUDA核心，总计18432个。
　　
　　扩展互连支持PCIe 5.0、NVLink第四代，后者带宽提升至900GB/s，七倍于PCIe 5.0，相比A100也多了一半。整卡对外总带宽4.9TB/s。
　　
　　按惯例也不是满血，GPC虽然还是8组，但是SXM5版本只开启了62组TPC(魅族GPC屏蔽一组TPC)、128组SM，总计有15872个CUDA核心、528个Tensor核心、50MB二级缓存。

　　PCIe 5.0版本更是只有57组TPC，SM虽然还是128组，但是CUDA核心只有14952个，Tensor核心只有456个。

　　
　　DGX H100系统集成八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器(Intel Sapphire Rapids四代可扩展至器?)，拥有总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。

　　性能方面，AI算力32PFlops(每秒3.2亿亿次)，浮点算力FP64 480TFlops(每秒480万亿次)，FP16 1.6PFlops(每秒1.6千万亿次)，FP8 3.2PFlops(每秒3.2千亿次)，分别是上代DGX A100的3倍、3倍、6倍，而且新增支持网络内计算，性能3.6TFlops。

　　PCIe 5.0版本的性能基本都再下降20％。
　　
　　DGX H100是最小的计算单元，为了扩展，这一次NVIDIA还设计了全新的VNLink Swtich互连系统，可以连接最多32个节点，也就是256颗H100芯片，称之为“DGX POD”。

（编辑：ASP站长网）