【新智元导读】传说中的伟达英伟达 GH200 在 MLPerf 3.1 中冷艳表态,机能间接碾压 H100,超等抢先了 17%。芯片v性
继 4 月份插手 LLM 练习测试后,首秀升MLPerf 再次迎来重磅更新!碾压能跃爱游戏全站app在线平台
方才,伟达MLCommons 宣布了 MLPerf v3.1 版本更新,超等并插手了两个全新基准:LLM 推理测试 MLPerf Inference v3.1,芯片v性和存储机能测试 MLPerf Storage v0.5。首秀升
而这,碾压能跃这也是伟达英伟达 GH200 测试成就的初次表态!
比拟于单张 H100 共同英特尔 CPU,超等GH200 的芯片v性 Grace CPU+H100 GPU 的组合,在各个名目上都有 15% 摆布的首秀升晋升。
毫无疑难,英伟达的 GPU 在 MLPerf Inference 3.1 基准测试中表现是最亮眼的。
此中,最新宣布的 GH200 Grace Hopper 超等芯片,也是初次在 MLPerf Inference 3.1 上表态。
Grace Hopper 超等芯片将英伟达的 Grace CPU 与 H100 GPU 集成在一路,经由过程超高的带宽毗连,从而比单个 H100 共同其余的 CPU 能供给更强的机能表现。
「Grace Hopper 初次展现了很是微弱的机能,与咱们的 H100 GPU 提交比拟,机能进步了 17%,咱们已周全抢先,」英伟达野生智能总监 Dave Salvator 在消息宣布会上表现。
具体来讲,亚搏官网app下载进口它将一个 H100 GPU 和 Grace CPU 集成在一路,经由过程 900GB/s的 NVLink-C2C 毗连。
而 CPU 和 GPU 别离装备了 480GB 的 LPDDR5X 内存和 96GB 的 HBM3 或 144GB 的 HBM3e 的内存,集成了高达 576GB 以上的高速拜候内存。
英伟达 GH200 Grace Hopper 超等芯片专为计较麋集型使命负载而设想,可以或许或许或许或许知足各类严苛的请求和各项功效。
比方练习和运转数万亿参数的大型 Transformer 模子,或是运转具备数 TB 巨细的嵌入表的保举体系和向量数据库。
GH200 Grace Hopper 超等芯片还在 MLPerf Inference 测试中有着很是优良的表现,革新了英伟达单个 H100 SXM 在每一个名目中创下的最好成就。
GH200 Grace Hopper 超等芯片集成了 96 GB 的 HBM3,并供给高达 4 TB / s 的 HBM3 内存带宽,而 H100 SXM 别离为 80 GB 和 3.35 TB / s。
与 H100 SXM 比拟,更大的内存容量和更大的内存带宽使得在 NVIDIA GH200 Grace Hopper 超等芯片上利用更大的批处置巨细来处置使命负载。
比方,在办事器场景中,RetinaNet 和 DLRMv2 的批处置巨细都增添了一倍,在离线场景中,批处置巨细增添了 50%。
GH200 Grace Hopper 超等芯片在 Hopper GPU 和 Grace CPU 之间的高带宽 NVLink-C2C 毗连可以或许或许或许完成 CPU 和 GPU 之间的疾速通讯,从而有助于进步机能。
比方,在 MLPerf DLRMv2 中,在 H100 SXM 上经由过程 PCIe 传输一批张量(Tensor)约莫须要 22% 的批处置推理时候。
利用了 NVLink-C2C 的 GH200 Grace Hopper 超等芯片仅利用 3% 的推理时候就完成了不异的传输。
因为具备更高的内存带宽和更大的内存容量,与 MLPerf Inference v3.1 的 H100 GPU 比拟,Grace Hopper 超等芯片的单芯片机能上风高达 17%。
在 MLPerf 的首秀中,GH200 Grace Hopper Superchip 在封锁种别(Closed Division)的一切使命负载和场景上都表现出超卓的机能。
而在支流的办事器利用中,L4 GPU 可以或许或许或许或许供给一个低功耗,松散型的算力处置计划,与 CPU 处置计划比拟的机能也有了大幅的晋升。
Salvator 表现,「与测试中最好的 x86 CPU 比拟,L4 的机能也很是微弱,进步了 6 倍」。
对其余的 AI 利用和机械人利用,Jetson AGX Orin 和 Jetson Orin NX 模块完成了超卓的机能。将来的软件优化有助于进一步开释壮大的英伟达 Orin SoC 在这些模块中的潜力。
在今朝很是风行的方针检测 AI 收集 ——RetinaNet 上,英伟达的产物的机能进步了高达 84%。
英伟达开放局部(Open Division)的成果,展现了经由过程模子优化可以或许或许或许在坚持极高精度的同时大幅进步推理机能的潜力。
固然,这并不是 MLCommons 第一次测验考试对大措辞模子的机能停止基准测试。早在本年 6 月,MLPerf v3.0 就初次插手了 LLM 练习的基准测试。不过,LLM 的练习和推理使命,区分很大。
推理使命负载对计较请求高,并且品种单一,这就请求平台可以或许或许或许或许疾速处置各类范例的数据展望,并能在各类 AI 模子上停止推理。
对但愿安排 AI 体系的企业来讲,须要一种方式来客观评价根本举措措施在各类使命负载、环境和安排场景中的机能。以是对练习和推理的基准测试都是很主要的。
MLPerf Inference v3.1 包罗了两项主要更新,来更好地反应此刻 AI 现实的利用环境:
起首,增添了基于 GPT-J 的大型措辞模子 (LLM) 推理的测试。GPT-J 是一个开源的 6B 参数 LLM,对 CNN / 逐日邮报数据集停止文本总结。
除 GPT-J 以外,此次还更新了 DLRM 测试。针对 MLPerf Training v3.0 中引入的 DLRM,接纳了新的模子架构和更大的数据集,更好地反应了保举体系的范围和庞杂性。
MLCommons 开创人兼履行董事 David Kanter 表现,练习基准偏重于更大范围的根本模子,而推理基准履行的现实使命,则代表了更普遍的用例,大局部构造都可以或许或许或许停止安排。
在这方面,为了可以或许或许或许或许对各类推理平台和用例停止有代表性的测试,MLPerf 界说了四种差别的场景。
每一个基准都由数据集和品质方针界说。
每一个基准都须要以下场景:
在 MLPerf v3.1 基准测试中,有跨越 13,500 个成果,此中不少提交者的机能比 3.0 基准进步了 20%,乃至更多。
其余提交者包罗华硕,Azure,cTuning,Connect Tech,戴尔,富士通,Giga Computing,谷歌,H3C,HPE,IEI,英特尔,Intel Habana Labs,Krai,遐想,墨芯,Neural Magic,Nutanix,甲骨文,高通,Quanta Cloud Technology,SiMA,Supermicro,TTA 和 xFusion 等。
具体数据://mlcommons.org/en/inference-datacenter-31/
参考材料:
//developer.nvidia.com/blog/leading-mlperf-inference-v3-1-results-gh200-grace-hopper-superchip-debut/?ncid=so-twit-408646&=&linkId=100000217826658
//mlcommons.org/en/inference-datacenter-31/
//venturebeat.com/ai/mlperf-3-1-adds-large-language-model-benchmarks-for-inference/
告白申明:文内含有的对外跳转链接(包罗不限于超链接、二维码、口令等情势),用于通报更多信息,节流甄选时候,成果仅供参考,IT之家一切文章均包罗本申明。
停止时候:2023-09-22 20:54:14
礼包内容:潮水纤维*50,金币*1
停止时候:2023-09-22 20:54:14
礼包内容:瓶盖*1000
停止时候:2023-09-22 20:54:14
礼包内容:瓶盖*600,潮水纤维*20
金铲铲之战志在天涯豪华宝典几多钱 志在天涯豪华宝典价钱先容[多图]
日期 2023-09-22 19:47阴阳师7周年新勾当会勾当嘉奖有哪些 7周年新勾当会勾当嘉奖一览[多图]
日期 2023-09-22 19:065MB
检查455MB
检查5MB
检查82348MB
检查23497MB
检查973MB
检查799MB
检查275MB
检查
网友批评
7249 肯德基。
差!!买不了一公升铁捅布丁
2023-09-21 来自湖南 保举
14 ⚡️骏航⚡️
为了套那10块钱滴积分红包真是不轻易呀
2023-09-21 来自湖南 保举
8598 YYH9118417493
夜幕来临,小区转达室的刘大爷冷静谛视着墙上的挂钟,思考很久,又点上一根烟,终究果断地拉掉了小区电闸。那一晚他为小区业主们挽回了几千万元的财产丧失。那一天是公元2014年11月11日。
2023-09-21 来自湖南 保举
19 hhjjk
渣机党劝退,出来卡死。看来我不配。
2023-09-21 来自湖南 保举
7 hhjjk
列位电商大佬快快烧钱啊,让咱们嗨一把吧!
2023-09-21 来自湖南 保举