六月二十三是什么日子| 劳动法什么时候实施的| 腹泻吃什么药| 花开半夏是什么意思| 炸油条用什么油最好| 腺瘤型息肉是什么意思| 鸡胸是什么病| 什么时候闰五月| 什么狗最贵| 抄手是什么| 三级护理是什么意思| 左手中指麻木是什么原因| 能够握紧的就别放了是什么歌| 山药和淮山有什么区别| 低落是什么意思| 吃巧克力有什么好处| 嘴角烂是什么原因| 6月初9是什么日子| 检查乳房挂什么科| 脚脖子粗是什么原因| 01属什么| 川崎病是什么| pa代表什么意思| dsa是什么| 主管是什么级别| 什么牌子的护肝药最好| 什么药吃了会产生幻觉| 睡多了头疼是什么原因| 项羽为什么叫西楚霸王| 九天什么月| 人设是什么意思| 背痒是什么原因| 梦见穿裤子是什么意思| 食邑万户是什么意思| 植物园里有什么植物| 有机酸是什么| 包皮手术后吃什么伤口愈合快| 眼睛模糊是什么原因引起的| 慢性活动性胃炎是什么意思| 囊性无回声是什么意思| 间羟胺又叫什么| 1927年属什么生肖| 上技校学什么专业好| 蜂王浆什么时间吃最好| 酸化是什么意思| 双一流大学是什么| 做梦梦到钓鱼是什么意思| 大头鱼吃什么食物| 北瓜是什么| sunglasses什么意思| 生长因子是什么| 分分钟都妙不可言是什么歌| 血管瘤是什么样子图片| 临字五行属什么| 脸颊两边长斑是什么原因| 流鼻血是什么原因| 生意兴隆是什么意思| 人参有什么作用| 惊讶表情是什么意思| 神采奕奕是什么意思| 后脑勺白头发多是什么原因| 金牛座是什么性格| Years什么意思| 长痘痘涂什么药膏| 什么的白桦| 牛肉配什么菜包饺子好吃| 佛爷是什么意思| 骨质疏松吃什么药好| 胃炎适合吃什么食物| 鱼缸底部铺什么好| 杀青原指什么| 双重人格是什么意思| 岬是什么意思| 尊字五行属什么| 平坦的反义词是什么| 梦见很多棺材是什么征兆| 温州有什么特产| 电饭煲煮粥为什么会溢出来| 抹布是什么意思| 木五行属什么| 1007是什么星座| 好人是什么意思| 每天做梦是什么原因引起| 乙肝第二针最晚什么时候打| 抗体阳性说明什么| 叫什么| 瑞士用什么货币| 口蘑不能和什么一起吃| 倒挂金钩什么意思| 三个直念什么| 纠葛是什么意思| 吸毒什么感觉| 弃市是什么意思| 椭圆形脸适合什么发型| 孩子睡觉出汗多是什么原因| 大学生入伍有什么好处| 气血不足吃什么食物最好| 拉黑屎是什么原因| 婚车头车一般用什么车| 88属什么生肖| 大便成细条状是什么病| 围产期是什么意思| 鹌鹑蛋是什么动物的蛋| 99足银是什么意思| 肠镜什么情况下取活检| 什么的围巾| 后背发凉是什么原因| 为什么叫买东西不叫买南北| 悸动什么意思| 心肌缺血是什么原因引起的| 还记得年少时的梦吗是什么歌| 为什么一直咳嗽| 恬静是什么意思| 坐月子吃什么下奶最快最多最有效| 蔓字五行属什么| 狗消化不良吃什么药| 哺乳期不能吃什么| 人为什么会抑郁| 葡萄糖为什么叫葡萄糖| 笑气是什么气体| chick是什么意思| 985代表什么意思| 漱口杯什么材质好| 桥字五行属什么| 什么是抗氧化| 明天有什么考试| 277是什么意思| 什么叫伴手礼| 杨梅泡酒有什么功效和作用| 青龙男是什么意思| 荠菜是什么菜| 葫芦娃的爷爷叫什么| 水中毒是什么症状| 韩字五行属什么| 垂体催乳素高是什么原因| 肛门瘙痒看什么科| 炖鸡汤放什么材料好吃| 腥臭味是什么妇科病| 艾附暖宫丸什么时候吃| 腰果有什么好处| 虾和什么不能一起吃| 京东自营店是什么意思| 贾字五行属什么| 什么是健康证| 客家人是什么意思| 父母什么血型会溶血| 什么是肠易激综合征| 金牛座前面是什么星座| 摩羯是什么星座| 吃什么代谢快有助于减肥| 洁面慕斯和洗面奶有什么区别| 明月照沟渠是什么意思| 浑身疼吃什么药| 6月8日什么星座| 吃完头孢不能吃什么| 痔疮饮食要注意什么| 眼睛长结石是什么原因引起的| 血压低压高是什么原因| 初中学历能做什么工作| 牵引车是什么车| 贫血严重会导致什么后果| 胡同是什么意思| 西康省是现在什么地方| 手上的纹路代表什么| 美国的国鸟是什么| 九死一生是指什么生肖| 不作为是什么意思| 领导谈话自己该说什么| tga是什么| 口腔炎吃什么药| 为什么睡觉老是流口水| 尿液带血什么原因| 每天熬夜有什么危害| 肌酐下降是什么原因| 纯净水是什么水| 受虐倾向是什么| 未什么意思| 吃多了拉肚子是什么原因| nt检查是什么| 十月十八是什么星座| 双侧中耳乳突炎是什么意思| 什么是水解奶粉| 糖化血红蛋白是查什么的| 钱串子进屋有什么预兆| 抗日战争什么时候开始的| 樟脑丸是干什么的| 新生儿痤疮用什么药膏| 蚊虫叮咬用什么药膏| 经常想吐恶心是什么原因| 灰指甲长什么样子图片| 女人人中深代表什么| 胃溃疡吃什么好| 小孩呕吐是什么原因| 乙酰磺胺酸钾是什么| 纹身有什么危害| 羊球是什么| mrcp是什么检查| 飞机杯什么感觉| 诸是什么意思| 朱顶红什么时候剪叶子| 肾结石是什么原因造成的| 属猴的幸运色是什么颜色| 梦见打篮球是什么意思| 吃什么可以补铁| 什么是县级市| 比值是什么意思| 鱼喜欢吃什么食物| 怀孕嗜睡什么时候开始| 骨折补钙吃什么钙片好| 副词是什么意思| 非钙化斑块是什么意思| 1RM什么意思| 一岁宝宝口臭是什么原因引起的| 降压药什么药好| 甲醛什么味道| 二月二十是什么星座| 登高望远是什么生肖| 孩子出汗多是什么原因| mm是什么意思| 动不动就出汗是什么原因| 刺猬为什么叫白仙| 随遇而安是什么生肖| 水烧开后有白色沉淀物是什么| 肌酐高是什么意思| 脚趾骨折是什么感觉| 封神是什么意思| 墨菲定律是什么| 湿疹擦什么药好| 鼻渊是什么意思| 低血压吃什么好的最快女性| 梦到蝴蝶代表什么预兆| 肌红蛋白低说明什么| cri是什么意思| 清洁度iv是什么意思| 头眩晕是什么原因引起的| 为什么喝咖啡会心慌| 双侧肋膈角锐利是什么意思| 四不放过是什么| 20是什么意思| 眼镜是什么时候发明的| 风月什么意思| 落是什么意思| 出阁是什么意思| 1977年是什么年| 2月2日什么星座| 11度穿什么衣服| cla是什么| 蝴蝶骨是什么| 什么食物对肺有好处| 晚秋是什么意思| 就寝什么意思| 坐月子什么不能吃| 什么什么不得| 做梦梦到男朋友出轨了是什么意思| 1.4什么星座| 榴莲树长什么样| sos是什么意思| 头抖是什么原因| 黄瓜籽有什么功效| 熤是什么意思| 中药什么时候吃最好| jk制服什么意思| 林格液又叫什么| tsh是什么意思| 百度

新闻中心

EEPW首页 > 智能计算 > 市场分析 > 新旧GPU对决:Blackwell凭啥更能打?

中国最美樱花要开了 择一处赏樱不负好春光(2)

作者: 时间:2025-08-04 来源:半导体产业纵横 收藏
百度 肖全在活动现场讲述所拍照片背后的故事普通人与名人在我眼中并无区别在拍完《我们这一代》之后,肖全的名字就跟名人拍摄挂上了钩。

本周,亚马逊网络服务宣布推出其首款基于 Nvidia 的「Grace」CG100 CPU 和「Blackwell」B200 的 UltraServer 预配置超级计算机,称为 GB200 NVL72 共享 内存配置。这些机器被称为 U-P6e 实例,实际上有全机架和半机架配置,它们补充了去年 12 月在 re:Invent 2024 会议上推出的现有 P6-B200 实例。

在 P6 和 P6e 实例的情况下, 和 NVLink Switch 4 GPU 内存共享交换机上的 NVLink 5 端口用于将 GPU 组整合到大型共享内存计算复合体中,类似于 CPU 服务器存在了 25 多年的 NUMA 集群。其他非 NUMA 共享内存架构比非统一内存访问技术更古老,如对称多处理或 SMP,但没有像 NUMA 在 CPU 上的扩展,在单核处理器时代,NUMA 在共享内存集群中推到了 128 和 256 个 CPU。

基于 Nvidia NVL72 设计的 P6e 实例,我们在这里详细介绍了这些设计,GPU 内存域横跨 72 个 GPU 插槽,Blackwell 芯片每个插槽有两个 GPU 芯片,因此内存域实际上是单个机架中的 144 个设备。AWS 正在销售具有 72 或 36 个 Blackwell B200 插槽的 UltraServers 作为内存域,估计这是虚拟完成的,而不是物理完成的,因此可以即时配置实例大小。这些机器每两个 Blackwell B200 GPU 配对一个 Grace CPU,整个 shebang 是液冷的,这也是 B200 GPU 超频 11% 的原因之一,并为人工智能工作负载提供更多的原始计算性能。

P6 实例使用更标准的 HGX-B200 服务器节点,这些节点没有超频,并创建了一个跨越八个套接字的 GPU 内存域。P6 实例使用英特尔至强 6 处理器作为其主机计算引擎,每八个 Blackwell B200 GPU 有两个 CPU,产生的计算复合体密度是 GB200 NVL72 系统的一半,因此仍然可以风冷。

随着这两个 Blackwell 系统现在在 AWS 云上可用,并且价格信息可用,现在是对 Blackwell 实例进行一些价格/性能分析的最佳时机,与前几代「Hopper」H100 和 H200 GPU 以及基于「Ampere」A100 和「Volta」V100 GPU 的早期实例进行一些价格/性能分析,这些实例仍然可以在 AWS 云上租用。

我们检查的实例和 UltraServer 机架规模配置是在 AWS 所谓的 EC2 容量块下出售的,顾名思义,这是预订和购买预配置的 UltraClusters 的一种方式,其大小从一个实例或 UltraServer 到多达 64 个实例或机架,期限长达六个月,最多在您需要容量的八周前。这是一个预留实例的时髦版本,以更大的块状形式作为单个单元出售。

只是为了好玩,我们采取了 EC2 容量块配置,还找到了按需定价的设置,看看这些在成本上如何比较,一直到基于 Nvidia Volta GPU 的 P2 实例和基于 Ampere GPU 的 P3 实例。

因此,未来不假说,这是 EC2 容量块的所有电子表格的母体,价格显示在全球可用的地区,包括 Nvidia GPU 实例以及 AWS Trainium1 和 Trainium2 实例:

那里有很多东西需要接受。为了了解价格/性能是如何叠加的,我们添加了 FP16、FP8 或 INT8 和 FP4 精度的峰值理论性能。为了进行比较,我们忽略了 FP64 和 FP32 精度,充分意识到有时更高的精度计算用于人工智能模型,当然也用于 HPC 模拟。这些性能评级适用于密集数学,而不是稀疏矩阵,这可以使设备的有效数值吞吐量翻倍。

我们决定,90 天的租赁代表了训练一个相当大的模型需要什么,但没什么疯狂的。这种实例成本的规模产生了一个很好的红利,其中除数将它切成太浮点运算的性能。

很多东西都跳出这个怪物表,但我们看到的第一个,我们用粗体强调的是,AWS 对基于美国西北加州地区提供的 Hopper H100 和 H200 GPU 的 GPU 实例收取 25% 的溢价。在硅谷很难获得电力和数据中心空间,这就是为什么你看到美国西部地区的俄勒冈州地区安装了这么多新设备。美国东部地区锚定在弗吉尼亚州阿什本周围,它仍然首先获得许多好东西,包括基于 GB200 NVL72 设计的 UltraServer P6e 机架系统。正如你所看到的,俄亥俄州的美国东部地区也获得了新东西的份额,包括 Trainium1 和 Trainium2 集群。

我们认为 FP16 性能是人工智能加速器的基线,然后 FP8 和 FP4 精度是模型的重要进一步加速器,这些模型可以使用较低分辨率的数据进行训练,并且仍然不会牺牲模型的准确性。

如果你看一下机架式 GB200 NVL72 系统的 FP16 性能与 HGX-B200 系统相比,后者的扩展幅度没有那么大,机架式机——需要液体冷却,安装有点像野兽——与 AWS 租用的方式相比,单位性能仅提高了 17%。这其实并不是什么溢价,考虑到系统的密度以及 GB200 NVL72 的密度导致的电源和冷却问题,这符合您的预期。

您将看到的另一件事是,H100 和 H200 设备具有相同的峰值理论性能,但 AWS 安装的 H100 是较早的,只有 80 GB 的 HBM3 容量,而 H200 具有 141 GB 的 HBM3 容量。AWS 正在为该内存和附带的更高带宽收取 10% 的溢价。带有 80 GB HBM3 的 H100 带宽为 3.35 TB/秒,而带有 141 GB HBM3E 的 H200 提供 4.8 TB/秒的带宽。对于许多工作负载,这种额外的内存容量和带宽几乎可以使人工智能培训的实际性能增加一倍。您可能期望 AWS 对 H200 实例收取比它更多的溢价。

EC2 容量块仍然可以使用 Ampere A100 GPU 加速器获得,有趣的是,按 GPU 计算,H200 比 A100 贵 3.07 倍,但它每个 GPU 的 FP16 性能高 3.17 倍。当你计算时,通过容量块租用具有 40GB HBM2 内存的 A100 90 天,每兆浮点运算的成本为 10.21 美元,而 H100 的每兆浮点运算成本为 9.88 美元。只有当你无法获得 H100s、H200s 或 B200s 时,你才会这样做。带有 80GB HBM2 内存的 A100 每 TBflops 售价为 12.78 美元。(所有这些价格都适用于北加州以外的地区。)

在 FP16 精度下,P6e 实例中的全尺寸 NVL72 机器,配有 72 个 Blackwell B200 GPU,以及带有 36 个 Blackwell B200 的半机架,每兆浮点运算成本为 9.14 美元,租金为 90 天,这三个月将分别花费 165 万美元和 822,856 美元。具有较小内存域的 P6-B200 实例在 FP16 精度下,在 90 天内每兆浮点运算花费 7.81 美元,鉴于这些实例是空气冷却的,内存域较小,这是有道理的。神奇的是,液冷 GB200 NVL72 机器的价格并不高。

如果你看一下 FP8 的性能,每太浮点运算的所有成本都减半了,而 Blackwells,以 FP4 格式计算的能力将一亿浮点运算的成本再次减半。最终结果是,如果您更改模型以利用 FP4 性能,您可以租用四分之一的机器以四分之一的成本完成相同的工作,或者您可以花费相同的钱来训练一个大四倍的模型。

现在看看桌子的底部和 Trainium。在原始 FP16 吞吐量方面,需要两倍于 AWS 设计的 Trainium1 人工智能加速器才能击败 Nvidia A100 约 22%。使用 Trainium2,FP16 的性能提高了 3.5 倍,FP8 的性能提高了 6.8 倍,而 HBM 容量提高了 3 倍,但在 FP16 分辨率下,每兆浮点运算的成本仅提高了 7.4%。增加 FP8 将 FP8 精度的太浮点运算的价格降低到仅 3.72 美元,这低于 AWS 租用的 HGX-B200 节点作为 P6 实例的每兆浮点运算 3.91 美元,甚至低于 AWS 为 GB200 NVL72 实例收取的每兆浮点运算 4.57 美元。Trainium2 不支持 FP4,这意味着在原始成本方面,Nvidia 对那些可以以 FP4 分辨率运行且不会失去准确性的人工智能应用程序具有优势。

现在,如果您查看 AWS 上的按需定价,Trainium1 芯片仍然可用,而且它们比按需租用的 Blackwell B200 实例要贵得多。看一看:


本表中显而易见的是,基于 K40、V100 和 A100 GPU 的古代加速器实例成本非常低,因此资本支出非常低,这看起来很有吸引力,但如果你看一下 FP16 ooph 的太浮点运算成本,这些在经济意义上是可怕的,并且与 EC2 容量块计划下出售的新铁的差距要大得多。如果您将这些在 FP16 模式下运行的古老 GPU 与在 FP4 模式下运行的 Blackwells 进行比较,除了在绝对紧急情况下,否则考虑使用这种旧的熨斗是彻头彻尾的愚蠢。

显然,如果您需要按需租用实例,请租用 Blackwells 并在 FP4 模式下运行。如果你这样做,FP16 性能的成本会降低 9%,通过精密两档的降档,你可以将性能提高 4 倍,将性价比提高 4.4 倍。

摩尔定律只有在缩小精度的幌子下才真正存在,而不是在缩小晶体管的幌子上。FP2 有人吗?正如一些人所说,FP1 中没有意义。



关键词: GPU

评论


相关推荐

技术专区

关闭
肋间神经炎吃什么药 尿常规白细胞高是什么原因 约法三章什么意思 宠物蛇吃什么 县级市市长什么级别
什么空调最省电 一日三餐是什么生肖 炖乌鸡汤放什么配料 征候是什么意思 智能眼镜有什么功能
黄皮不能和什么一起吃 脾胃不好吃什么药好 hpv跟tct有什么区别 为什么喝酒 7月5日是什么日子
什么笑 癌症晚期吃什么食物好 半夜会醒是什么原因 下午3点是什么时辰 女生的逼长什么样
胆结石切除胆囊后有什么影响hcv9jop6ns0r.cn 回复1是什么意思hcv8jop5ns0r.cn 抗体和抗原有什么区别hcv8jop3ns2r.cn 发烧骨头疼是什么原因hcv8jop2ns1r.cn 胃疼是什么感觉hcv8jop2ns3r.cn
秋天有什么hcv7jop6ns4r.cn 热玛吉是什么意思hcv8jop1ns1r.cn 咦惹是什么意思hcv8jop3ns1r.cn 冠脉壁钙化是什么意思hcv9jop2ns7r.cn 热得直什么hcv7jop9ns8r.cn
梅兰竹菊代表什么生肖hcv7jop6ns4r.cn 溶血症是什么意思hcv9jop4ns4r.cn 暴饮暴食会得什么病hcv8jop7ns3r.cn 男生生理期是什么表现hcv9jop2ns3r.cn 壁虎进家里预示什么hcv9jop0ns1r.cn
什么是树洞hcv8jop1ns9r.cn 谷氨酰转肽酶是指什么xianpinbao.com 做肠镜要做什么准备hcv8jop1ns5r.cn 吃什么降糖快hcv8jop9ns8r.cn 流连忘返是什么生肖hcv9jop7ns1r.cn
百度