亚马逊的Rainier AI超级计算机到底...
- 种斌Marco
- 2025-01-17 01:48:33
亚马逊的Rainier AI超级计算机到底有多牛
亚马逊云科技(AWS)与AI公司Anthropic合作,正在建设全球最大的人工智能超级计算机之一,该项目被称为“Rainier”。
Rainier项目包含数十万个Trainium2芯片,预计可提供约130 FP8 ExaFLOPS的超强性能,运算能力是以往集群的5倍多。每颗芯片提供1.3 FP8 PetaFLOPS性能,支持BF16和FP8精度。搭载96GB HBM3,提供高达46 TB/s的带宽。通过NeuronLink网络实现多芯片互连,支持多达64芯片的服务器配置,并扩展到超大规模集群。
每台Trn2 UltraServer包含64枚Trainium2芯片,在运行稀疏FP8操作时,能提供332 Petaflops的聚合性能。借助12.8 Tb/s Elastic Fabric Adapter (EFA)网络进行互连,确保高效的数据传输。
10p10u网络架构:能够为数千台服务器提供高达10PB的网络容量,延迟时间低于10微秒。网络架构具有良好的弹性,可以缩小到只有几个机架,也可以扩展到跨多个物理数据中心园区的集群。
通过提供更快的训练时间,Rainier允许研究人员更快速地迭代模型。Trainium芯片的能效设计有助于降低训练大型模型的传统高昂成本。通过先进的AI算法,Rainier的基础设施可以加速自主车辆和机器人的部署,提高实时决策能力。AI创造营
亚马逊云科技(AWS)与AI公司Anthropic合作,正在建设全球最大的人工智能超级计算机之一,该项目被称为“Rainier”。
Rainier项目包含数十万个Trainium2芯片,预计可提供约130 FP8 ExaFLOPS的超强性能,运算能力是以往集群的5倍多。每颗芯片提供1.3 FP8 PetaFLOPS性能,支持BF16和FP8精度。搭载96GB HBM3,提供高达46 TB/s的带宽。通过NeuronLink网络实现多芯片互连,支持多达64芯片的服务器配置,并扩展到超大规模集群。
每台Trn2 UltraServer包含64枚Trainium2芯片,在运行稀疏FP8操作时,能提供332 Petaflops的聚合性能。借助12.8 Tb/s Elastic Fabric Adapter (EFA)网络进行互连,确保高效的数据传输。
10p10u网络架构:能够为数千台服务器提供高达10PB的网络容量,延迟时间低于10微秒。网络架构具有良好的弹性,可以缩小到只有几个机架,也可以扩展到跨多个物理数据中心园区的集群。
通过提供更快的训练时间,Rainier允许研究人员更快速地迭代模型。Trainium芯片的能效设计有助于降低训练大型模型的传统高昂成本。通过先进的AI算法,Rainier的基础设施可以加速自主车辆和机器人的部署,提高实时决策能力。AI创造营