人工智能时代更需要通用的GPGPU...
- 雪球宇中追枫
- 2023-03-12 09:18:10
人工智能时代更需要通用的GPGPU,也是国产替代的一次大机遇。
GPU是什么,当前图形处理相关计算需求不断增加,受到CPU本身在浮点计算能力上的限制,对于需要高密度计算的图像处理操作,过去传统的在CPU上实现的方法,并没有在处理性能与效率上有很大进步。因此,业界专门针对图形处理相关计算需求开发了GPU(Graphics Processing Unit),即完成图像运算工作的微处理器。
GPGPU是什么,随着人工智能技术快速发展,除了图形相关算力需求外,对CPU通用计算能力的要求也越来越高。这时,GPGPU应用而生。
GPGPU全称General Purpose GPU,即通用计算图形处理器。其中第一个“GP”通用目的(GeneralPurpose),而第二个“GP”则表示图形处理(GraphicProcess),这两个“GP”搭配起来即“通用图形处理”。可以通俗的将GPGPU理解为一个辅助CPU的工具,它能够帮助CPU进行非图形相关程序的运算。
GPGPU架构设计时,去掉了GPU为了图形处理而设计的加速硬件单元,保留了GPU的SIMT架构和通用计算单元。所以当前基于GPU的图形任务无法直接运行在GPGPU上(以后也许可以),但对于科学计算,AI训练、推理任务(其实主要是矩阵运算)等通用计算类型的任务仍然保留了GPU的优势,即高效搬运,运算,重复性的有海量数据的任务。目前主要用于例如物理计算、加密解密、科学计算以及比特币等加密货币的生成。
VPU是什么,一种全新的视频处理平台核心引擎,具有硬解码功能以及减少CPU负荷的能力。
VPU可以减少服务器负载和网络带宽的消耗。VPU通过32位的AMBA3APB总线来完成系统控制。通过64位的AMBA3AXI来完成数据传送,它充分利用片上存储单元来实现高性能。VPU上的大多数视频硬件模块,都为了针对不同的视频标准间的共享进行了优化设计。
GPU按功能可分为侧重图形图像的渲染GPU和侧重通用计算的GPGPU。
计算领域正初步形成“专用”和“通用”的格局。随着人工智能产业爆炸式增长,导致计算复杂化和算力不足,加上CPU并行计算能力不及GPU,使得GPU的通用性计算优势愈发明显,在一众xPU中脱颖而出,成为算力时代VIP。
为了进一步专注通用计算,GPGPU便应运而生。
GPGPU并不比GPU更厉害,只是去掉GPU的图形显示部分,将其余部分全部投入通用计算,并成为AI加速卡(一种并行计算硬件)的核心。
翻开GPU的历史一查,满本都写着两个字是“通用”。
在诞生之初,GPU的重要使命是“跑游戏”。游戏开发商普遍希望利用画面的差异化优势夺得市场,但仅凭调整硬件参数,无法实现独具特色的图形渲染效果,要满足各方需求,就必须增强其通用性。
近几年GPU大会显示的趋势是:GPU将会向大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AIGPU)、更加逼真的图形展现(光线追踪 Ray Tracing GPU)三大主要方向发展。GPGPU是GPU未来重要趋势之一,也是国产的一次机会。
目前国内的壁仞、沐曦、登临、天数智芯、红山微电子、瀚博等,都从通用计算场景的GPGPU路线切入,不涉及图像渲染功能。国内走GPU路线的公司比较少,因其技术壁垒要更高。
曲速科技的第一颗VPU芯片得到了业内资深专家的认可,VPU目前出货量较为顺畅,公司整个团队在大芯片方面有较为资深的实力,将有助于推进目标公司相关芯片产品的研发进度,目前在研发的GPU芯片也是GPGPU。
我国首款全自研高性能云端7纳米芯片天数智芯BI(Big Island)及产品卡2021年3月在上海问世,这是一款基于通用GPU架构的GPGPU云端高端训练芯片,单芯每秒可进行147万亿次FP16计算。7纳米芯片天数智芯BI问世前,高端GPGPU领域一直被英伟达和AMD等国际巨头垄断。测试数据显示,BI芯片以同类产品1/2的芯片面积、更低的功耗,提供主流厂商产品近2倍的性能。
壁仞科技披露,BR100系列2022年3月一次点亮成功。该芯片采用台积电7nm制程,集成770亿晶体管,使用Chiplet(芯粒)技术,2.5D CoWos封装技术,芯片面积达到1000平方毫米。性能上,BR100芯片16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别。
摩尔线程这家公司是由前NVIDIA功勋张建中成立的,之前已经发布过不少产品。比如针对不同用途的计算用GPU“苏堤”,虽然只是12nm工艺,但除了有图形渲染引擎之外,还有多媒体引擎、AI计算加速,以及物理仿真与科学计算引擎等,可以适配各种商用和工作站需求。另外摩尔线程还根据这款GPU推出过两款显卡,其中MTT S60是针对PC和工作站,而MTT S2000则是针对数据中心。
而过去了半年之后,摩尔线程现在又带来了他们第二款GPU架构——春晓。这也是一款多用途的GPU,集成了220亿个晶体管,内置MUSA架构通用计算核心以及张量计算核心,可以支持FP32、FP16和INT8等计算精度。据悉相比上一代的产品,新款GPU的图形渲染能力方面平均提升3倍;编码能力提升4倍,解码能力提升2倍;AI计算加速平均提升4倍,物理仿真计算性能提升2.5倍。
而且这款GPU显然是要针对民用市场了,摩尔线程新发布了一款型号为MTT S80的显卡,正是基于春晓架构的GPU,而这款显卡则是国产显卡第一款正儿八经可用于游戏的显卡。MTT S80配备了PCI-E 5.0接口,拥有4096个可编程MUSA核心和128个专用张量计算核心,在1.8GHz的主频下,能够提供14.4TFLOPS的单精度浮点算力。
国产替代GPGPU是一次大机遇。今日话题
GPU是什么,当前图形处理相关计算需求不断增加,受到CPU本身在浮点计算能力上的限制,对于需要高密度计算的图像处理操作,过去传统的在CPU上实现的方法,并没有在处理性能与效率上有很大进步。因此,业界专门针对图形处理相关计算需求开发了GPU(Graphics Processing Unit),即完成图像运算工作的微处理器。
GPGPU是什么,随着人工智能技术快速发展,除了图形相关算力需求外,对CPU通用计算能力的要求也越来越高。这时,GPGPU应用而生。
GPGPU全称General Purpose GPU,即通用计算图形处理器。其中第一个“GP”通用目的(GeneralPurpose),而第二个“GP”则表示图形处理(GraphicProcess),这两个“GP”搭配起来即“通用图形处理”。可以通俗的将GPGPU理解为一个辅助CPU的工具,它能够帮助CPU进行非图形相关程序的运算。
GPGPU架构设计时,去掉了GPU为了图形处理而设计的加速硬件单元,保留了GPU的SIMT架构和通用计算单元。所以当前基于GPU的图形任务无法直接运行在GPGPU上(以后也许可以),但对于科学计算,AI训练、推理任务(其实主要是矩阵运算)等通用计算类型的任务仍然保留了GPU的优势,即高效搬运,运算,重复性的有海量数据的任务。目前主要用于例如物理计算、加密解密、科学计算以及比特币等加密货币的生成。
VPU是什么,一种全新的视频处理平台核心引擎,具有硬解码功能以及减少CPU负荷的能力。
VPU可以减少服务器负载和网络带宽的消耗。VPU通过32位的AMBA3APB总线来完成系统控制。通过64位的AMBA3AXI来完成数据传送,它充分利用片上存储单元来实现高性能。VPU上的大多数视频硬件模块,都为了针对不同的视频标准间的共享进行了优化设计。
GPU按功能可分为侧重图形图像的渲染GPU和侧重通用计算的GPGPU。
计算领域正初步形成“专用”和“通用”的格局。随着人工智能产业爆炸式增长,导致计算复杂化和算力不足,加上CPU并行计算能力不及GPU,使得GPU的通用性计算优势愈发明显,在一众xPU中脱颖而出,成为算力时代VIP。
为了进一步专注通用计算,GPGPU便应运而生。
GPGPU并不比GPU更厉害,只是去掉GPU的图形显示部分,将其余部分全部投入通用计算,并成为AI加速卡(一种并行计算硬件)的核心。
翻开GPU的历史一查,满本都写着两个字是“通用”。
在诞生之初,GPU的重要使命是“跑游戏”。游戏开发商普遍希望利用画面的差异化优势夺得市场,但仅凭调整硬件参数,无法实现独具特色的图形渲染效果,要满足各方需求,就必须增强其通用性。
近几年GPU大会显示的趋势是:GPU将会向大规模扩展计算能力的高性能计算(GPGPU)、人工智能计算(AIGPU)、更加逼真的图形展现(光线追踪 Ray Tracing GPU)三大主要方向发展。GPGPU是GPU未来重要趋势之一,也是国产的一次机会。
目前国内的壁仞、沐曦、登临、天数智芯、红山微电子、瀚博等,都从通用计算场景的GPGPU路线切入,不涉及图像渲染功能。国内走GPU路线的公司比较少,因其技术壁垒要更高。
曲速科技的第一颗VPU芯片得到了业内资深专家的认可,VPU目前出货量较为顺畅,公司整个团队在大芯片方面有较为资深的实力,将有助于推进目标公司相关芯片产品的研发进度,目前在研发的GPU芯片也是GPGPU。
我国首款全自研高性能云端7纳米芯片天数智芯BI(Big Island)及产品卡2021年3月在上海问世,这是一款基于通用GPU架构的GPGPU云端高端训练芯片,单芯每秒可进行147万亿次FP16计算。7纳米芯片天数智芯BI问世前,高端GPGPU领域一直被英伟达和AMD等国际巨头垄断。测试数据显示,BI芯片以同类产品1/2的芯片面积、更低的功耗,提供主流厂商产品近2倍的性能。
壁仞科技披露,BR100系列2022年3月一次点亮成功。该芯片采用台积电7nm制程,集成770亿晶体管,使用Chiplet(芯粒)技术,2.5D CoWos封装技术,芯片面积达到1000平方毫米。性能上,BR100芯片16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别。
摩尔线程这家公司是由前NVIDIA功勋张建中成立的,之前已经发布过不少产品。比如针对不同用途的计算用GPU“苏堤”,虽然只是12nm工艺,但除了有图形渲染引擎之外,还有多媒体引擎、AI计算加速,以及物理仿真与科学计算引擎等,可以适配各种商用和工作站需求。另外摩尔线程还根据这款GPU推出过两款显卡,其中MTT S60是针对PC和工作站,而MTT S2000则是针对数据中心。
而过去了半年之后,摩尔线程现在又带来了他们第二款GPU架构——春晓。这也是一款多用途的GPU,集成了220亿个晶体管,内置MUSA架构通用计算核心以及张量计算核心,可以支持FP32、FP16和INT8等计算精度。据悉相比上一代的产品,新款GPU的图形渲染能力方面平均提升3倍;编码能力提升4倍,解码能力提升2倍;AI计算加速平均提升4倍,物理仿真计算性能提升2.5倍。
而且这款GPU显然是要针对民用市场了,摩尔线程新发布了一款型号为MTT S80的显卡,正是基于春晓架构的GPU,而这款显卡则是国产显卡第一款正儿八经可用于游戏的显卡。MTT S80配备了PCI-E 5.0接口,拥有4096个可编程MUSA核心和128个专用张量计算核心,在1.8GHz的主频下,能够提供14.4TFLOPS的单精度浮点算力。
国产替代GPGPU是一次大机遇。今日话题