人工智能时代更需要通用的GPGPU...

雪球宇中追枫
2023-03-12 09:18:10

人工智能时代更需要通用的GPGPU，也是国产替代的一次大机遇。

GPU是什么，当前图形处理相关计算需求不断增加，受到CPU本身在浮点计算能力上的限制，对于需要高密度计算的图像处理操作，过去传统的在CPU上实现的方法，并没有在处理性能与效率上有很大进步。因此，业界专门针对图形处理相关计算需求开发了GPU（Graphics Processing Unit），即完成图像运算工作的微处理器。

GPGPU是什么，随着人工智能技术快速发展，除了图形相关算力需求外，对CPU通用计算能力的要求也越来越高。这时，GPGPU应用而生。

GPGPU全称General Purpose GPU，即通用计算图形处理器。其中第一个“GP”通用目的（GeneralPurpose），而第二个“GP”则表示图形处理（GraphicProcess），这两个“GP”搭配起来即“通用图形处理”。可以通俗的将GPGPU理解为一个辅助CPU的工具，它能够帮助CPU进行非图形相关程序的运算。

GPGPU架构设计时，去掉了GPU为了图形处理而设计的加速硬件单元，保留了GPU的SIMT架构和通用计算单元。所以当前基于GPU的图形任务无法直接运行在GPGPU上（以后也许可以），但对于科学计算，AI训练、推理任务（其实主要是矩阵运算）等通用计算类型的任务仍然保留了GPU的优势，即高效搬运，运算，重复性的有海量数据的任务。目前主要用于例如物理计算、加密解密、科学计算以及比特币等加密货币的生成。

VPU是什么，一种全新的视频处理平台核心引擎，具有硬解码功能以及减少CPU负荷的能力。

VPU可以减少服务器负载和网络带宽的消耗。VPU通过32位的AMBA3APB总线来完成系统控制。通过64位的AMBA3AXI来完成数据传送，它充分利用片上存储单元来实现高性能。VPU上的大多数视频硬件模块，都为了针对不同的视频标准间的共享进行了优化设计。

GPU按功能可分为侧重图形图像的渲染GPU和侧重通用计算的GPGPU。

计算领域正初步形成“专用”和“通用”的格局。随着人工智能产业爆炸式增长，导致计算复杂化和算力不足，加上CPU并行计算能力不及GPU，使得GPU的通用性计算优势愈发明显，在一众xPU中脱颖而出，成为算力时代VIP。

为了进一步专注通用计算，GPGPU便应运而生。

GPGPU并不比GPU更厉害，只是去掉GPU的图形显示部分，将其余部分全部投入通用计算，并成为AI加速卡（一种并行计算硬件）的核心。

翻开GPU的历史一查，满本都写着两个字是“通用”。

在诞生之初，GPU的重要使命是“跑游戏”。游戏开发商普遍希望利用画面的差异化优势夺得市场，但仅凭调整硬件参数，无法实现独具特色的图形渲染效果，要满足各方需求，就必须增强其通用性。

近几年GPU大会显示的趋势是：GPU将会向大规模扩展计算能力的高性能计算（GPGPU）、人工智能计算（AIGPU）、更加逼真的图形展现（光线追踪 Ray Tracing GPU)三大主要方向发展。GPGPU是GPU未来重要趋势之一，也是国产的一次机会。

目前国内的壁仞、沐曦、登临、天数智芯、红山微电子、瀚博等，都从通用计算场景的GPGPU路线切入，不涉及图像渲染功能。国内走GPU路线的公司比较少，因其技术壁垒要更高。

曲速科技的第一颗VPU芯片得到了业内资深专家的认可，VPU目前出货量较为顺畅，公司整个团队在大芯片方面有较为资深的实力，将有助于推进目标公司相关芯片产品的研发进度，目前在研发的GPU芯片也是GPGPU。

我国首款全自研高性能云端7纳米芯片天数智芯BI（Big Island）及产品卡2021年3月在上海问世，这是一款基于通用GPU架构的GPGPU云端高端训练芯片，单芯每秒可进行147万亿次FP16计算。7纳米芯片天数智芯BI问世前，高端GPGPU领域一直被英伟达和AMD等国际巨头垄断。测试数据显示，BI芯片以同类产品1/2的芯片面积、更低的功耗，提供主流厂商产品近2倍的性能。

壁仞科技披露，BR100系列2022年3月一次点亮成功。该芯片采用台积电7nm制程，集成770亿晶体管，使用Chiplet（芯粒）技术，2.5D CoWos封装技术，芯片面积达到1000平方毫米。性能上，BR100芯片16位浮点算力达到1000T以上、8位定点算力达到2000T以上，单芯片峰值算力达到PFLOPS级别。

摩尔线程这家公司是由前NVIDIA功勋张建中成立的，之前已经发布过不少产品。比如针对不同用途的计算用GPU“苏堤”，虽然只是12nm工艺，但除了有图形渲染引擎之外，还有多媒体引擎、AI计算加速，以及物理仿真与科学计算引擎等，可以适配各种商用和工作站需求。另外摩尔线程还根据这款GPU推出过两款显卡，其中MTT S60是针对PC和工作站，而MTT S2000则是针对数据中心。

而过去了半年之后，摩尔线程现在又带来了他们第二款GPU架构——春晓。这也是一款多用途的GPU，集成了220亿个晶体管，内置MUSA架构通用计算核心以及张量计算核心，可以支持FP32、FP16和INT8等计算精度。据悉相比上一代的产品，新款GPU的图形渲染能力方面平均提升3倍；编码能力提升4倍，解码能力提升2倍；AI计算加速平均提升4倍，物理仿真计算性能提升2.5倍。

而且这款GPU显然是要针对民用市场了，摩尔线程新发布了一款型号为MTT S80的显卡，正是基于春晓架构的GPU，而这款显卡则是国产显卡第一款正儿八经可用于游戏的显卡。MTT S80配备了PCI-E 5.0接口，拥有4096个可编程MUSA核心和128个专用张量计算核心，在1.8GHz的主频下，能够提供14.4TFLOPS的单精度浮点算力。

国产替代GPGPU是一次大机遇。今日话题