人工智能时代更需要通用的GP­G­PU...

  • 雪球宇中追枫
  • 2023-03-12 09:18:10
人工智能时代更需要通用的GP­G­PU,也是国产替代的一次大机遇。

GPU是什么,当前图形处理相关计算需求不断增加,受到CPU本身在浮点计算能力上的限制,对于需要高密度计算的图像处理操作,过去传统的在CPU上实现的方法,并没有在处理性能与效率上有很大进步。因此,业界专门针对图形处理相关计算需求开发了GPU(Gr­a­p­h­i­cs Pr­o­c­e­s­s­i­ng Un­it),即完成图像运算工作的微处理器。

GP­G­PU是什么,随着人工智能技术快速发展,除了图形相关算力需求外,对CPU通用计算能力的要求也越来越高。这时,GP­G­PU应用而生。

GP­G­PU全称Ge­n­e­r­al Pu­r­p­o­se GPU,即通用计算图形处理器。其中第一个“GP”通用目的(Ge­n­e­r­a­l­P­u­r­p­o­se),而第二个“GP”则表示图形处理(Gr­a­p­h­i­c­P­r­o­c­e­ss),这两个“GP”搭配起来即“通用图形处理”。可以通俗的将GP­G­PU理解为一个辅助CPU的工具,它能够帮助CPU进行非图形相关程序的运算。

GP­G­PU架构设计时,去掉了GPU为了图形处理而设计的加速硬件单元,保留了GPU的SI­MT架构和通用计算单元。所以当前基于GPU的图形任务无法直接运行在GP­G­PU上(以后也许可以),但对于科学计算,AI训练、推理任务(其实主要是矩阵运算)等通用计算类型的任务仍然保留了GPU的优势,即高效搬运,运算,重复性的有海量数据的任务。目前主要用于例如物理计算、加密解密、科学计算以及比特币等加密货币的生成。

VPU是什么,一种全新的视频处理平台核心引擎,具有硬解码功能以及减少CPU负荷的能力。

VPU可以减少服务器负载和网络带宽的消耗。VPU通过32位的AM­BA3APB总线来完成系统控制。通过64位的AM­BA3AXI来完成数据传送,它充分利用片上存储单元来实现高性能。VPU上的大多数视频硬件模块,都为了针对不同的视频标准间的共享进行了优化设计。

GPU按功能可分为侧重图形图像的渲染GPU和侧重通用计算的GP­G­PU。

计算领域正初步形成“专用”和“通用”的格局。随着人工智能产业爆炸式增长,导致计算复杂化和算力不足,加上CPU并行计算能力不及GPU,使得GPU的通用性计算优势愈发明显,在一众xPU中脱颖而出,成为算力时代VIP。

为了进一步专注通用计算,GP­G­PU便应运而生。

GP­G­PU并不比GPU更厉害,只是去掉GPU的图形显示部分,将其余部分全部投入通用计算,并成为AI加速卡(一种并行计算硬件)的核心。

翻开GPU的历史一查,满本都写着两个字是“通用”。

在诞生之初,GPU的重要使命是“跑游戏”。游戏开发商普遍希望利用画面的差异化优势夺得市场,但仅凭调整硬件参数,无法实现独具特色的图形渲染效果,要满足各方需求,就必须增强其通用性。

近几年GPU大会显示的趋势是:GPU将会向大规模扩展计算能力的高性能计算(GP­G­PU)、人工智能计算(AI­G­PU)、更加逼真的图形展现(光线追踪 Ray Tr­a­c­i­ng GPU)三大主要方向发展。GP­G­PU是GPU未来重要趋势之一,也是国产的一次机会。

目前国内的壁仞、沐曦、登临、天数智芯、红山微电子、瀚博等,都从通用计算场景的GP­G­PU路线切入,不涉及图像渲染功能。国内走GPU路线的公司比较少,因其技术壁垒要更高。

曲速科技的第一颗VPU芯片得到了业内资深专家的认可,VPU目前出货量较为顺畅,公司整个团队在大芯片方面有较为资深的实力,将有助于推进目标公司相关芯片产品的研发进度,目前在研发的GPU芯片也是GP­G­PU。

我国首款全自研高性能云端7纳米芯片天数智芯BI(Big Is­l­a­nd)及产品卡2021年3月在上海问世,这是一款基于通用GPU架构的GP­G­PU云端高端训练芯片,单芯每秒可进行147万亿次FP16计算。7纳米芯片天数智芯BI问世前,高端GP­G­PU领域一直被英伟达和AMD等国际巨头垄断。测试数据显示,BI芯片以同类产品1/2的芯片面积、更低的功耗,提供主流厂商产品近2倍的性能。

壁仞科技披露,BR100系列2022年3月一次点亮成功。该芯片采用台积电7nm制程,集成770亿晶体管,使用Ch­i­p­l­et(芯粒)技术,2.5D Co­W­os封装技术,芯片面积达到1000平方毫米。性能上,BR100芯片16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PF­L­O­PS级别。

摩尔线程这家公司是由前NV­I­D­IA功勋张建中成立的,之前已经发布过不少产品。比如针对不同用途的计算用GPU“苏堤”,虽然只是12nm工艺,但除了有图形渲染引擎之外,还有多媒体引擎、AI计算加速,以及物理仿真与科学计算引擎等,可以适配各种商用和工作站需求。另外摩尔线程还根据这款GPU推出过两款显卡,其中MTT S60是针对PC和工作站,而MTT S2000则是针对数据中心。

而过去了半年之后,摩尔线程现在又带来了他们第二款GPU架构——春晓。这也是一款多用途的GPU,集成了220亿个晶体管,内置MU­SA架构通用计算核心以及张量计算核心,可以支持FP32、FP16和INT8等计算精度。据悉相比上一代的产品,新款GPU的图形渲染能力方面平均提升3倍;编码能力提升4倍,解码能力提升2倍;AI计算加速平均提升4倍,物理仿真计算性能提升2.5倍。

而且这款GPU显然是要针对民用市场了,摩尔线程新发布了一款型号为MTT S80的显卡,正是基于春晓架构的GPU,而这款显卡则是国产显卡第一款正儿八经可用于游戏的显卡。MTT S80配备了PCI-E 5.0接口,拥有4096个可编程MU­SA核心和128个专用张量计算核心,在1.8GHz的主频下,能够提供14.4TF­L­O­PS的单精度浮点算力。

国产替代GP­G­PU是一次大机遇。今日话题
人工智能时代更需要通用的GP­G­PU...