Nvidia多个ASR模型(Canary-1b...

  • 黄建同学
  • 2024-10-02 08:45:08
Nvidia多个ASR模型(Canary-1b,Parakeet-tdt-1.1b等)在排行榜上超越了OpenAI的Whisper↓ai科技

Nvidia还专门出了一篇Blog解释他们做了什么:
• CTC 模型 ( nvidia/parakeet-ctc-1.1b ):此模型具有FastConformer编码器和 softmax 预测头。它是非自回归的,这意味着未来的预测不依赖于之前的预测,从而实现快速高效的推理。

• RNN-T 模型 ( nvidia/parakeet-rnnt-1.1b ):此传感器transducer模型为 FastConformer 编码器添加了一个预测和联合网络,使其具有自回归性 - 每个预测都取决于之前的预测历史。由于此特性,人们普遍误以为 RNN-T 模型对于 GPU 推理来说速度很慢,更适合 CPU。

• TDT 模型 ( nvidia/parakeet-tdt-1.1b ):另一种传感器transducer模型,但使用一种称为标记和持续时间传感器 (TDT) 的改进传感器目标进行训练。虽然仍然是自回归的,但它可以在每一步执行多个预测,从而加快推理速度。

• TDT-CTC 模型 ( parakeet-tdt_ctc-110m ):这是传感器transducer和 CTC 解码器的混合变体,在训练过程中同时使用两个解码器,以便更快地收敛。它允许只训练一个模型来处理两个解码器。

• AED 模型(nvidia/canary-1b):注意力编码器-解码器 (AED) 模型也基于 FastConformer,具有自回归特性,并且以额外的计算为代价提供最高精度(最低字错误率,即 WER)。

详细:developer.nvidia.com/blog/accelerating-leaderboard-topping-asr-models-10x-with-nvidia-nemo/

ChatGPT
Nvidia多个ASR模型(Canary-1b...Nvidia多个ASR模型(Canary-1b...Nvidia多个ASR模型(Canary-1b...Nvidia多个ASR模型(Canary-1b...Nvidia多个ASR模型(Canary-1b...Nvidia多个ASR模型(Canary-1b...