语音转文本

内容纲要

ASR: Automatic Speech Recognition

  1. 商业: 科大讯飞, 阿里, 腾讯等
  2. 开源
    • Kaldi: HMM-GMM传统的机器学习模型为主, 需要比较多的语音领域知识, 主要目标也是给研究人员使用.
    • NVIDIA NeMo ASR: 主要是RNNs+CTC
    • ASRT 中文ASR: 中文ASR包, CNN+CTC, 80%准确率(为啥是准确率?)
    • [Wav2Vec 2.0](): 大量音频数据预训练,再通过微调适应具体项目.
    • [Whisper](): OpenAI新研究, Transformer, 收集超大量数据集, ,目标是不做任何微调,直接使用.

和其他领域类似, 一开始传统机器学习不能端到端,需要了解很多语音知识, 到深度学习模型+CTC可以端到端进行训练和预测, 后来开始进行无监督或自监督的预训练和微调, 到最新的Whisper在超大的数据上直接端到端训练直接使用.

所以如果有GPU资源, 最好的资源是深度学习+CTC,非常成熟有很多资源可以使用.
如果额外还有资源进行数据整理标注和微调, 那么现在使用Whisper的模型进行微调, 可以得到更好的结果, 特别是Whisper在多语言上进行了训练, 结果更加稳定.

指标

WER(Word Error Rate)=(I+D+S)/NWER=(I+D+S)/N 是最常用的指标, I: Insert, D: Delete, S: Substitution , 越低越好.

发表评论