0

    编码器和解码器具有相同的宽度和数量的Transformers块

    2024.02.02 | admin | 36次围观

      拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。

      Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务。Whisper的架构是一个简单的端到端方法,采用了编码器-解码器的Transformer模型,将输入的音频转换为对应的文本序列,并根据特殊的标记来指定不同的任务。

      Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。OpenAI 开放模型和推理代码,希望开发者可以将 Whisper 作为建立有用的应用程序和进一步研究语音处理技术的基础。

      代码地址:

      Whisper模型是在68万小时标记音频数据的数据集上训练的,其中包括11.7万小时96种不同语言的演讲和12.5万小时从”任意语言“到英语的翻译数据。该模型利用了互联网生成的文本,这些文本是由其他自动语音识别系统(ASR)生成而不是人类创建的。该数据集还包括一个在VoxLingua107上训练的语言检测器,这是从YouTube视频中提取的短语音片段的集合,并根据视频标题和描述的语言进行标记,并带有额外的步骤来去除误报。

      主要采用的结构是编码器-解码器结构。

      重采样:16000 Hz

      特征提取方法:使用25毫秒的窗口和10毫秒的步幅计算80通道的log Mel谱图表示。

      特征归一化:输入在全局内缩放到-1到1之间,并且在预训练数据集上具有近似为零的平均值。

      编码器/解码器:该模型的编码器和解码器采用Transformers。

    编码器的过程

      编码器首先使用一个包含两个卷积层(滤波器宽度为3)的词干处理输入表示,使用GELU激活函数。

      第二个卷积层的步幅为 2。

      然后将正弦位置嵌入添加到词干的输出中,然后应用编码器 Transformer 块。

      Transformers使用预激活残差块,编码器的输出使用归一化层进行归一化。

    模型结构

      

    解码的过程

      在解码器中,使用了学习位置嵌入和绑定输入输出标记表示。

      编码器和解码器具有相同的宽度和数量的Transformers块。

      输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图,然后传递到编码器。解码器经过训练以预测相应的文字说明,并与特殊的标记进行混合,这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。

      相比目前市面上的其他现有方法,它们通常使用较小的、更紧密配对的「音频 - 文本」训练数据集,或使用广泛但无监督的音频预训练集。因为 Whisper 是在一个大型和多样化的数据集上训练的,而没有针对任何特定的数据集进行微调,虽然它没有击败专攻 LibriSpeech 性能的模型(著名的语音识别基准测试),然而在许多不同的数据集上测量 Whisper 的 Zero-shot(不需要对新数据集重新训练,就能得到很好的结果)性能时,研究人员发现它比那些模型要稳健得多,犯的错误要少 50%。

      为了改进模型的缩放属性,它在不同的输入大小上进行了训练。

    通过 FP16、动态损失缩放,并采用数据并行来训练模型。使用AdamW和梯度范数裁剪,在对前 2048 次更新进行预热后,线性学习率衰减为零。使用 256 个批大小,并训练模型进行 220次更新,这相当于对数据集进行两到三次前向传递。

      由于模型只训练了几个轮次,过拟合不是一个重要问题,并且没有使用数据增强或正则化技术。这反而可以依靠大型数据集内的多样性来促进泛化和鲁棒性。

      Whisper 在之前使用过的数据集上展示了良好的准确性,并且已经针对其他最先进的模型进行了测试。

      Whisper 已经在真实数据以及其他模型上使用的数据以及弱监督下进行了训练。

      模型的准确性针对人类听众进行了测试并评估其性能。

      它能够检测清音区域并应用 NLP 技术在转录本中正确进行标点符号的输入。

      模型是可扩展的,允许从音频信号中提取转录本,而无需将视频分成块或批次,从而降低了漏音的风险。

      模型在各种数据集上取得了更高的准确率。

      Whisper在不同数据集上的对比结果,相比wav2vec取得了目前最低的词错误率

      模型没有在timit数据集上进行测试,所以为了检查它的单词错误率,我们将在这里演示如何使用Whisper来自行验证timit数据集,也就是说使用Whisper来搭建我们自己的语音识别应用。

      whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求和相对速度。

      

      模型的官方下载地址:

      参见:

      输出内容如下:

      执行命令时,会自动进行模型下载,自动下载模型存储的路径如下:

      也可以通过命令行制定本地模型运行:

      支持的文件格式:m4a、mp3、mp4、mpeg、mpga、wav、webm

    编码器和解码器具有相同的宽度和数量的Transformers块
    版权声明

    本文仅代表作者观点,不代表xx立场。
    本文系作者授权xxx发表,未经许可,不得转载。

    发表评论