Facebook推出全卷积语音识别方法，并开源wav2letter++和flashlight

文章由LinuxBoy分享于2019-03-27 11:03:02热评（126）

Facebook推出全卷积语音识别方法，并开源wav2letter++和flashlight

上周，Facebook AI Research（FAIR）演讲团队推出了第一个完全卷积语音识别方法。此外，他们还开源flashlight，一个用于机器学习的C++库和wav2letter++，一个用于开发端到端语音识别的快速而简单的系统。

完全卷积语音识别方法

当前最先进的语音识别系统建立在RNN上，用于声学或语言建模。 Facebook新推出的系统提供了一种仅基于卷积神经网络的替代方法。该系统完全消除了特征提取步骤，因为它是端到端训练以预测原始波形中的字符。它使用外部卷积语言模型来解码单词。

下图描绘了这种基于CNN的语音识别系统的架构：

Facebook推出全卷积语音识别方法，并开源wav2letter++和flashlight

来源：Facebook

可学习的前端：系统的这一部分首先包含宽度为2的卷积，它模拟预加重步骤，然后是宽度为25 ms的复数卷积。在计算平方绝对值之后，低通滤波器和步幅执行抽取。前端最终应用了对数压缩和每通道均值方差归一化。

声学模型：它是带有门控线性单元（GLU）的CNN，它由可学习前端的输出提供。训练这些声学模型以直接使用自动分割标准预测字母。

语言模型：卷积语言模型（LM）包含14个卷积残差块，并使用GLU作为激活函数。除了波束搜索解码器中的声学模型之外，它还用于对候选转录进行评分。

波束搜索解码器：波束搜索解码器用于根据我们的声学模型的输出生成词序列。

除了这种基于CNN的方法，Facebook还发布了wav2letter ++和flashlight框架，以补充这种方法并实现可重复性。

flashlight是一个用于机器学习的C ++独立库。它使用ArrayFire张量库，并具有与现代C++的即时编译功能。它针对CPU和GPU后端，以提供最高的效率和规模。

wav2letter++工具包构建在flashlight之上，完全用C++编写。它还使用ArrayFire作为张量操作的主库。 ArrayFire是一个高度优化的张量库，可以在多个后端上执行，包括CUDA GPU和CPU支持。它支持多种音频文件格式，如wav和flac。此外，还支持多种功能类型，包括原始音频，线性缩放功率谱，log-Mels（MFSC）和MFCC。

要了解更多详细信息，请查看Facebook的官方公告。

linuxboy的RSS地址：https://www.linuxboy.net/rssFeed.aspx

本文永久更新链接地址：https://www.linuxboy.net/Linux/2018-12/156019.htm

推荐文章：

Facebook开源wav2letter++，最先进的语音系统
Facebook 开源首个全卷积语音识别工具包 wav2

Facebook推出全卷积语音识别方法，并开源wav2letter++和flashlight