Facebook推出全卷积语音识别方法,并开源wav2letter++和flashlight


上周,Facebook AI Research(FAIR)演讲团队推出了第一个完全卷积语音识别方法。此外,他们还开源flashlight,一个用于机器学习的C++库和wav2letter++,一个用于开发端到端语音识别的快速而简单的系统。

完全卷积语音识别方法

当前最先进的语音识别系统建立在RNN上,用于声学或语言建模。 Facebook新推出的系统提供了一种仅基于卷积神经网络的替代方法。该系统完全消除了特征提取步骤,因为它是端到端训练以预测原始波形中的字符。它使用外部卷积语言模型来解码单词。

下图描绘了这种基于CNN的语音识别系统的架构:

Facebook推出全卷积语音识别方法,并开源wav2letter++和flashlight

来源:Facebook

可学习的前端:系统的这一部分首先包含宽度为2的卷积,它模拟预加重步骤,然后是宽度为25 ms的复数卷积。在计算平方绝对值之后,低通滤波器和步幅执行抽取。前端最终应用了对数压缩和每通道均值方差归一化。

声学模型:它是带有门控线性单元(GLU)的CNN,它由可学习前端的输出提供。训练这些声学模型以直接使用自动分割标准预测字母。

语言模型:卷积语言模型(LM)包含14个卷积残差块,并使用GLU作为激活函数。除了波束搜索解码器中的声学模型之外,它还用于对候选转录进行评分。

波束搜索解码器:波束搜索解码器用于根据我们的声学模型的输出生成词序列。

除了这种基于CNN的方法,Facebook还发布了wav2letter ++和flashlight框架,以补充这种方法并实现可重复性。

flashlight是一个用于机器学习的C ++独立库。它使用ArrayFire张量库,并具有与现代C++的即时编译功能。它针对CPU和GPU后端,以提供最高的效率和规模。

wav2letter++工具包构建在flashlight之上,完全用C++编写。它还使用ArrayFire作为张量操作的主库。 ArrayFire是一个高度优化的张量库,可以在多个后端上执行,包括CUDA GPU和CPU支持。它支持多种音频文件格式,如wav和flac。此外,还支持多种功能类型,包括原始音频,线性缩放功率谱,log-Mels(MFSC)和MFCC。

要了解更多详细信息,请查看Facebook的官方公告。

linuxboy的RSS地址:https://www.linuxboy.net/rssFeed.aspx

本文永久更新链接地址:https://www.linuxboy.net/Linux/2018-12/156019.htm

相关内容