谷歌已经建立了一项新技术来支持其语音搜索,该公司表示这将使其更快,更准确。 新技术使用连接主义时间分类(CTC)和序列判别训练技术。 2012年,谷歌从高斯混合模型(GMM)转向深度神经网络(DNN),这使公司能够更好地评估用户当时正在制作的声音,并提高语音识别准确度。
我们改进的声学模型依赖于递归神经网络(RNN)。 RNN在其拓扑中具有反馈回路,允许它们模拟时间依赖性:当用户在前面的示例中说话时,他们的发音装置来自/ j /声音和之前的/ m /声音。 试着大声说出来 - “博物馆” - 它一口气流动得非常自然,而RNN可以捕获它。 这里使用的RNN的类型是长短期存储器(LSTM)RNN,其通过存储器单元和复杂的选通机制,比其他RNN更好地存储信息。 采用这些模型已经显着提高了识别器的质量。
技术的变化已经由Google制定,现在用于在iOS和Android上的Google应用程序中为语音搜索提供支持,以及在Android设备上进行听写。
来源:谷歌研究博客