辽宁语音识别设置

时间：2023年09月21日来源：

LSTM)的循环神经网络RNN，能够通过遗忘门和输出门忘记部分信息来解决梯度消失的问题。由LSTM也衍生出了许多变体，较为常用的是门控循环单元(GatedRecurrentUnit，GRU)，在训练数据很大的情况下GRU相比LSTM参数更少，因此更容易收敛，从而能节省很多时间。LSTM及其变体使得识别效果再次得到提升，尤其是在近场的语音识别任务上达到了可以满足人们日常生活的标准。另外，时延神经网络(TimeDelayNeuralNetwork，TDNN)也获得了不错的识别效果，它可以适应语音的动态时域变化，能够学习到特征之间的时序依赖。深度学习技术在近十几年中，一直保持着飞速发展的状态，它也推动语音识别技术不断取得突破。尤其是近几年，基于端到端的语音识别方案逐渐成了行业中的关注重点，CTC(ConnectionistTemporalClassification)算法就是其中一个较为经典的算法。在LSTM-CTC的框架中，后一层往往会连接一个CTC模型，用它来替换HMM。CTC的作用是将Softmax层的输出向量直接输出成序列标签，这样就实现了输入语音和输出结果的直接映射，也实现了对整个语音的序列建模。2012年，Graves等人又提出了循环神经网络变换器RNNTransducer，它是CTC的一个扩展，能够整合声学模型与语言模型，同时进行优化。语音识别模块被广泛应用在AI人工智能产品、智能家居遥控、智能玩具等多种领域上。辽宁语音识别设置

美国**部下属的一个名为美国**高级研究计划局(DefenseAdvancedResearchProjectsAgency，DARPA)的行政机构，在20世纪70年代介入语音领域，开始资助一项旨在支持语言理解系统的研究开发工作的10年战略计划。在该计划推动下，诞生了一系列不错的研究成果，如卡耐基梅隆大学推出了Harpy系统，其能识别1000多个单词且有不错的识别率。第二阶段：统计模型(GMM-HMM)到了20世纪80年代，更多的研究人员开始从对孤立词识别系统的研究转向对大词汇量连续语音识别系统的研究，并且大量的连续语音识别算法应运而生，例如分层构造(LevelBuilding)算法等。同时，20世纪80年代的语音识别研究相较于20世纪70年代，另一个变化是基于统计模型的技术逐渐替代了基于模板匹配的技术。统计模型两项很重要的成果是声学模型和语言模型，语言模型以n元语言模型(n-gram)，声学模型以HMM。HMM的理论基础在1970年前后由Baum等人建立，随后由卡耐基梅隆大学(CMU)的Baker和IBM的Jelinek等人应用到语音识别中。在20世纪80年代中期，Bell实验室的.Rabiner等人对HMM进行了深入浅出的介绍。并出版了语音识别专著FundamentalsofSpeechRecognition，有力地推动了HMM在语音识别中的应用。辽宁安卓语音识别一些语音识别系统需要“训练”(也称为“注册”)，其中个体说话者将文本或孤立的词汇读入系统。

CNN本质上也可以看作是从语音信号中不断抽取特征的一个过程。CNN相比于传统的DNN模型，在相同性能情况下，前者的参数量更少。综上所述，对于建模能力来说，DNN适合特征映射到空间，LSTM具有长短时记忆能力，CNN擅长减少语音信号的多样性，因此一个好的语音识别系统是这些网络的组合。端到端时代语音识别的端到端方法主要是代价函数发生了变化，但神经网络的模型结构并没有太大变化。总体来说，端到端技术解决了输入序列的长度远大于输出序列长度的问题。端到端技术主要分成两类：一类是CTC方法，另一类是Sequence-to-Sequence方法。传统语音识别DNN-HMM架构里的声学模型，每一帧输入都对应一个标签类别，标签需要反复的迭代来确保对齐更准确。采用CTC作为损失函数的声学模型序列，不需要预先对数据对齐，只需要一个输入序列和一个输出序列就可以进行训练。CTC关心的是预测输出的序列是否和真实的序列相近，而不关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。CTC建模单元是音素或者字，因此它引入了Blank。对于一段语音，CTC输出的是尖峰的序列，尖峰的位置对应建模单元的Label，其他位置都是Blank。Sequence-to-Sequence方法原来主要应用于机器翻译领域。

Google将其应用于语音识别领域，取得了非常好的效果，将词错误率降低至。如下图所示，Google提出新系统的框架由三个部分组成：Encoder编码器组件，它和标准的声学模型相似，输入的是语音信号的时频特征；经过一系列神经网络，映射成高级特征henc，然后传递给Attention组件，其使用henc特征学习输入x和预测子单元之间的对齐方式，子单元可以是一个音素或一个字。，attention模块的输出传递给Decoder，生成一系列假设词的概率分布，类似于传统的语言模型。端到端技术的突破，不再需要HMM来描述音素内部状态的变化，而是将语音识别的所有模块统一成神经网络模型，使语音识别朝着更简单、更高效、更准确的方向发展。语音识别的技术现状目前，主流语音识别框架还是由3个部分组成：声学模型、语言模型和解码器，有些框架也包括前端处理和后处理。随着各种深度神经网络以及端到端技术的兴起，声学模型是近几年非常热门的方向，业界都纷纷发布自己新的声学模型结构，刷新各个数据库的识别记录。由于中文语音识别的复杂性，国内在声学模型的研究进展相对更快一些，主流方向是更深更复杂的神经网络技术融合端到端技术。2018年，科大讯飞提出深度全序列卷积神经网络（DFCNN）。

不使用训练的系统被称为“说话者无关”系统。

它在某些实际场景下的识别率无法达到人们对实际应用的要求和期望，这个阶段语音识别的研究陷入了瓶颈期。第三阶段：深度学习(DNN-HMM，E2E)2006年，变革到来。Hinton在全世界学术期刊Science上发表了论文，di一次提出了"深度置信网络"的概念。深度置信网络与传统训练方式的不同之处在于它有一个被称为"预训练"(pre-training)的过程，其作用是为了让神经网络的权值取到一个近似优解的值，之后使用反向传播算法(BP)或者其他算法进行"微调"(fine-tuning)，使整个网络得到训练优化。Hinton给这种多层神经网络的相关学习方法赋予了一个全新的名词——"深度学习"(DeepLearning，DL)。深度学习不*使深层的神经网络训练变得更加容易，缩短了网络的训练时间，而且还大幅度提升了模型的性能。以这篇划时代的论文的发表为转折点，从此，全世界再次掀起了对神经网络的研究热潮，揭开了属于深度学习的时代序幕。在2009年，Hinton和他的学生Mohamed将深层神经网络(DNN)应用于声学建模，他们的尝试在TIMIT音素识别任务上取得了成功。然而TIMIT数据库包含的词汇量较小。在面对连续语音识别任务时还往往达不到人们期望的识别词和句子的正确率。2012年。语音识别的许多方面已经被一种叫做长短期记忆 (LSTM)的深度学习方法所取代。辽宁安卓语音识别

舌头部位不同可以发出多种音调，组合变化多端的辅音，可产生大量的、相似的发音，这对语音识别提出了挑战。辽宁语音识别设置

DBN），促使了深度神经网络（DNN）研究的复苏。2009年，Hinton将DNN应用于语音的声学建模，在TIMIT上获得了当时比较好的结果。2011年底，微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上，降低了语音识别错误率。从此语音识别进入DNN-HMM时代。DNN-HMM主要是用DNN模型代替原来的GMM模型，对每一个状态进行建模，DNN带来的好处是不再需要对语音数据分布进行假设，将相邻的语音帧拼接又包含了语音的时序结构信息，使得对于状态的分类概率有了明显提升，同时DNN还具有强大环境学习能力，可以提升对噪声和口音的鲁棒性。简单来说，DNN就是给出输入的一串特征所对应的状态概率。由于语音信号是连续的，不仅各个音素、音节以及词之间没有明显的边界，各个发音单位还会受到上下文的影响。虽然拼帧可以增加上下文信息，但对于语音来说还是不够。而递归神经网络（RNN）的出现可以记住更多历史信息，更有利于对语音信号的上下文信息进行建模。由于简单的RNN存在梯度和梯度消散问题，难以训练，无法直接应用于语音信号建模上，因此学者进一步探索，开发出了很多适合语音建模的RNN结构，其中有名的就是LSTM。

辽宁语音识别设置

上一篇：浙江语音服务介绍

下一篇：贵州自主可控语音服务供应