安徽语音识别在线

时间：2023年12月02日来源：

中国科学院声学所成为国内shou个开始研究计算机语音识别的机构。受限于当时的研究条件，我国的语音识别研究在这个阶段一直进展缓慢。放开以后，随着计算机应用技术和信号处理技术在我国的普及，越来越多的国内单位和机构具备了语音研究的成熟条件。而就在此时，外国的语音识别研究取得了较大的突破性进展，语音识别成为科技浪潮的前沿，得到了迅猛的发展，这推动了包括中科院声学所、中科院自动化所、清华大学、中国科技大学、哈尔滨工业大学、上海交通大学、西北工业大学、厦门大学等许多国内科研机构和高等院校投身到语音识别的相关研究当中。大多数的研究者将研究重点聚焦在语音识别基础理论研究和模型、算法的研究改进上。1986年3月，我国的"863"计划正式启动。"863"计划即国家高技术研究发展计划，是我国的一项高科技发展计划。作为计算机系统和智能科学领域的一个重要分支。语音识别在该计划中被列为一个专项研究课题。随后，我国展开了系统性的针对语音识别技术的研究。因此，对于我国国内的语音识别行业来说，"863"计划是一个里程碑，它标志着我国的语音识别技术进入了一个崭新的发展阶段。但是由于研究起步晚、基础薄弱、硬件条件和计算能力有限。语音识别技术在个人助理、智能家居等很多领域都有运用到。安徽语音识别在线

3）上述两个问题的共性是目前的深度学习用到了语音信号各个频带的能量信息，而忽略了语音信号的相位信息，尤其是对于多通道而言，如何让深度学习更好的利用相位信息可能是未来的一个方向。（4）另外，在较少数据量的情况下，如何通过迁移学习得到一个好的声学模型也是研究的热点方向。例如方言识别，若有一个比较好的普通话声学模型，如何利用少量的方言数据得到一个好的方言声学模型，如果做到这点将极大扩展语音识别的应用范畴。这方面已经取得了一些进展，但更多的是一些训练技巧，距离目标还有一定差距。（5）语音识别的目的是让机器可以理解人类，因此转换成文字并不是终的目的。如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。语音识别里的LSTM已经考虑了语音的历史时刻信息，但语义理解需要更多的历史信息才能有帮助，因此如何将更多上下文会话信息传递给语音识别引擎是一个难题。（6）让机器听懂人类语言，靠声音信息还不够，“声光电热力磁”这些物理传感手段，下一步必然都要融合在一起，只有这样机器才能感知世界的真实信息，这是机器能够学习人类知识的前提条件。而且，机器必然要超越人类的五官，能够看到人类看不到的世界。

深圳语音识别目前的主流语音识别系统多采用隐马尔可夫模型HMM进行声学模型建模。

MarkGales和SteveYoung在2007年对HMM在语音识别中的应用做了详细阐述。随着统计模型的成功应用，HMM开始了对语音识别数十年的统治，直到现今仍被看作是领域内的主流技术。在DARPA的语音研究计划的资助下，又诞生了一批的语音识别系统，其中包括李开复()在卡耐基梅隆大学攻读博士学位时开发的SPHINX系统。该系统也是基于统计模型的非特定说话人连续语音识别系统，其采用了如下技术：①用HMM对语音状态的转移概率建模；②用高斯混合模型(GaussianMixtureModel，GMM)对语音状态的观察值概率建模。这种把上述二者相结合的方法，称为高斯混合模型-隐马尔可夫模型(GaussianMixtureModel-HiddenMarkovModel，GMM-HMM)[9]。在深度学习热潮出现之前，GMM-HMM一直是语音识别主流的技术。值得注意的是，在20世纪80年代末，随着分布式知识表达和反向传播算法(Backpropagation，BP)的提出，解决了非线性学习问题，于是关于神经网络的研究兴起，人工神经网络(ArtificialNeuralNetwork，ANN)被应用到语音领域并且掀起了一定的热潮。这是具有里程碑意义的事件。它为若干年后深度学习在语音识别中的崛起奠定了一定的基础。但是由于人工神经网络其自身的缺陷还未得到完全解决。

还可能存在语种混杂现象，如中英混杂(尤其是城市白领)、普通话与方言混杂，但商业机构在这方面的投入还不多，对于中英混杂语音一般*能识别简单的英文词汇(如"你家Wi-Fi密码是多少")，因此如何有效提升多语种识别的准确率，也是当前语音识别技术面临的挑战之一。语音识别建模方法语音识别建模方法主要分为模板匹配、统计模型和深度模型几种类型，以下分别介绍DTW、GMM-HMM、DNN-HMM和端到端模型。往往会因为语速、语调等差异导致这个词的发音特征和时间长短各不相同。这样就造成通过采样得到的语音数据在时间轴上无法对齐的情况。如果时间序列无法对齐，那么传统的欧氏距离是无法有效地衡量出这两个序列间真实的相似性的。而DTW的提出就是为了解决这一问题，它是一种将两个不等长时间序列进行对齐并且衡量出这两个序列间相似性的有效方法。DTW采用动态规划的算法思想，通过时间弯折，实现P和Q两条语音的不等长匹配，将语音匹配相似度问题转换为**优路径问题。DTW是模板匹配法中的典型方法，非常适合用于小词汇量孤立词语音识别系统。但DTW过分依赖端点检测，不适合用于连续语音识别，DTW对特定人的识别效果较好。动态时间规整（DTW），它是在马尔可夫链的基础上发展起来的。随着人工智能的火热，现阶段越来越多的产品都想要加入语音功能。

选用业界口碑较好的讯飞离线语音识别库，该库采用巴科斯范式语言描述语音识别的语法，可以支持的离线命令词的合，满足语音拨号软件的工作需求。其中，编写的语法文档主要部分如下：!start;:[];:我想|我要|请|帮我;:[];:给!id(10001)|打给!id(10001)|打电话给!id(10001)|拨打!id(10001)|呼叫!id(10001);:打电话!id(10001)|打个电话!id(10001)|拨打电话!id(10001)|拨电话!id(10001)|拨个电话!id(10001)|的电话!id(10001);:丁伟|李平;本文件覆盖了电话呼叫过程中的基本语法，其中中的数据，需要根据用户数据库进行补充，其它、、中的内容，用户根据自己的生活习惯和工作需要进行完善。另外，语音拨号软件的应用数据库为电话薄数据库，电话薄中的用户姓名是构建语法文档的关键数据；音频采集模块采用增强型Linux声音架构ALSA库实现。语音拨号软件工作流程语音拨号软件的工作流程如图2所示，电话薄数据库、语音识别控制模块、讯飞离线识别引擎和ALSA库相互配合，共同完成语音识别的启动、识别和结束。具体流程如下：（1）构建BNF文档：控制模块搜索本地电话薄数据库，导出用户数据信息，按照巴科斯范式语法，生成基于本地数据库的语法文档；。语料的标注需要长期的积累和沉淀，大规模语料资源的积累需要被提高到战略高度。安徽语音识别在线

通过方向盘上的手指控制，启动语音识别系统，并通过音频提示向驾驶员发出信号。安徽语音识别在线

DFCNN使用大量的卷积直接对整句语音信号进行建模，主要借鉴了图像识别的网络配置，每个卷积层使用小卷积核，并在多个卷积层之后再加上池化层，通过累积非常多卷积池化层对，从而可以看到更多的历史信息。2018年，阿里提出LFR-DFSMN（LowerFrameRate-DeepFeedforwardSequentialMemoryNetworks）。该模型将低帧率算法和DFSMN算法进行融合，语音识别错误率相比上一代技术降低20%，解码速度提升3倍。FSMN通过在FNN的隐层添加一些可学习的记忆模块，从而可以有效的对语音的长时相关性进行建模。而DFSMN是通过跳转避免深层网络的梯度消失问题，可以训练出更深层的网络结构。2019年，百度提出了流式多级的截断注意力模型SMLTA，该模型是在LSTM和CTC的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。其中流式表示可以直接对语音进行一个小片段一个小片段的增量解码；多级表示堆叠多层注意力模型；截断则表示利用CTC模型的尖峰信息，把语音切割成一个一个小片段，注意力模型和解码可以在这些小片段上展开。在线语音识别率上，该模型比百度上一代DeepPeak2模型提升相对15%的性能。开源语音识别Kaldi是业界语音识别框架的基石。

安徽语音识别在线

上一篇：新一代语音服务服务标准

下一篇：福建语音服务设计