深圳自主可控语音识别标准

时间：2024年01月18日来源：

ASR）原理语音识别技术是让机器通过识别把语音信号转变为文本，进而通过理解转变为指令的技术。目的就是给机器赋予人的听觉特性，听懂人说什么，并作出相应的行为。语音识别系统通常由声学识别模型和语言理解模型两部分组成，分别对应语音到音节和音节到字的计算。一个连续语音识别系统大致包含了四个主要部分：特征提取、声学模型、语言模型和解码器等。（1）语音输入的预处理模块对输入的原始语音信号进行处理，滤除掉其中的不重要信息以及背景噪声，并进行语音信号的端点检测（也就是找出语音信号的始末）、语音分帧（可以近似理解为，一段语音就像是一段视频，由许多帧的有序画面构成，可以将语音信号切割为单个的“画面”进行分析）等处理。（2）特征提取在去除语音信号中对于语音识别无用的冗余信息后，保留能够反映语音本质特征的信息进行处理，并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列，以便用于后续处理。（3）声学模型训练声学模型可以理解为是对声音的建模，能够把语音输入转换成声学表示的输出，准确的说，是给出语音属于某个声学符号的概率。根据训练语音库的特征参数训练出声学模型参数。在安静环境、标准口音、常见词汇场景下的语音识别率已经超过 95%。深圳自主可控语音识别标准

没有任何一个公司可以全线打造所有的产品。语音识别的产业趋势当语音产业需求四处开花的同时，行业的发展速度反过来会受限于平台服务商的供给能力。跳出具体案例来看，行业下一步发展的本质逻辑是：在具体每个点的投入产出是否达到一个普遍接受的界限。离这个界限越近，行业就越会接近滚雪球式发展的临界点，否则整体增速就会相对平缓。不管是家居、金融、教育或者其他场景，如果解决问题都是非常高投入并且长周期的事情，那对此承担成本的一方就会犹豫，这相当于试错成本过高。如果投入后，没有可感知的新体验或者销量促进，那对此承担成本的一方也会犹豫，显然这会影响值不值得上的判断。而这两个事情，归根结底都必须由平台方解决，产品方或者解决方案方对此无能为力，这是由智能语音交互的基础技术特征所决定。从技术来看，整个语音交互链条有五项单点技术：唤醒、麦克风阵列、语音识别、自然语言处理、语音合成，其它技术点比如声纹识别、哭声检测等数十项技术通用性略弱，但分别出现在不同的场景下，并会在特定场景下成为关键。看起来关联的技术已经相对庞杂，但切换到商业视角我们就会发现，找到这些技术距离打造一款体验上佳的产品仍然有绝大距离。广州移动语音识别内容语音识别的精度和速度取决于实际应用环境。

并能产生兴趣投身于这个行业。语音识别的技术历程现代语音识别可以追溯到1952年，Davis等人研制了能识别10个英文数字发音的实验系统，从此正式开启了语音识别的进程。语音识别发展已经有70多年，但从技术方向上可以大体分为三个阶段。从1993年到2017年在Switchboard上语音识别率的进展情况，从图中也可以看出1993年到2009年，语音识别一直处于GMM-HMM时代，语音识别率提升缓慢，尤其是2000年到2009年语音识别率基本处于停滞状态；2009年随着深度学习技术，特别是DNN的兴起，语音识别框架变为DNN-HMM，语音识别进入了DNN时代，语音识别准率得到了提升；2015年以后，由于“端到端”技术兴起，语音识别进入了百花齐放时代，语音界都在训练更深、更复杂的网络，同时利用端到端技术进一步大幅提升了语音识别的性能，直到2017年微软在Swichboard上达到词错误率，从而让语音识别的准确性超越了人类，当然这是在一定限定条件下的实验结果，还不具有普遍性。GMM-HMM时代70年代，语音识别主要集中在小词汇量、孤立词识别方面，使用的方法也主要是简单的模板匹配方法，即首先提取语音信号的特征构建参数模板，然后将测试语音与参考模板参数进行一一比较和匹配。

主流方向是更深更复杂的神经网络技术融合端到端技术。2018年，科大讯飞提出深度全序列卷积神经网络（DFCNN），DFCNN使用大量的卷积直接对整句语音信号进行建模，主要借鉴了图像识别的网络配置，每个卷积层使用小卷积核，并在多个卷积层之后再加上池化层，通过累积非常多卷积池化层对，从而可以看到更多的历史信息。2018年，阿里提出LFR-DFSMN（LowerFrameRate-DeepFeedforwardSequentialMemoryNetworks）。该模型将低帧率算法和DFSMN算法进行融合，语音识别错误率相比上一代技术降低20%，解码速度提升3倍。FSMN通过在FNN的隐层添加一些可学习的记忆模块，从而可以有效的对语音的长时相关性进行建模。而DFSMN是通过跳转避免深层网络的梯度消失问题，可以训练出更深层的网络结构。2019年，百度提出了流式多级的截断注意力模型SMLTA，该模型是在LSTM和CTC的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。其中流式表示可以直接对语音进行一个小片段一个小片段的增量解码；多级表示堆叠多层注意力模型；截断则表示利用CTC模型的尖峰信息，把语音切割成一个一个小片段，注意力模型和解码可以在这些小片段上展开。在线语音识别率上。大数据与深度神经网络时代的到来，语音识别技术取得了突飞猛进的进步。

机器必然要超越人类的五官，能够看到人类看不到的世界，听到人类听不到的世界。语音识别的产业历程语音识别这半个多世纪的产业历程中，其中的共有三个关键节点，两个和技术有关，一个和应用有关。关键节点是1988年的一篇博士论文，开发了基于隐马尔科夫模型（HMM）的语音识别系统——Sphinx，当时实现这一系统的正是现在的投资人李开复。从1986年到2010年，虽然混合高斯模型效果得到持续改善，而被应用到语音识别中，并且确实提升了语音识别的效果，但实际上语音识别已经遭遇了技术天花板，识别的准确率很难超过90%。很多人可能还记得，在1998年前后IBM、微软都曾经推出和语音识别相关的软件，但终并未取得成功。第二个关键节点是2009年深度学习被系统应用到语音识别领域中。这导致识别的精度再次大幅提升，终突破90%，并且在标准环境下逼近98%。有意思的是，尽管技术取得了突破，也涌现出了一些与此相关的产品，比如Siri、GoogleAssistant等，但与其引起的关注度相比，这些产品实际取得的成绩则要逊色得多。Siri刚一面世的时候，时任GoogleCEO的施密特就高呼，这会对Google的搜索业务产生根本性威胁，但事实上直到AmazonEcho的面世，这种根本性威胁才真的有了具体的载体。语音识别的基础理论包括语音的产生和感知过程、语音信号基础知识、语音特征提取等。深圳自主可控语音识别标准

前端语音识别指命令者向语音识别引擎发出指令，识别出的单词在说话时显示出来，命令者负责编辑和签署文档。深圳自主可控语音识别标准

即在解码端通过搜索技术寻找优词串的方法。连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。语音识别本质上是一种模式识别的过程，未知语音的模式与已知语音的参考模式逐一进行比较，佳匹配的参考模式被作为识别结果。当今语音识别技术的主流算法，主要有基于动态时间规整（DTW）算法、基于非参数模型的矢量量化（VQ）方法、基于参数模型的隐马尔可夫模型（HMM）的方法、以及近年来基于深度学习和支持向量机等语音识别方法。站在巨人的肩膀上：开源框架目前开源世界里提供了多种不同的语音识别工具包，为开发者构建应用提供了很大帮助。但这些工具各有优劣，需要根据具体情况选择使用。下表为目前相对流行的工具包间的对比，大多基于传统的HMM和N-Gram语言模型的开源工具包。对于普通用户而言，大多数人都会知道Siri或Cortana这样的产品。而对于研发工程师来说，更灵活、更具专注性的解决方案更符合需求，很多公司都会研发自己的语音识别工具。（1）CMUSphinix是卡内基梅隆大学的研究成果。深圳自主可控语音识别标准

上一篇：黑龙江c语音识别

下一篇：黑龙江无限语音服务