HTML5语音识别原理是什么？可以很简单实现，但是具体原理是怎么样的?

作者&投稿：俞废（若有异议请与网页底部的电邮联系）

HTML5语音识别原理是什么？可以很简单实现，但是具体原理是怎么样的?~

使用YQ5969,这个语音识别模块可以支持1--8个咪头，还可以支持本地和云端识别不同需求。5米内本地识别率 93%以上，云端识别率97%。YQ5969语音识别模块语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大，或者在出现了几个词的情况下预测下一个即将出现的词语的内容。

推荐使用YQ5969,这个语音识别遥控器可以支持本地和云端识别不同需求。5米内本地识别率 93%以上，云端识别率97%。YQ5969语音识别遥控器语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大，或者在出现了几个词的情况下预测下一个即将出现的词语的内容。

原理：
主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成：
信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。
统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。
发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。
语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N元文法及其变体。
解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。
以上是语音识别的各个组成部分，而离线的语音识别，应该也是基于以上的原理，而且在手机内部内置了语音的字典，从而实现无线的识别
如：
1、浏览器提供的功能，比如chrome，如果没有提供的话就不能用。
2、具体实现的细节主要是chrome的离线语音识别引擎。
3、调用系统api，浏览器是个app，可以访问所有底层的api，只要系统提供就可以实现。
相关代码如下：

<!DOCTYPE HTML> < html> < head> < title>简单通过html5实现语音识别</title> < script> if (document.createElement(“input”).webkitSpeech === undefined) { alert(“Speech input is not supported in your browser.”); } < /script> < /head> < body>
<input type=”text” name=”value_2″ x-webkit-speech/>
</body> < /html>

　　一、应用

HTML5语音识别（现在一般用在搜索上），目前相关介绍还是挺多的。为何呢？因为很简单！

下面是个普通文本框：

<input />

而稍稍多敲几个字母，其就变成了支持HTML5语音API的语音识别文本框了。

<input x-webkit-speech />

我不喜欢嚼人家的烂根子，但是，就算闹得再轰轰烈烈，那些种田的农民伯伯也不知道“半13 连体裤”为何物。因此，一想到如此简单实用的装逼功能还有不少人并不熟知，我这心里啊，就觉得不踏实。

你想想看哪？一说语音识别，哇靠，外行人(比方说你受尽脸色的产品经理或是老板之类)一听，立马觉得这玩意牛逼哄哄。但是，你却搞出来了，OK，这下可以尽情装逼了：老板那，昨儿个我放弃和女友啵啵的好机会，埋头苦干，加班加点攻克语音识别这个史无前例的技术难关，皇天不负有心人，终于让我拿下啦！！

必然的，什么刮目相看，滔滔江水敬仰之情都来了。因此，HTML5语言识别就是每个前端人员都必备的装B神器。

装B模式启动

自从有了HTML5语音识别，老板再也不用担心网站不高级了，so easy!

HTML5 语音识别网站高级 so easy
二、庐山小面目

纸上得来终觉浅，绝知此事要躬行。因此，有必要大家都来试试这装B神器。如果您手头上有活正在使用的是Chrome 11+浏览器，您可以狠狠地点击这里：HTML5语音识别功能demo

看到没，文本框后面有个麦克风模样的东西，我们满怀崇敬之情点击之，突然眼前亮光一闪，(//zxx:不是亮瞎了金钛狗眼)，神器出现了：
神器降临张鑫旭-鑫空间-鑫生活

此时，对着音频输入设备（如耳麦）发出你那或妖娆，或醇厚，或磁性的嗓音，啊~~

于是，神器显威，樯橹吹灰：
模仿大S说话
语言识别结果

如果网速不行，或是google被墙了，或是你长时间不说话，或是说得是鸟语，神器可能就会不高兴，然后这样：
长时间不说话，神器不开心
或者是这样：
说鸟语神器不开心

当然，这里的语言识别还有其他参数或是方法。
比方说表示语言的：

<input x-webkit-speech lang="zh-CN" />

以及表示语法的（据说bUIltin:search可以过滤助词，不过我没测试过）：

<input x-webkit-speech x-webkit-grammar="bUIltin:search" />

还有一个onwebkitspeechchange的方法，发生在语言识别成功，且文字输入到文本框后触发。

input.onwebkitspeechchange = function() {
// ...
};

三、神器的不足

人无完人，金无足赤。虽说HTML5语言是被是前端开发人员装B神器，但是，并不是每次都装得很perfect的。什么时候会掉水沟呢？我目前知道的有两种情况：
1. iframe中定位问题
如果语音识别框在iframe中，则，神器定位似乎出现了偏差——相对于父级上下文容器定位了。//zxx:因为HTML5不鸟iframe了？

您可以狠狠地点击这里：iframe中语音识别框定位不准demo

iframe下语音框很错位demo

2. 语言内容累加的问题
在正常情况下，点击语音那个小图标，输入框中的文字还是处于选中状态的，于是，新的语言信息会覆盖之前的文字。但是，如果这种选中状态丢失，就是出现语音识别内容不断累加的bug.

您可以狠狠地点击这里：语音识别累加bug实例

例如，我们第一次说，”yu yin sou suo”，出现的是：
第一次语音搜索可以识别张鑫旭-鑫空间-鑫生活

但是，要是你继续说，”yu yin shi bie”，则出现的不是“语音识别”，而是“语音搜索语音识别”，两者累加了，而不是覆盖。这种情况再本文第一个demo中是不会出现的。
语音搜索内容累加bug展示

为何，这个demo做了个很小的事情，就是在文本框（搜索框）失去焦点的时候，值重新赋了下。——因为文本框重新赋值会去掉文字选中状态，然后……

还是不明白？静下心，多花几分钟想想，会明白的。
四、要不，在说点什么

文章标题有两个字，“渐进”，应该都懂什么意思。别跟我整什么“IE6不支持”有的没的的，不支持就不支持，又不是没有基本生活保障。目前，就Chrome 11+浏览器上有该功能。

考虑到低级变高级的成本实在是低，而且基本上对之前的基本功能没有任何影响。因此，我觉得所有网站所有的类似搜索的输入框都让他支持HTML5语言识别吧！想想这是你装逼翻身的好机会，就果断去做了吧！！

浏览器提供的功能，比如chrome，如果没有提供的话就不能用，具体实现的细节主要是chrome的离线语音识别引擎。

浏览器提供的功能，比如chrome，如果没有提供的话就不能用，具体实现的细节主要是chrome的离线语音识别引擎。

宣化县17360409267： HTML5智能语音识别开关原理是什么?可以很简单实现,但是具体原理是怎么样的? - ？
武油康迪： 推荐使用YQ5969,这个智能语音识别开关可以支持本地和云端识别不同需求.5米内本地识别率 93%以上,云端识别率97%.YQ5969智能语音识别开关语言模型是用来计算一个句子出现概率的概率模型.它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的情况下预测下一个即将出现的词语的内容.

宣化县17360409267： 语音识别的原理是什么? - ？
武油康迪： 推荐使用YQ5969,该模组系列可以支持1--8个咪头,该语音芯片可以根据客户具体需求提供单核--4核 32bit ARM核心的不同方案,可以支持本地和云端识别不同需求.5米内本地识别率 93%以上,云端识别率97%.YQ5969 语音识别模块可以实现固定词汇,非特定人的语音识别.固定词汇并非指词条永远无法改变,而是用户不可以自行更改,但开发者可以根据需求更换词条,之后将词条存储到 YQ5969-24SS 语音芯片里或是外挂的 SPI Flash 里

宣化县17360409267： 语音识别技术的前景应用 - ？
武油康迪： 在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,...

宣化县17360409267： html5时代的主要的网页设计风格有哪些 - ？
武油康迪： 一、首先从功能与设计目标来看, H5专网页主要有以下4大类型: 1.活动运营型为活动推广运营而打造的H5页面是最常见的类型,形式多变,包括游戏、邀请函、贺卡、测试题等形式.与以往简单的静态广告图片传播不同,如今的H5活动运营...

宣化县17360409267： 为什么我做的html5语音识别不能成功 - ？
武油康迪： 目前只有Chrome 11及以上版本才支持.可以用chrome浏览器试试效果还有360极速浏览器也支持 IE10,火狐,WebKit内核浏览器目前也都不支持

宣化县17360409267： html5 是什么东西? - ？
武油康迪： 1.答案应该选:A html5是html的最新规则版本,也可以这样理解:html5是html的第5个版本,每个版本中的规则不一样,目前浏览器都在努力支持最新的html规则——也就是html5 2.最好理解为编程语言:编程语言具有指定的语法规则跟语法格式...

宣化县17360409267： html5 是什么语言 - ？
武油康迪： html5(web前端)由html(结构)、css(样式)、javascript(行为)组成.什么是结构、样式与行为结构实现的是网页中的标题、列表、图片等标签.样式处理的是标题文字的字体大小、颜色,图片尺寸,某个标签的背景等.行为可以实现网页中的时间,电商网站当中的倒计时效果,在注册表单时用户名是否重复的检测,网站当中顶部图片的切换特效等等.简单的理解结构样式和行为:将网页看做一个装修好的功能完备的房子,那么结构实现的是房间以及家具的位置布局,样式则是针对房间进行装饰,行为是为房间添加“开门”等功能.想了解更多,可查看文章《html5(web前端)是什么?零基础技术小白,轻松认识html5》

宣化县17360409267： 为什么HTML5不需要任何浏览器插件就可以播放音视频?原理是什么?？
武油康迪： HTML5 是下一代的 HTML, 提供了展示视频的标准,规定了一种通过 video 元素来包含知视频的标准方法.纯H5页面在手机端中是无法实道现自动播放,移动端浏览器大部分是禁用video和audio的autoplay功能并且,很多移动浏览器也不支持首次js调用play方法进行专播放(只有用户手动点播放后暂停,属然后用代码进行play可以).这样做主要是为了防止不必要的自动播放浪费流量.

宣化县17360409267： 什么是语音识别 - ？
武油康迪： 语音识别就是将语音转换为文字的技术

宣化县17360409267： html5能干什么 - ？
武油康迪： HTML5是构建Web内容的一种语言描述方式.HTML5是互联网的下一代标准,是构建以及呈现互联网内容的一种语言方式.被认为是互联网的核心技术之一.HTML产生于1990年,1997年HTML4成为互联网标准,并广泛应用于互联网应用的开发...

你可能想看的相关专题

星空见康网

HTML5语音识别原理是什么？可以很简单实现，但是具体原理是怎么样的?

你可能想看的相关专题