语音交互基础知识（语言唤醒、语音识别、语音理解和语音合成）

作者&投稿：巴吉（若有异议请与网页底部的电邮联系）

~ 语音唤醒指在待机的状态下，用户说出特定指令（唤醒词）使设备进入工作状态或完成某一操作；当前更多应用于手机、可穿戴设备、车载设备、智能家居等。
语音识别技术，也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音理解是指机器能够结合上下文，自然地理解用户的需求，并能给出正确以及人性化的反馈。
语音合成是通过机械的，电子的方法产生人造语音技术。语音合成的关键点是真人音色模拟，一致性、流畅性、稳定和有情感。语音合成，又称文语转换技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。

目前的语音技术能力主要包含了四个方面：语音唤醒、语音识别、语音理解和语音合成

语音唤醒

语音唤醒指在待机的状态下，用户说出特定指令（唤醒词）使设备进入工作状态或完成某一操作；当前更多应用于手机、可穿戴设备、车载设备、智能家居等。

1、常见两种唤醒方式：“一呼一答”和“唤醒词+命令词”；即多轮对话（一次唤醒、一个任务、多轮交互）和连续对话（一次唤醒、多个任务，无需唤醒）

2、唤醒词设计原则：易唤醒、低误唤醒、品牌性、易记易读性

3、华为和苹果手机语言助手唤醒交互：

· 手机的语音助手都是基于特定的人识别，非用户本人无法用同样的唤醒词唤醒手机语音指令，

· 采取的唤醒方式均为“一呼一答”

· 唤醒词设计，华为的“我的荣耀”基于品牌调性，但易读性不强

· 在语音交互过程中，用问答的方式给到用户强反馈，单纯的铃声不足以引起用户触达，通常情况下用户使用语音是在不方便查看手机或者有其他干扰的情况下的。

语音识别

语音识别技术，也被称为自动语音识别 Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

1、语音识别包括两个阶段：训练和识别。

训练阶段：收集大量的语音语料，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的。

识别阶段：将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，把相似性最高的输入特征矢量作为识别结果输出。

2、语音识别对象：特定人识别（手机语音助手，设定只识别手机用户个人的声音）、非特定人识别（语音搜索，识别搜索词）。

特定人识别是指识别对象为专门的人，非特定人识别是指识别对象是针对大多数用户，一般需要采集多个人的语音进行录音和训练，经过学习，达到较高的识别率。

3、基于现有技术开发嵌入式语音交互系统，目前主要有两种方式：

一种是直接在嵌入式处理器中调用语音开发包；另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大，计算复杂，需要占用大量的处理器资源，开发周期长；

第二种方法相对简单，只需要关注语音芯片的接口部分与微处理器相连，结构简单，搭建方便，微处理器的计算负担大大降低，增强了可靠性，缩短了开发周期。

语音理解

语义理解是指机器能够结合上下文，自然地理解用户的需求，并能给出正确以及人性化的反馈。

语音合成

语音合成是通过机械的，电子的方法产生人造语音技术。语音合成的关键点是真人音色模拟，一致性、流畅性、稳定和有情感。

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

TTS结构

语言处理

在文语转换系统中起着重要的作用，主要模拟人对自然语言的理解过程——文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后两部分所需要的各种发音提示。

韵律处理

为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。

声学处理

根据前两部分处理结果的要求输出语音，即合成语音。

语音交互基础知识(语言唤醒、语音识别、语音理解和语音合成)
语音唤醒指在待机的状态下，用户说出特定指令（唤醒词）使设备进入工作状态或完成某一操作；当前更多应用于手机、可穿戴设备、车载设备、智能家居等。语音识别技术，也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确...

语音交互技术主要有哪些
语音交互技术主要包括语音识别、语音合成、自然语言处理与对话管理等几个核心部分。语音识别是语音交互的基础，它负责将人的语音转换成计算机可理解的文本信息。这一技术通过声学模型和语言模型的结合，能够识别不同口音、语速甚至背景噪音中的语音指令。例如，智能家居中的语音助手，如小米AI音箱，就能准确识别...

语音交互技术是以什么为基础
语音识别。语音识别是将人类的语音信号转化成文本或命令的过程，是语音交互的基础，语音识别的原理是将语音信号进行分析，提取特征，然后通过模型来匹配已知的语音模式，从而得到对应的文本结果，然后结合语音合成、自然语言处理形成相互交换的语言。

什么是智能语音交互
1、智能语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。2、典型的应用场景—语音助手。3、自从iPhone 4S推出SIRI后，智能语音交互应用得到飞速发展。中文典型的智能语音交互应用如：虫洞语音助手、讯飞语点已得到越来越多的用户认可。

语音交互技术是什么
语音交互技术是指通过语音输入和输出来实现人机之间交互的一种技术。它结合了语音识别、自然语言处理、语音合成等多个领域的技术，使用户能够通过口头指令与计算机系统进行沟通，从而完成各种任务。在语音交互技术中，语音识别是一个关键环节。通过先进的语音识别系统，计算机能够准确地捕捉并解析用户的语音信号，...

智能语音交互
智能语音交互的核心在于其能够准确识别用户的语音指令，并迅速作出响应。通过先进的语音识别技术，智能系统可以捕捉并分析用户的语音信号，将其转化为可理解的文本或指令。例如，当用户说出“打开音乐播放器”时，智能系统能够识别这一指令，并立即执行相应操作。这种交互方式摆脱了传统手动操作的束缚...

语音交互流程
语音交互的完整流程大致为：唤醒→语音识别（ASR）→自然语音处理（NLP）→语音合成（TTS）可以类比为：打招呼→耳朵→大脑→嘴巴（1）定义：将设备从休眠态变为工作态（2）唤醒方式：语音或按键。语音可设置唤醒词，按键一般是长按电源键0.5s。（3）语音唤醒的工作原理：a. 基于模板匹配：把唤醒词...

【编译】VUI(语音用户交互)设计基础指南
VUI是指,使用语音来实现人与设备实现交互的界面(语音可以是唯一的交互方式,也可以是对视觉和触觉的补充)。VUI可以是任何东西——听音乐时的氛围灯光到汽车的娱乐控制中心。 VUI完全可以没有界面,只依靠听觉、触觉或运动等方式来实现交互。 VUI的形式很多、载体丰富,但都具有相同的UX基础知识。设计师们借助对这些基...

语音交互技术模块由哪几个部分组成
语音交互技术模块主要由语音识别、语义理解、语音合成和对话管理四个核心部分组成。语音识别是语音交互的起点，其作用是将用户发出的声音信号转换成可识别的文字信息。这一过程中，系统会分析语音中的音素、音节和词汇，通过大数据和机器学习技术，准确地将声音转译为文本。例如，在智能家居场景中，用户通过语音...

语音交互设计的常见形式分析?
1.对话式设计定义：简单来说就是我问你答目前我们使用的智能设备基本只能支持单轮对话，但这样并不是人们习惯的对话方式一轮以上的对话，才是符合用户心理预期的。请大家回忆下自己使用智能音箱的一些场景体验，举个例子(天猫精灵)用户:天猫精灵，明天我有闹钟么?天猫：您明天没有闹钟呢用户：那...

港口区13640543050： vivo手机中的语音唤醒什么意思 - ？
辛皇清肺： vivo自行开发设计的vivoice语音助手,用户只需要向它发出语音命令,经过设置学习,用户只需说出唤醒词就可以唤醒Jovi助手.它就可以为您播放音乐、打开应用、安排提醒事项和会议等.还有其强大的离线功能,在没有网络连接的情况下也...

港口区13640543050： 智能家居中的语音交互该做什么如何做 - ？
辛皇清肺： 智能家居中语音交互主要是用来进行语音控制设备的,需要通过语音识别才能够完成,如何做到语音交互需要以下几点: 1、语音交互需要将接受到的语音传输到云平台,进行语音分析,所以首先需要有语音识别的云服务. 2、智能硬件模块,该模块不能是局域网的Zigbee这类模块,因为Zigbee并没有连接到云平台,所以无法进行语音解析,目前wifi模块带语音模块. 3、将代码及协议写入到模块中.4、将语音智能模块与设备焊接,也就是所说的设备智能化. 5、完成并测试.

港口区13640543050： 人机交互系统的基本组成 - ？
辛皇清肺： 以第四代自然交互与通信为例,介绍该概念模型的主要组成部分. (1) 多模态输入/输出:多模态输入/输出是第四代人机交互与通信的主要标志之一.多模态输入包括键盘、鼠标、文字、语音、手势、表情、注视等多种输入方式;而多模态输出包...

港口区13640543050： 什么是语音技术? - ？
辛皇清肺： 语音技术,包含两个方面:语音合成和语音识别. 语音合成即Text to Speech(TTS),就是将文本状态的信息转换成语音的形式输出.就像给设备安装上了嘴巴,你想让设备说什么,设备就可以说什么,解决了设备上的信息只能看不能听得问题....

港口区13640543050： 智能语音识别系统方案怎么做 - ？
辛皇清肺： “语音”作为人工智能领域落地成熟的智能交互技术,已经步入商业化阶段.如:语音助手、智能家居、智能客服、智能机器人、智能车载等都是语音交互的重要应用. 英唐众创的智能语音识别系统方案里,智能交互技术方面主要包含前端信号处理、语音识别、语音合成、声纹识别、语义理解、情绪识别、智能多轮对话等. 在这个方案里,可以实现了实现了语音唤醒,语音合成,语义解析三大基础功能 ,可以对场景进行开发.

港口区13640543050： 什么是火灾智能识别系统? - ？
辛皇清肺： 火灾智能识别系统是基于原有工业视频网络,在不改变前端摄像硬件的条件下,以大数据分析为基础,利用计算机视觉,结合地理信息系统,实现工业视频火灾智能识别、报警.通过实时采集数千路视频摄像数据,以其拥有的专利技术进行火情自动分析、智能识别.大到火灾险情,小到火前烟雾,在火灾发生的第一时间自动发现警情,自动聚焦火情现场,并发声光报警,为火灾应急工作争取宝贵时间.

港口区13640543050： 目前,实现机器人语音交互功能的主流技术有哪些 - ？
辛皇清肺： 语音,麦克风阵列语音增强),语音识别(动态时间规整,DTW;隐马尔科夫模型,HMM;支持向量机分类模型,SVM;人工神经网络模型,ANN;高斯混合模型,GMM),语音合成(线性预测编码模型,LPC;共振峰合成;).不知道你是要应用还是搞研究,所以只是给出了一些技术,希望你很快上手.

港口区13640543050： 怎样才能打开Jovi - ？
辛皇清肺： 首先进入【设置】,找到【jovi】,点击【游戏模式】一栏,将【游戏模式】后面的开关打开,即可开启游戏勿扰,开启后在运行游戏时将不会被悬浮通知打扰. 游戏中,来电提示悬浮在屏幕上方,微信等社交应用以画中画的形式呈现,不影响游戏视野;在4G网络下开启VoLTE通话功能,或在WiFi网络下,都能边通话边游戏. vivonex还支持游戏引擎,联合腾讯与网易深度优化了游戏体验,vivonex与虚幻引擎达成深度合作,赋予了吃鸡游戏更出色的表现. 不仅如此,vivonex搭载游戏虚拟环绕声,戴上普通耳机能实现听声辨位,吃鸡游戏体验更加出色,如今已经匹配了网易的荒野行动,后续还会支持更多游戏.

你可能想看的相关专题

星空见康网

语音交互基础知识（语言唤醒、语音识别、语音理解和语音合成）

你可能想看的相关专题