（转）设计一个语音交互界面(Voice User Interface)

作者&投稿：禽仁（若有异议请与网页底部的电邮联系）

~ 此文为Medium上的一篇文章，搬运过来供自己和大家学习下。原文链接

https://medium.com/@xuuuwj/%E8%AE%BE%E8%AE%A1%E4%B8%80%E4%B8%AA%E8%AF%AD%E9%9F%B3%E4%BA%A4%E4%BA%92%E7%95%8C%E9%9D%A2-voice-user-interface-1-6364d4529a28

去年11月第一次接触VUI Design以来，已有三个多月，期间凭着网上的资料(主要是google designguideline\dueros.com\设计师手记\论文)以及自己的UX知识，我尝试设计了三个项目：一个买书的skill 、一款智能音箱语音交互游戏、一个关于中国电信100M宽带业务的微信咨询机器人，前两个项目做到原型为止，最后一个已经在微信公众号后台实现。但这三个项目的重点都被放在conversation design上，并不能算完整意义上的VUI。

本月刚刚读完 Cathy Pearl 的《语音用户界面设计》(《Designing Voice User Interface》) 和《Voice User Interface Design》(By Michael H. Cohen, James P. Giangola, Jennifer Balogh)，书中完整地讨论了VUI设计的基本原则、重要的技术模块以及用户测试等问题，帮助勾画出了一张比较完整的VUI Design全景图。

在接下来的文章中，我会尝试用一个happy path串连起由0到1设计一个语音交互界面的过程，希望能定义好每个小框架中的设计问题，然后把它们变作一种肌肉记忆。

By the way，因为说话这件事情太本能了，所以我觉得设计VUI困难的一点在于怎样从用户思维中跳出来，让自己重新回到设计师的角色上：）

语音界面的优势主要体现在三个方面：一是速度，包括输入更方便、入口更浅、学习负担更小等；二是共时，比如允许多任务同时进行；三是探索性，更能激发用户的好奇心，提升用户体验。不过同时，也不要忘记语音交流是非常受场景、技术及用户习惯限制的一件事。

可以参考 Google-fit-quiz 里的问题，来验证VUI究竟是不是你的最佳选择。

在回答之前，我们需要先了解：1.用户进行语音交互的方式有哪些，2.VUI系统内部是如何运作的。

The Nielson Norman Group 将语音交互总结为以下屏幕优先、纯语音和语音优先三种模式：

📱 Screen-first Interaction（屏幕优先）: Here, we start with an application designed primarily for screen, and voice controls are added afterwards to enhance the experience.（设计一个以屏幕显示为主的App, 为了提升用户体验，会加一些语音元素）

🗣 Voice-only Interaction（只有语音交互）: Here there is no screen at all, and input and output is based on sound, such as a smart speaker.（VUI设备没有屏幕，输入和输出都要声音，比如智能扬声器）

💬 Voice-first Interaction（语音优先）: This is where an app designed primarily for voice is enhanced through the addition of a screen to output information.（以语音为主要交互方式的App，输出信息在屏幕上显示，通过这种方式提升App体验）

屏幕优先的情况下，最典型的代表就是手机语音助手，用户不仅可以通过语音，还可以通过键入、手势来进行操作，系统回复的内容也包含了语音、文本、图片、列表、链接等等。

纯语音交互的代表之一是智能音箱，用户通过“唤醒”词，比如“ Alexa”，来开启VUI交互；另一个代表是电话客服，也就是交互式语音应答(Interactive Voice Response, IVR)，它可以通过电话线路理解人们的请求并指引用户完成相应的任务，比如预定机票、查询话费等。

可以把对话系统看作人机翻译机，接收人类的自然语言并把它翻译成计算机能懂的结构化语言，以便进行信息匹配与加工，最终再以自然语言的形式反馈给说话者，完成一次“沟通”。“沟通”的本质是通过对最优解的一步步预测，以生成一个匹配概率尽可能高的反馈，需要计算能力、算法与数据的背后支持。

具体情况如下图所示：

当用户对系统讲话(utterance)，系统会首先通过语音识别(ASR) ①接收并解析语音，识别器可以提供多个可能的结果，即N-best list，从中为接收到的语音匹配最相似的词串文本(recognition hypothesis)，然后反馈给下一个自然语言理解(NLU) ②模块。

理解自然语言，即系统通过对词法、句法、语义的分析，识别(identify)用户的意图(intent)或者用户言语所涉及的领域(domain)、实体(entities)，生成一个结构化的语义表示*，包括语言类型(陈述需求，询问属性，否定，选择疑问，等等)和条件信息(有什么条件、值是多少)。比如，“帮我查深圳的天气”这句话对应的语义表示为“inform(occasion=天气，location=深圳)”，其中“inform”代表“陈述需求”，括号里面的内容我们称之为slot-value pair。关于计算机是如何理解自然语言的，可以点击这里详细了解。

语义表示生成之后被转交给对话管理器(DM) ③，由对话管理器来决定答复给用户什么以及怎样答复。

对话管理器是对话系统中很关键的一个模块，连结着一个或多个知识库(Knowledge Base, KB) ④。通常包括：a.对话状态跟踪(dialogue state tracking)，比如追踪执行用户意图所需的信息是否完整；b.对话策略(dialogue policy)，即根据当前的状态决策下一步应该采取的最优动作，比如，是直接调用知识库(knowledge base)内容提供结果、询问特定限制条件、澄清或确认需求、还是开启相关的某个软件呢。

不同的对话系统，goal-driven system(比如任务型、问答型)和open-domain system(比如闲聊型)，对话管理器的任务、知识库内容也不同。

任务型对话的场景相对复杂，通常会与用户进行多伦对话，需要参数化请求并通过slots filling的形式持续跟踪对话，直到识别出用户意图、特征词、slot-value pairs，即系系统要执行的动作的类型和操作参数。

问答型则不需要考虑复杂的对话逻辑，通常一轮对话就可以解决，重点在于语义解析与实体匹配。

闲聊型包括检索模式和生成模式，检索式是利用网络中已有的大量对话语料来构建索引，从索引中查找可能的候选回复，而生成式则直接从大量的人人的对话中学习对话模型，然后利用对话模型“创作”回复。

对话管理器会根据当前的对话状态生成一个预期回复(intended response)，然后进入自然语言生成(NLG) ⑤- 文本转语音(TTS) ⑥环节，把结构化的预期回复改造成自然语言，最终呈现给用户。

常见的说法是“系统形象(system persona)”，相当于产品的前端，即系统通过的①语音特征，语气、语调、音色、节奏等。你可以选择使用合成(synthesized)声音，也可以选择录制的(recorded)声音；

②话术，编写问候语、特殊应答、提示语等时的用词、长短句这些，来展现与品牌相符的性格特质，比如亲切or正式，主动or顺从。

一个好的system persona能够很自然地成为你编写对话时的参考条件：“在这种情况下，这个persona会说什么或做什么？”

VUI的交互方式与对话内容很难彻底分开讨论，但做这种尝试，有助于跳出用户视角，走进“黑盒子”中。

我倾向于将“交互方式”看作《Voice User Interface Design》中所言的“High-level design”，而将“对话内容”看作“Detailed design”。

“High-level design”关心的是怎样推动对话流畅地进行，让用户知晓系统的状态、任务进度等以便操作，比如系统在聆听、在期待收到指令、已离线等，可以理解为GUI中的弹窗、动效、视觉反馈等。

同时也为系统设计更好的规则，以便它做出更好的决策，比如在什么情况下需要向用户确认请求，可以理解为GUI设计中看不见的菱形判断框。

这些问题主要涉及到以下：

①对话模式设计

A.命令-控制式(command and control)，即用户想要说话时必须先唤醒系统，方式可以是使用唤醒词、手势触摸或者按键。一轮对话完毕，用户须再次唤醒系统以开启下一轮对话。

B.对话式，即在一段封闭的对话期间，比如完成某项特定的任务时，用户不必每一回合都唤醒系统，而是自然地进行话轮转换，在轮到用户说话时系统自动开启麦克风。

C.混合式，即命控式与对话式的结合，系统向用户提供明显的状态切换标识，比如使用声音标志(earcon)以表示某个状态的开始与结束。

②对话策略(dialog strategy)设计

包括：

A.对话框架设计，即对话组织策略

《Designing Voice User Interface》一书把对话框架分为：a.定向对话(directed dialog)，即系统主导对话，向用户询问非常具体的问题，以期望获得同样具体的答案；b.菜单层级结构(menu hierarchy)，即系统向用户提供一系列选择，一旦用户完成了菜单a的选择，系统会继续提供菜单b，直到完成用户的请求；c.混合推动(mixed-initiative)，即定向对话与菜单层级相混合，系统询问用户问题，也允许用户通过提供额外的信息来引导对话。

B.对话修补策略

技术并不完美，识别器可能还没有准备好接受呼叫者的话语，或者没有接收到说话者的语音，也可能响应时间太长。用户也常常会突然扭转话题，或者提供太多信息。因此在正向推动对话之外，系统也必须配备处理这些情况的策略，以减少前功尽弃的概率。

a.错误恢复

可能出现的错误有以下四种：

·未检测到语音

·检测到语音，但没有识别

·正确识别语音，但无法处理

·部分语音识别错误

·延迟

一般有两种方法来处理这些情况，明确地说出来，最好能增加更多的细节让用户明白现在的状况，比如“抱歉，我没听懂，请说出您所在的城市和区域名称”，或者什么也不做。如何选择要取决于VUI系统的交互模式与用户场景。

b.万能指令

比如“帮助”、“停止”、“请重复一遍”、“退出”等等。设计时不仅要考虑用户可能的需要，也要考虑用户会怎样表达这些需要。

③条件阈值(threshold)设计

每个应用程序都会定义系统能承受的最大错误，对话系统也不例外，尤其是上文对交互流程的描述也向我们清晰地展示了，从用户、到技术模块、再到数据资源，VUI的运行充满了不确定性。

《Designing Voice User Interface》一书建议我们考虑设置三种阈值：单个对话状态中的最大连续错误数（特定于状态的错误计数），全局计算的最大错误数，以及最大错误确认数。

牢记这一点便很容易理解Detailed design需要做什么，即深入到单条对话中，详细设计对话流程、辅助提示、以及异常情况处理方案。包括：

①对话设计

设计对话流程很像写剧本，即什么样的角色在什么情况下应该说什么话，不同之处在于对话系统的情节和部分角色是写定的。

各大平台上，Google、Amazon、Microsoft，都有对话设计的相关指导，可以通过这篇汇总文章来进一步了解。

②提示列表(prompt lists)

回想一下，人与人之间的沟通也要建立在共同知识的基础上，与机器对话也是一样。让用户了解系统能做什么、不能做什么、怎么做是对的等等，才能够实现高效率的对话。

这一点可以通过设计提示列表(prompt lists)来辅助实现，提示类型包括：

A.初始提示，

B.错误提示,

C.帮助提示，

D.特殊应答等等

提示的形式有多种，语音、文本、图像，甚至声音，都可以。

比如图中Google assistant采用带有文字的按钮来告诉我它能识别屏幕上的内容，而我只需点击或者说出指令即可；右边的两张图里，Google通过[视觉元素变换+“进入对话”“离开对话”的文字提示+音效(earcon)]来隐喻游戏的开始与结束。

Google在designguideline for Google assistant里总结了他们运用在提示语(prompt)中的不同元素(types of conversational components) ，是一份非常好的参考。

设计过程其实与一般产品并无大异，需要考虑：

1). 用户研究结果。包括用例、使用场景、用户语言模式与心理模式等。可以参考博主@Lu的设计手记《语音理财案例分析》。

2). 业务场景与目标。主要是据此确定功能列表、功能优先级、交互方式等。推荐百度AI社区的《酒店语音助手实例教程》。

特殊的是，人工智能产品的形态多种多样，设计师必须对于产品所依附的硬件设备、产品背后的数据与技术支持有所了解，以确定产品边界、发现设计机会、持续优化用户体验。因此也需要考虑：

3). 技术与硬件基础。

比如设备联网程度，ASR引擎是否允许你设置N-best列表、自定义语音终止超时的时长，系统的负载量等。

4). 数据资源。

比如当前资源是否能满足该功能，哪些数据会影响系统响应时间等。

人们往往通过语音识别准确度来评估应用程序的运行效果，这也许是最糟糕的度量方式。一个应用程序能达到90%的识别准确度，同时自动实现85%的业务呼叫；另一个应用程序达到97%的识别准确度，且自动实现40%的业务呼叫，前者就一定比后者更差或更好吗？

——《如何构建语音识别应用》( Bruce Balentine, David Morgen)

评估涉及到三个问题：

1.如何定义成功

需要与开发人员、客户共同完成，以方便确定哪些状态是可以衡量的，哪些不可以。尽可能将成功状态具体化、数字化。

以下使一些成功标准的示例：

·60%想要预定酒店的用户最终完成了预定。

·85%的用户在1个月内至少完成了20天的每日健康记录。

·播放歌曲的错误率低于15%。

——《语音用户界面设计》Cathy Pearl

2.可以通过什么来衡量

A.任务完成率

B.用户(在何处)(因为什么)流失率

C.使用时长

D.语音打断情况

E.高频异常情况

……

*如果不思考原因，以上所有衡量结果都不可用

3.如何获得衡量数据

A.在早期建立记录日志

B.转录用户呼叫记录

……

参考资料：

《语音用户界面设计》Cathy Pearl

《Voice User Interface Design》Michael H. Cohen, James P. Giangola, Jennifer Balogh

百度AI社区

Google Design Guideline

Cortana Dev Center

Nielsen Norman Group

https://voiceprinciples.com/

《周耀明：自然语言对话引擎》

机器之心

(转)设计一个语音交互界面(Voice User Interface)
去年11月第一次接触VUI Design以来,已有三个多月,期间凭着网上的资料(主要是google designguideline\\dueros.com\\设计师手记\\论文)以及自己的UX知识,我尝试设计了三个项目: 一个买书的skill 、一款智能音箱语音交互游戏、一个关于中国电信100M宽带业务的微信咨询机器人 ,前两个项目做到原型为止,最后一个已经在...

语音交互设计:设计流程与方法
经过体验地图的梳理与流程规划,去构建合理、有序的流程,在任务执行过程中保证人机交互“自然、亲切、可靠”的体验,同时配合技术优化,完善机器人语音交互的丰富度,在语音交互设计中也会利用适当的引导与必要的提示,以更自然的方式消除异常时的尴尬,快速做到工作衔接。3. 设计策略3.1 定义角色人格 VUI产品是一个虚拟的...

语音交互设计的常见形式分析?
2.设计工具这里说的设计工具并不是说是一个具体的工具，更多是指一个方法论示例对话定义：示例对话字面意思就是演示举例对话，它看起来像一个电影脚本，像两个人一起在对话特点：是整个设计对话过程的关键方法。成本较低，简单易操作用法：把要做成一件事情的场景用文字写出来，然后大声读出来，...

语音交互技术包括哪些方面
语音交互界面设计也是不可或缺的一环，它关乎如何设计直观、易用的语音交互流程。这包括定义语音命令的语法、设计对话流程、以及优化语音反馈机制等。一个优秀的语音交互界面能够确保用户在与系统交互时感到自然、顺畅，无需过多学习即可上手。综上所述，语音交互技术是一个综合性的领域，它融合了多项先进...

语音交互或声控智能家居功能有哪些
2、智能家居新玩法只需喊一声“Hi，TV”，电视就可以开启语音控制系统，比如你说“最近天气预报”，然后电视屏幕上就会闪现出最近一周的本地天气情况。随着智能电视功能的日渐丰富和强大，仅依靠一个简单的电视遥控器已经满足不了智能电视的操控需求。引入语音识别和语音合成技术的智能语音电视不仅能听懂用户...

【编译】VUI(语音用户交互)设计基础指南
VUI是指,使用语音来实现人与设备实现交互的界面(语音可以是唯一的交互方式,也可以是对视觉和触觉的补充)。VUI可以是任何东西——听音乐时的氛围灯光到汽车的娱乐控制中心。 VUI完全可以没有界面,只依靠听觉、触觉或运动等方式来实现交互。 VUI的形式很多、载体丰富,但都具有相同的UX基础知识。设计师们借助对这些基...

厨电语音交互,未来已来?
相比眼望全球、各个行业通吃和应用广泛的通用智能助手，如Alexa、Google助手和叮咚智能助理，专注厨房、聚焦厨电语音交互的53iq，则是另一个方面的代表。53iq和NLP专家合作，通过建立强大的厨房语料库等方式来提高厨房语音识别率，并推广厨房成功应用场景。可以说，53iq助手为厨房而生。3. 厨房语音交互，...

哪个软件交友聊天比较开放
1. 探索社交元宇宙，欢迎来到Soul。在这里，用户真诚且充满乐趣，Soul APP为年轻人提供了一个开放且自由的交流空间。2. 想要实时语音交友吗？试试嘿嘿语音。这个应用是年轻人拓展社交圈子的好帮手，24小时不间断的在线派对，让你结交更多新朋友。3. 加入考米APP，体验丰富的线上互动和聊天室玩法。这里是...

什么是ai语音功能什么是ai语音功能手机
因此，AI语音功能是指利用人工智能技术实现计算机与人类进行自然流畅对话的一种功能。人工智能 AI语音功能别名人工智能语言定义: 人工智能(AI)语言是一类适应于人工智能和知识工程领域的、具有符号处理和逻辑推理能力的计算机程序设计语言 AI通话作为小米MIUI12中新增的一个智能语音电话系统，是为了帮助...

人与机交互过程中语音交互是指什么?
人机交互模型中,交互周期不包括语音命令交互阶段阶段。在人机交互模型中，交互周期是系统与用户之间的一种循环过程。通常包括以下四个阶段：1、用户输入阶段：用户与计算机系统进行交互的第一步是输入命令或信息。用户可以通过键盘、鼠标、手写笔、触摸屏幕等输入设备将自己的指令输入到系统中。2、系统处理阶段...

阜新蒙古族自治县19577014042： VOIOV1的通话图面怎么设?VOIOV1的通话图面怎么设置 ？
锺环盐酸： 是设置联系人图片吧?把图片存入手机,打开图片,并点击图片菜单,选择“将图片设置为”,“联系人照片”,这样你想要的通话界面图案就设置成功了

阜新蒙古族自治县19577014042： 人机交互界面GUI如何开发呀,能用什么软件和语言来开发? - ？
锺环盐酸： 1 - carbon carbon是苹果公司推出的两个官方gui框架之一,是为了兼容以前的mac操作系统而开发的.它使用c语言实现,有几千个编程api,并随xcode一起免费发布.所以只要你安装了xcode,你就可以使用carbon编程了.如果你是个老mac开...

阜新蒙古族自治县19577014042： VOI模式的云桌面有什么优势和劣势? - ？
锺环盐酸： ＂VOI (Virtual OS Infrastructure)虚拟操作系统基础架构, 从桌面应用交付提升到了OS(操作系统)的标准化与即时分发,与传统的VDI 设计不同之处在于终端对本机系统资源的充分利用不再依靠于GPU 虚拟化与CPU 虚拟化技术,而是直接在I/...

阜新蒙古族自治县19577014042： 国内模仿机器人robi的最新技术突破 ？
锺环盐酸： 国内模仿机器人robi的最新技术突破随着人工智能技术的飞速发展,机器人已经成为... 另一个重要的技术突破是语音交互技术.小琪机器人通过内置的语音识别系统,能够...

阜新蒙古族自治县19577014042： 越来越友好的人机界面包含哪三个方面 - ？
锺环盐酸： 1. 越来越友好的人机界面包含哪三个方面: ___虚拟现实技术________________、_________语音技术___________、____智能代理技术_____________________2. ______越来越个性化的功能设计_____________________________________3. _________越来越高的性能价格比_________________________________

阜新蒙古族自治县19577014042： 立马极酷参数? - ？
锺环盐酸： 立马极酷是一款智能音箱,采用了创新的语音交互技术,可以帮助用户进行音乐播放、智能家居控制、语音搜索等多项功能.其参数包括: 1. 外观设计:立马极酷采用圆柱形状设计,类似于传统音箱,但更加简洁大气.其尺寸为140 x 130 x 130...

阜新蒙古族自治县19577014042： 多媒体技术最主要的应用领域有哪些,请高手指点 - ？
锺环盐酸： 多媒体技术(Multimedia Technology)是利用计算机对文本、图形、图像、声音、动画、视频等多种信息综合处理、建立逻辑关系和人机交互作用的技术.真正的多媒体技术所涉及的对象是计算机技术的产物,而其他的单纯事物,如电影、电视...

阜新蒙古族自治县19577014042： 人机交互课程设计 - ？
锺环盐酸： 1. 需要设计一个界面来显示版权页6. VFP直接支持鼠标功能,不需要额外开发

阜新蒙古族自治县19577014042： 桌面虚拟是VDI还是VOI - ？
锺环盐酸： VOI 即Virtual OS Infrastructure 构架的实现,从桌面应用交付提升到了OS(操作系统)的标准化与即时分发,与传统的VDI 设计不同之处在于终端对本机系统资源的充分利用不再依靠于GPU 虚拟化与CPU 虚拟化技术,而是直接在I/O 层实现对物...

你可能想看的相关专题

星空见康网

（转）设计一个语音交互界面(Voice User Interface)

你可能想看的相关专题