搭建智能语音交互系统重要点那些

作者&投稿：恽叶（若有异议请与网页底部的电邮联系）

~ 序言

随着人工智能命题的提出，近年来涌现出一大批基于人工智能的呼叫中心业务服务商和集成商，仅智能外呼这一模块儿就将近百家公司在推广和运营。可以说整个基于人工智能技术的市场开始蓬勃的发展起来了。

简单介绍一下什么叫做智能语音交互平台。其实大实话就是在呼叫中心基础上，集成 ASR、 TTS、的呼叫服务平台。

那么如何我们自己去搭建智能语音系统呢？

我们先列出搭建智能外呼系统的搭建需要那些技术和服务：

个人认为：

[if !supportLists]·        [endif] 首先最重要的是交换机：

[if !supportLists]1.    [endif]PBX也就是交换机，商用设备原厂包括像华为、Avaya、思科、东汇等这些生产硬件交换机，

[if !supportLists]2.    [endif]还有就是目前FreeSitch、asterrisk、OpenPBX这些软件交换机。

[if !supportLists]·        [endif] 其次是AI技术: 及包含语音识别、语义理解、语音合成这三种技术是核心组成部分。语音识别相当于人的“耳朵”，接进电话后，对人的话语进行处理转义成系统能够识别的数据交由系统处理去识别。在进一步的话，可以转义为文字。语义理解相当于人的"大脑"，根据话语识别人的意图。语音合成，相当于人的”嘴巴“，识别人的意图之后，依照特定的回答方式，去回复和引导对话。

[if !supportLists]·        [endif] 再者是前端服务平台：即用户登录、配置呼叫流程，建立呼叫任务、统计呼叫数据、导出呼叫报表的网站，这个是终端用户唯一可以看到并且操作的界面。

[if !supportLists]·        [endif] 最后是外呼线路：其中包括三大运营商以及其他小型的集成线路供应商，主要目的是外呼电话或者是接入电话。

也有人可能有疑问：”智能语音交互系统最重要的不是人工智能么，和交换机有啥关系？”为什么说最重要的是交换机呢，原因是不管我们是外呼还是接入电话、都需要前端服务平台把外呼请求发送给交换机，通过外呼线路而拨出去。换句话说交换机是控制整体的外呼情况。硬件的交换机，比如说像华为的交换机，价格在大约几万到几百万不等的价格。对于想要建立自己的智能语音交互系统来说，价格对于一些小型公司来说承受不起，而FreeSitch这种软交换则大大方便了小型公司建立自己的智能语音交互系统。

什么是FreeSwitch？

FreeSitch是一个电话的软交换解决方案，包括一个软电话和软交换机用以提供语音和聊天的产品驱动。FreeSitch 可以用作交换机引擎、PBX、多媒体网关以及多媒体服务器等。支持多种通讯技术标准，包括 SIP, H.323, IAX2 以及 GoogleTalk ，同时也可以方便的与其他开源的PBX系统进行对接。而且具有很强的伸缩性。旨在为音频、视频、文字或任何其他形式的媒体，提供路由和互连通信协议。

FreeSwitch 的典型功能

[if !supportLists]·        [endif]在线计费、预付费功能。

[if !supportLists]·        [endif]电话路由服务器。

[if !supportLists]·        [endif]语音转码服务器。

[if !supportLists]·        [endif]支持资源优先权和QoS的服务器。

[if !supportLists]·        [endif]多点会议服务器。

[if !supportLists]·        [endif]IVR、语音通知服务器。

[if !supportLists]·        [endif]VoiceMail服务器。

[if !supportLists]·        [endif]PBX应用和软交换。

[if !supportLists]·        [endif]应用层网关。

[if !supportLists]·        [endif]防火墙/NAT穿越应用。

[if !supportLists]·        [endif]私有服务器。

[if !supportLists]·        [endif]SIP网间互联网关。

[if !supportLists]·        [endif]SBC及安全网关。

FreeSwitch最典型的功能是作为一个服务器，并用电话客户端软件连接到它。虽然FreeSwitch支持众多的通信协议，但其最主要的协议还是SIP，通过SIP中继发起会话协议。

使用FreeSwitch这种软交换的好处在于，你只需要一台服务器就可以随时搭建自己的外呼中心，而且FreeSwitch支持跨平台运行。能够原生运行Windows、Linux、BSD等诸多32/64位平台。

FreeSwitch内部使用线程模型来处理并发请求，每个连接都在单独的线程中进行处理，不同的线程间通过Mutex互斥访问共享资源，并通过消息和异步事件等方式进行通信。FreeSwitch本身是比较稳定的，它是比较优秀的开源软件。另一方面来讲，FreeSwitch又是比较激进的，它的开发分支里会有大量的新特性加入，因此在测试不全面的情况下，很容易出现不稳定的情况。而在用于生产环境的情况下，系统的稳定性是系统能否正常被使用的关键。之前我们在做项目的过程中，就遇到一些FreeSwitch不稳定的情况，导致外呼情况不理想。举一个例子：我们在进行测试外呼的时候，语音通话断断续续，虽然前端服务平台可以很好的接受到数据的传输，但是，真正在与人工进行沟通的时候，会出现各种各样的沟通障碍，为了解决这一个问题，我们花费了几个月的时间，去研究FreeSwitch的结构特性。终于把这个问题解决掉。我们的项目才得以继续推动，最终得以真正落地部署实施。

也有人可能有疑问：”FreeSwitch软交换虽然重要，但是既然是智能语音交互系统人工智能不重要吗？”，重要，当然重要！容我慢慢道来~

AI 技术

1. 通信原理

先简单解释一下正常打电话这个流程

流程：A→PSTN→B

解释：PSTN是Public

Switched Telephone Network，意思为公共交换电话网络，也就是我们的运营商的网络电话，

那我们平时如何给呼叫中心比如打电话是如何打的？：个人A打电话给呼叫中心1***6 打电话，拨通后听到录音，您好，拨打人工台，请按0键，按键之后，出现盲音，真正接通之后，客服接通了电话。

流程：A→PSTN→PBX→IVR→客服

解释：PBX也叫交换机、相当于整个呼叫中心的出入口

IVR也叫互动/交互式语音应答，语音导航，也就是相当于咨询业务请按键，这一环节，根据业务去分流到客服。

智能语音交互平台（智能机器人）落实到具体具体业务场景是如何实现的：

如：”个人A要在某一个大型酒店预订位子“，

A拨通后先听到了声音，“您好，我是机器人小岳，需要我帮您订位子是吗？

个人A说，“我不要和机器人说话，找个真人来”。

然后听到录音，“为您转接很贵的真人客服，排队中，请稍后”。

几分钟后接通，真人客服接了电话。

流程：A→PSTN→PBX→IVR（TTS→ASR→NLP→TTS）→ACD→客服

解释：在IVR部分：不再需要提示按键，而是直接问来电方需要办理什么业务，然后识别语音、理解意图后，根据用户的需求，回答后转入对应的业务队列排队。

上边是接通的流程，呼出的流程与之相反，就不在赘述了。

2. 现在市场上的AI技术的运用

目前市场上的不管是ASR、TTS、NLP都被阿里百度科大讯飞等巨头公司所占据，这些技术在国内基本已经成为定局。像ASR这类引擎市场上大部分都是用的阿里云和讯飞云的，要不就是百度云。阿里云和讯飞云的识别率高一些，可以达到97%左右、百度的差一些，识别率在80%左右，我们当初在做项目的时候选择ASR做过测试，事实证明阿里云识别率更高同时也可以识别方言。因此，我们在做项目的时候，当仁不让的选择了阿里云的

TTS我们选择的是讯飞的，选择的理由很简单，毕竟科大讯飞是人工智能领域巨头级的公司，质量当然有的保证。

3. AI 能力对接

在具体落地中，这个领域的常规参与者通常具备呼叫中心能力或者AI能力其中一种，而主要的对接点也就在于AI能力与呼叫中心设备去对接，而ASR/TTS与呼叫中心设备对接的常规协议主要是mrcp/sip。

媒体资源控制协议（Media Resource Control

Protocol, MRCP）是一种通讯协议，用于语音服务器向客户端提供各种语音服务(如语音识别和语音合成)。有两个版本的MRCP协议，版本2使用SIP作为控制协议，版本1使用RTSP。

实际对接的时候，会遇到不少技术问题，当我们ASR/TTS引擎做私有云部署，为了避免了内外网穿透时防火墙的诸多设置和语音流的时延。这在我们当时对接的时候也花费了好大一番功夫。

前端服务平台：

其中最重要的就是配置呼叫流程这一块儿了，

这一块儿很容易被忽视，但是这反而是可以出成绩的地方。一般来说一套最佳话术模板，可以以一敌万。心理学基础必须要有，一句话怎么说能让接电话的人最大概率的顺着自己的思路走，达成目的，从而形成特定细分领域机器人话术模板，得到最佳的外呼效果（接通率、通话时长、电销意愿、催收意愿）或者是接通效果（满意度）

其余的基本就是web端的东西了，具体功能点呢，即用户登录、配置呼叫流程，建立呼叫任务、统计呼叫数据、导出呼叫报表，这些功能点基本实现就可以，因为站在产品角度，产品最重要的价值就是可以呼通或者接通用户的电话，并且能够准确的识别用户的意图，并且准确的回答用户。这就是智能语音交互系统的最终目标，也一直是我们的最终目标。

外呼线路厂商：

一般如果是购买系统的话，是给提供线路的，只需交一些线路费用。如果是自己做项目的话，网上、淘宝上一大堆，费用可以谈，也给提供线路对接的接口。

结语

虽然现在市场上做智能语音交互系统的比较多，但一般只限于各个行业的电话销售，真正意义上的智能语音交互还是很少的。原因很简单，虽然原理不是很难但是真正落地实施的时候，遇到的困难非常的多，几乎是一步一个坑。好在现在已经真正的落地实施了，方方面面的效果都还是很不错的。一年多的辛苦没有白费。哈哈~

写这篇文章尝试给大家简单介绍一下智能语音交互系统，然才疏学浅，疏漏和不当之处在所难免，权当给大家抛砖引玉。

诸多细节限于主题和篇幅的要求不做详细记述，如有问题，欢迎随时交流。

搭建智能语音交互系统重要点那些
对于想要建立自己的智能语音交互系统来说,价格对于一些小型公司来说承受不起,而FreeSitch这种软交换则大大方便了小型公司建立自己的智能语音交互系统。什么是FreeSwitch? FreeSitch是一个电话的软交换解决方案,包括一个软电话和软交换机用以提供语音和聊天的产品驱动。FreeSitch 可以用作交换机引擎、PBX、多媒体网关以及...

AI语音技术让机器人更会「说话」——普强信息让智能交互更真实更...
语音智能客服简单来理解，就是一种非人工的智能机器人，其本质是用机器模拟人工（使用自然语言）与用户进行交流的人工智能信息系统，它让机器完成与人的无障碍交流。它采用自然语言理解、机器学习技术在内的多项智能人机交互技术，能够识别并理解用户语音形式提出的问题，通过语义分析理解用户意图，并以人性化...

(转)设计一个语音交互界面(Voice User Interface)
纯语音交互的代表之一是智能音箱,用户通过“唤醒”词,比如“ Alexa”,来开启VUI交互;另一个代表是电话客服,也就是交互式语音应答(Interactive Voice Response, IVR),它可以通过电话线路理解人们的请求并指引用户完成相应的任务,比如预定机票、查询话费等。可以把对话系统看作人机翻译机,接收人类的自然语言并把它翻译...

全方位交互体验福特是如何通过智能交互让车“活”起来的?
其人车对话与声控集成了AI智能语音交互系统和业界领先的自然语义识别功能，支持70+语义垂类，不仅可以不断学习用户的偏好，以不同动画和拟人表情配合不同驾驶场景，而且还可以根据声音精准的定位主副驾驶席的需求，无论是想要导航，还是想来点音乐，亦或者调整车窗、空调、后备箱等车内各项功能，甚至买电影...

AI技术如何打造智能客服?
简单来所,智能客服系统主要基于自然语言处理、大规模机器学习、深度学习技术,使用海量数据建立对话模型,结合多轮对话与实时反馈自主学习,精准识别用户意图,支持文字、语音、图片等富媒体交互,可实现语义解析和多形式的对话。但是每个行业有自己的业务特点和知识范围,每个呼叫中心公司都应该根据自己的业务,逐步解决最基本的...

AI技术如何打造智能客服?
通过分析历史数据和用户反馈，机器学习可以自动调整不同情况下的处理方法，提供更精准和快速的服务。3. 多通道交互：智能客服系统具有多通道交互支持，包括语音、文字、图像等不同形式的输入和输出方式，提供更多可能性来吸引和服务用户。4. 失败补救流程：当智能客服系统无法理解用户的问题或无法解决用户的...

酒店智能语音系统叫什么
天猫精灵。酒店客房采用最新的HORED智慧客房解决方案，植入全套HORED阿凡达客控系统，并将智慧客房语音解决方案与智能语音机器人“天猫精灵”深度融合，实现客房内“语音+手机微信”的多维智控方式，为客户带来更加便捷、舒适的“未来酒店”体验。酒店是给宾客提供歇宿和饮食的场所。具体地说饭店是以它的建筑物...

惊呆了!长城汽车咖啡智能语音交互功能还可以这样玩!
咖啡智能语音交互具有多音区声源定位功能，目前搭载车型大多支持双音区定位，能够准确定位用户方向，甄别驾驶员与乘坐人员的语音指令，并为其提供精准化服务。举个例子来讲，当主驾唤醒了语音交互功能时，语音系统只会听取驾驶员的命令，其他乘客聊天不会影响到语音系统的识别，即使说出“播放音乐&rdquo...

智能交互是什么意思?
智能语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。典型的应用场景—语音助手。自从iPhone 4S推出SIRI后，智能语音交互应用得到飞速发展。中文典型的智能语音交互应用如：虫洞语音助手、讯飞语点已得到越来越多的用户认可。

小米智能家居语音助手(小米智能家居语音系统)
1、没有关系。eliza是siri的早期产品，是早于siri出现的人工智能代表。小爱同学是小米旗下的人工智能语音交互引擎。二者没有关系。2、其实Siri和小娜青梅竹马，小爱和小度是青梅竹马 Siri和小娜来中国之后，他们互相抛弃了彼此，兴趣变了，爱上了中国人民的钱包。小爱不答应，想夺回来钱包，小度追随小爱。

林甸县19151312437： 智能家居中的语音交互该做什么如何做 - ？
重砍司乐： 智能家居中语音交互主要是用来进行语音控制设备的,需要通过语音识别才能够完成,如何做到语音交互需要以下几点: 1、语音交互需要将接受到的语音传输到云平台,进行语音分析,所以首先需要有语音识别的云服务. 2、智能硬件模块,该模块不能是局域网的Zigbee这类模块,因为Zigbee并没有连接到云平台,所以无法进行语音解析,目前wifi模块带语音模块. 3、将代码及协议写入到模块中.4、将语音智能模块与设备焊接,也就是所说的设备智能化. 5、完成并测试.

林甸县19151312437： 智能语音识别系统方案怎么做 - ？
重砍司乐： “语音”作为人工智能领域落地成熟的智能交互技术,已经步入商业化阶段.如:语音助手、智能家居、智能客服、智能机器人、智能车载等都是语音交互的重要应用. 英唐众创的智能语音识别系统方案里,智能交互技术方面主要包含前端信号处理、语音识别、语音合成、声纹识别、语义理解、情绪识别、智能多轮对话等. 在这个方案里,可以实现了实现了语音唤醒,语音合成,语义解析三大基础功能 ,可以对场景进行开发.

林甸县19151312437： 语音识别芯片有哪些?语音识别技术哪家好? - ？
重砍司乐： NRK10是一款离线式的语音识别芯片,识别率在2米内安静的环境下可以达到90%.并且拥有高性能低成本的优势,需要语音播放可外挂FLASH,方便简洁!

林甸县19151312437： 那些公司可以做智能语音识别系统方案的 - ？
重砍司乐： 语音交互系统是比较人性化的人机操作界面,它需要语音识别系统的支持.在英唐众创的智能与识别系统方案里,主要是应用了特定人语音识别技术,简单的讲,就是把MIC(麦克风)输入的声音进行频谱分析后提取语音特征,再和关键词语列表中的关键词语进行对比匹配,然后找出得分高的关键词语作为识别结果输出.

林甸县19151312437： 要构建一个智能系统,应该从哪些知识方面入手 - ？
重砍司乐： 你首选要选定一个域名和一个虚拟主机,然后让服务商帮你做备案工作网上下载建站系统,如:pageadmincms、帝国cms、wordpresscms等等.

林甸县19151312437： 目前,实现机器人语音交互功能的主流技术有哪些 - ？
重砍司乐： 语音,麦克风阵列语音增强),语音识别(动态时间规整,DTW;隐马尔科夫模型,HMM;支持向量机分类模型,SVM;人工神经网络模型,ANN;高斯混合模型,GMM),语音合成(线性预测编码模型,LPC;共振峰合成;).不知道你是要应用还是搞研究,所以只是给出了一些技术,希望你很快上手.

林甸县19151312437： 智能家居中有哪些因素让交互变得容易,有哪些因素让交互变得困难 - ？
重砍司乐： 目前所谓的语音交互系统最大瓶颈就是语音的识别性能,比如个人说普通话不标准如何识别.这类瓶颈目前并无很好的解决方案,也导致限制语音互动的产品普及的主要因素之一.我是上亿物联的工程师,希望答案对你有帮助.

你可能想看的相关专题

星空见康网

搭建智能语音交互系统重要点那些

你可能想看的相关专题