声纹识别

作者&投稿：老维（若有异议请与网页底部的电邮联系）

~ 在AI领域，解决的问题分三个阶段：看/听清、看/听懂、满足（PS：和百度开发者大会上景鲲对DuerOS的架构描述一致，所见略同）。在语音领域，声纹识别往往对应的是听清，语音识别对应着听懂的初期阶段（听懂在语音识别后，还需要大量的LU技术）。
对语音信息的挖掘，一般而言包括以下几个部分：

具体的说，声纹识别关心的“谁在说”，用于解决生物身份确认和识别；而语音识别关心的“说了什么”，用于解决对说话内容的识别。

声纹识别的理论基础：每个生物个体说话都具有其独特的特征。决定这些独特特征的因素有很多，主要有：

正常生物个人在说话时的声纹状态还是相对稳定的。但受到身体状况、年龄和情绪的变化影响，声纹特型会出现变化。
注册语音和测试语音的差异，这部分是对声纹识别在应用场景需要面临的一个难点。比如注册语音是歌手的歌曲音频，但测试语音是歌手的访谈音频，两种情况下的发声方式会有较大区别。

声纹识别的一般步骤包括：收集语音->噪声抑制和有效语音（VAD）->声纹特征提取->发声人的声音建模->识别匹配

语音信号可以认为是一种短时平稳信号和长时非平稳信号，其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。从发音机理上来说，人在发出不同种类的声音时，声道的情况是不一样的，各种器官的相互作用，会形成不同的声道模型，而这种相互作用的变化所形成的不同发声差异是非线性的。但是，发声器官的运动又存在一定的惯性，所以在短时间内，我们认为语音信号还是可以当成平稳信号来处理，这个短时一般范围在10到30毫秒之间。
这个意思就是说语音信号的相关特征参数的分布规律在短时间(10-30ms)内可以认为是一致的，而在长时间来看则是有明显变化的。在数字信号处理时，一般而言我们都期望对平稳信号进行时频分析，从而提取特征。因此，在对语音信号进行特征提取的时候，我们会有一个20ms左右的时间窗，在这个时间窗内我们认为语音信号是平稳的。然后以这个窗为单位在语音信号上进行滑动，每一个时间窗都可以提取出一个能够表征这个时间窗内信号的特征，从而就得到了语音信号的特征序列。这个过程，我们称之为声学特征提取。这个特征能够表征出在这个时间窗内的语音信号相关信息。如下图所示：

这样，我们就能够将一段语音转化得到一个以帧为单位的特征序列。由于人在说话时的随机性，不可能得到两段完全一模一样的语音，即便是同一个人连续说同样的内容时，其语音时长和特性都不能完全一致。因此，一般而言每段语音得到的特征序列长度是不一样的。
在时间窗里采取的不同的信号处理方式，就会得到不同的特征，目前常用的特征有滤波器组fbank，梅尔频率倒谱系数MFCC以及感知线性预测系数PLP特征等。然而这些特征所含有的信息较为冗余，我们还需要进一步的方法将这些特征中所含有的说话人信息进行提纯。

百度内部的声纹建模实际采用两个模型融合来完成：

这是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征通过按照一定的发声单元对齐后投影到一个较低的线性空间中，然后进行说话人信息的挖掘。直观上来说，可以理解成是在挖掘“不同的人在发同一个音时的区别是什么”。
首先我们会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网络，如下图所示：

这样，每一帧特征通过神经网络后，就会被分配到某一发声单元上去。然后，我们会对每一句话在所有的发声单元进行逐个统计，按照每个发声单元没单位统计得到相应的信息。这样，对于每一句话我们就会得到一个高维的特征矢量。
在得到高维的特征矢量后，我们就会采用一种称之为total variability的建模方法对高维特征进行建模：
M=m+Tw
其中m是所有训练数据得到的均值超矢量，M则是每一句话的超矢量，T是奇通过大量数据训练得到的载荷空间矩阵，w则是降维后得到的ivector特征矢量，根据任务情况而言，一般取几百维。最后，对这个ivector采用概率线性判别分析PLDA建模，从而挖掘出说话人的信息。

发声单元包括大概五千个特征，这些特征就包括两种情况。一种情况就是你在说什么，具体对应说话内容的文本空间；第二种情况是你的声音是什么样的，你的特征是什么，具体对应说话音调等声音特征。在这五千个特征里面，其中90%是说话的内容，10%是声音的特征，百度从中提取400个特征。输入两端人声对比的时候就比对这400个特征。

上一套方法还借鉴了一些语音学的知识(采用了语音识别中的发声单元分类网络)，那么基于端到端深度学习的说话人信息提取则是一个纯粹的数据驱动的方式。通过百度的海量数据样本以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异，从而提取出声学特征中的说话人信息表示。
我们首先通过海量的声纹数据训练一个深度卷积神经网络，其输出的类别就是说话人的ID，实际训练中我们使用了数万个ID来进行网络的训练。从而得到了能够有效表征说话人特性底座网络。在根据特定场景的任务进行自适应调优。具体过程如下图所示：

在完成网络的训练后，我们就得到了一个能够提取说话人差异信息的网络，对每一句话我们通过该网络就得到了说话人的特征。
端对端的系统，通过深度学习让机器自动挖掘声学特征中说话人的信息差异，用了2万个人、共5千个小时左右的数据去训练。该端对端网络会分析每段语音中的1020个特征，分析不同语音下同一特征像不像。这个端对端的网络的目标是输入两段声音，判断是不是同一个人说的话。
两套系统最后在得分域上进行了加权融合，从而给出最后的判决结果。

声纹识别的优缺点
声纹识别的应用有一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响；比如不同的麦克风和信道对识别性能有影响；比如环境噪音对识别有干扰；又比如混合说话人的情形下人的声纹特征不易提取；……等等。尽管如此，与其他生物特征相比，声纹识别的应用有一些特殊的优势：(1)蕴含...

声纹识别的实际应用
语音生物特征识别，又称说话人识别，俗称声纹识别，是根据说话人的发音生理和行为特征，自动识别说话人身份的一种生物识别方法。声纹识别所提供的安全性可与其他生物识别技术（如：指纹、掌形和虹膜）相媲美，而且语音采集装置造价低廉，只需电话\/手机或麦克风即可，无需特殊的设备；它与说话语言无关，与...

声纹识别未来可期,盘点六大主流厂商
2020年，声纹识别这个词走进了人们的视野，在疫情期间，不摘口罩，无接触来进行身份认证，成为了大众对生物识别的迫切需求。人脸识别大热过后，声纹识别是否可以成为一个新的风口？也许在2020年，声纹识别的市场接受程度与资本认可程度会指数级上升。那么声纹识别主要的厂商都有哪些呢？下面就由我来带你看...

声纹识别哪家好
1、六大主流声纹识别厂商(1)科大讯飞成立于1999年，具有语音合成、语音识别、口语评测、语言翻译、声纹识别、人脸识别、自然语言处理等智能语音与人工智能核心技术。2、标准声纹采集器BioVoice0是首批通过公安部质量检测的产品，由快商通自主研发，采用智能化麦克风集群，支持单向\/全向拾音、多种文本采集方式...

人脸识别技术可以通过声纹进行识别吗
人脸和声纹识别技术的联系和发展随着人工智能技术的不断发展，人脸识别技术在我们生活中已经变得越来越常见。我们可以在手机解锁、身份认证、社交媒体等方面看到它的存在。然而，我们是否有想过，人脸识别技术可以通过声纹进行识别吗？首先，让我们来了解一下声纹识别技术。所谓声纹，是指个人在说话时所产生...

苹果声纹识别即将面世,Siri将知道你是谁
在前不久的苹果 WWDC 2019 全球开发者大会，有一项更新可能很多人没太多关注，那就是 HomePod 加入了声纹识别功能，可以通过声纹识别特定的用户。苹果也将在新产品中加入声纹识别，当你说出「Hey Siri」的时候，Siri 可以知道是不是主人在喊它。这或许并非只是传言，毕竟去年苹果就曾在官方技术博客...

声纹识别
在AI领域，解决的问题分三个阶段：看\/听清、看\/听懂、满足（PS：和百度开发者大会上景鲲对DuerOS的架构描述一致，所见略同）。在语音领域，声纹识别往往对应的是听清，语音识别对应着听懂的初期阶段（听懂在语音识别后，还需要大量的LU技术）。对语音信息的挖掘，一般而言包括以下几个部分：具体的说，...

手纹识别不了怎么办??
1、建议你使用指纹功能时尽量保持手指清洁，避免污垢、油渍或汗渍，以免影响手指录入和识别。2、秋冬季节手指皮肤比较干燥，进行指纹解锁时，按压的力量稍微增大一些；或者保持手指的适当湿度，例如哈气、洗手后擦干。3、人休息睡眠后血液循环慢，指纹的纹理会变浅，解锁时也需要稍微增大按压力度。尝试重新录入...

[神奇的声纹、耳纹破案法]声纹识别的用途
然后，又播出了一段此人的声音剪辑。在广播后的整整一小时内，竟有上百位居民涌向警察局，其中有8个人同诉一个人。于是，这个人随即被拘。经审讯查证，这个人正是罪犯――他是木匠，42岁，出生在维斯特法利亚。肥胖、秃顶。这个案例就是以声音识别罪犯，通过声纹鉴定而侦破案件。原来，人的语音如同人...

神秘莫测的纹路图解:手掌有十字纹的含义
十字纹位于小指下方的人：会比较注重外表，容易以貌取人。此外，也代表性欲比较旺盛。十字纹出现在掌心如感情纹和智慧线之间，称之为神秘十字纹，表示其人喜欢研究玄秘深奥事物，有才志，有见解，对哲学、玄学、佛道文化、医相星卜非常热爱。十字纹识别方法 1、在掌心,感情纹和智能线之间,...

中山市19861287765： 声纹识别 - 搜狗百科？
闾晨思特： 所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱.人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大...

中山市19861287765： 声纹识别,想想“声纹识别”指的是什么? - ？
闾晨思特：[答案] 声纹是指每个人的声音中所具有的独一无二的区别于其他人的特征,就像指纹一样,每个人的指纹都不相同,所以通常把声音中这种独一无二的特征形象的称为声纹.

中山市19861287765： 如何做声纹鉴定 - ？
闾晨思特： 所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱.现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点.成年以后,人的声音可保持长期相对稳定不变.实验证明,无论讲话者是故意模仿他人声音和语...

中山市19861287765： 声纹鉴定有人了解的吗? - ？
闾晨思特： 一、什么是声纹鉴定声纹,也称 “ 语图 ” ,是由专用的电声转换仪器(语图仪)将声波特征绘制成的波谱图形.声纹鉴定就是把未知人的语声和已知人的语声,通过语图仪分别制成声纹图谱,再依据声纹图上的特征进行分析、比较和判断,...

中山市19861287765： 声纹识别的实际应用 - ？
闾晨思特： 方案背景社保社会化以后,因为就业单位的搬迁、变更、关闭,退休人员异地养老等原因,造成投保人员频繁流动、分散.所以确定投保人的生存状况一直是社保支付理赔工作中的一个难题,全国各地陆续出现了社保基金被冒领的现象,尤其...

中山市19861287765： 声纹识别可以协助公安办案么? - ？
闾晨思特： 可以.人的声纹具有特定性和相对稳定性,是仅次于指纹的一种识别手段,公安人员办案时就可将获取的犯罪分子的声纹和嫌疑人的声纹,通过声纹鉴定技术进行检验对比,认定罪犯,为侦查破案提供可靠的证据.

中山市19861287765： 声纹识别技术主要技术部分有哪些? - ？
闾晨思特： 声纹主要的技术难点在于如何对语音信号进行说话人相关的信息提取和表示.一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行: 对于收集到的语音,首先会进行有效语音检测(VAD),将收集到的语音中非有效部分...

中山市19861287765： 目前有哪些运用声纹技术的产品? - ？
闾晨思特： 声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术.与语音识别不同的是,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的...

中山市19861287765： 声纹识别机器是识别声调还是响度?对着它把声音变尖变细和大喊大叫会发生什么变化? - ？
闾晨思特：[答案] 是识别声调,就是识别频率、把声音变细之类的就是在调节频率,如果频率达到验证值就可以通过, 但是你对他大喊大叫,你的固有频率不会变,只是振幅(响度)在变化,只是无用功而已, 声纹识别机器最基本的就是对声调识别.

你可能想看的相关专题

星空见康网

声纹识别

你可能想看的相关专题