声纹识别 | 快速概览 + 了解N：N聚类算法是如何应用的

作者&投稿：查畅（若有异议请与网页底部的电邮联系）

~ 关于声纹识别的N：N聚类算法

本文将从如下方面为你一一解读：

声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

1. 1:1 说话人确认

1:1 说话人确认是确认说话人身份的方法，针对“对于同样的文本内容，有两段录音，这两段录音到底是不是出自一人之口”这样的问题，也就是“两句话到底是不是一个人说“的问题；该类场景相对简单，主要应用于用户的注册和验证，以及APP内的声纹核身；

2. 1:N 说话人确认

1:N说话人辨认是辨认说话人身份的方法，针对“对于一段语音，需要迅速在样本库中进行搜寻比对，以确认这段语音与样本库中哪段语音相似度最高”，也就是说“给定的一段语音属于样本库中谁说的”的问题；该类场景比较常见，主要应用于黑名单用户进线检测，提高安防能力等。

3. N：N说话人聚类

对于千亿级别的无标签录音文件，如何做有效的处理？举个例子，假如说你有很多的语音片段（语音的文本内容是相同的），这些语音片段分别归属于甲乙丙丁等人，仅凭人耳辨识是无法分辨出哪些语音片段属于甲，哪些语音片段属于乙，通过N：N聚类的算法，进行声纹的相似度检测，将属于同一个人说话的语音片段不断进行合并归类，最后属于甲说话的语音片段全部被归为一类，属于乙说话的语音片段全部被归为一类，以此类推，类内语音的相似度极高，类间语音的相似度较低，达到将这些语音片段分人整理的目的；

简单介绍一下聚类分析：聚类分析是根据在数据中发现的描述对象及其关系的信息，将数据对象分组。目的是，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内相似性越大，组间差距越大，说明聚类效果越好。聚类效果的好坏依赖于两个因素：1.衡量距离的方法（distance measurement） 2.聚类算法（algorithm）

目前主流的说话人聚类算法是在说话人分割的基础上，基于贝叶斯信息判据，采用凝聚分层聚类算法，直接对说话人分割后的语音段进行判决，将属于同一个说话人的语音段合并为一类。其基本思想是从每个语片段中提取特征参数，例如梅尔倒谱参数，计算每两个语音段之间特征参数的相似度，并利用BIC判断相似度最高的两个语音段是否合并为同一类。对任意两段语音都进行上述判决，直到所有的语音段不再合并。 ---摘自“说话人聚类的初始类生成方法”

聚类&声纹识别的主要场景：在跨渠道，跨场景收集语音同时建立声纹库的时候，由于各场景应用的客户账号或许不同，说话人在不同场景中分别注册过声纹，难以筛除重复注册语音，建立统一声纹库；我们如何快速的去筛除属于某一个人在不同情况下录制的多条录音文件？也就是如何保证最终留下的录音文件（声纹库）是唯一的？每一个人只对应一条音频，这就要用到聚类的算法；利用声纹识别N：N说话人聚类，对所有收集到的语音进行语音相似度检测，将同一说话人在不同场景中的多次录制的语音筛选出来，并只保留其中一条，从而保证了声纹库的独特性，节省了大量的人力成本，资源成本。

对于目前的场景，我们选择凝聚层次聚类算法，在这种场景下，我们是要筛除重复人说话，那么我们可以将每一个录音文件都当作一个独立的数据点，看最后有凝聚出多少个独立的数据簇，此时可以理解为类内都是同一个人在说话；

1. 我们首先将每个数据点（每一条录音文件）视为一个单一的类，即如果我们的数据集中有 X 个数据点，那么我们就有 X 个类。然后，我们选择一个测量两个类之间距离的距离度量标准。作为例子，我们将用 average linkage，它将两个类之间的距离定义为第一个类中的数据点与第二个类中的数据点之间的平均距离。（这个距离度量标准可以选择其他的）

2. 在每次迭代中，我们将两个类合并成一个。这两个要合并的类应具有最小的 average linkage。即根据我们选择的距离度量标准，这两个类之间的距离最小，因此是最相似的，应该合并在一起。

3. 重复步骤 2 直到我们到达树根，即我们只有一个包含所有数据点的类。这样我们只需要选择何时停止合并类，即何时停止构建树，来选择最终需要多少个类--- 摘自知乎

按照实际的场景，如果我们最终要得到1000个不重复的录音文件，为了防止过度合并，定义的退出条件是最后想要得到的录音文件数目；

1. 录音重放攻击：攻击者录制目标说话人的语音进行播放，以目标人身份试图通过声纹识别系统的认证。

策略：基于随机内容声纹的检测技术：利用随机数字的不确定性，用户在规定的时间内（5-10S）需要念出指定的随机内容，如果超时，则随机内容更新；因为对于录音重放的内容是固定的，很不灵活，所以比较容易做限制

2. 波形拼接攻击

攻击者将目标说话人的语音录制下来，通过波形编辑工具，拼接出指定内容的语音数据，以放音的方式假冒目标说话人，试图以目标人身份通过声纹识别系统的认证。

策略：同录音重放

3.语音合成攻击

攻击者用语音合成技术生成目标说话人的语音，以放音的方式假冒目标说话人，试图以目标人的身份通过声纹识别系统的认证。

策略：1. 同录音重放

2. 利用活体检测技术，加强算法的识别度

双塔区19442415726： 声纹学产品有哪些?作用还有特点,要详细! - ？
兆士美索： 伊拉克战争的重要影响之一就是检验新技术的实用水平,其中从声音识别人就特别引人注目,其中最关键的是如何做到万无一失. 伊拉克战争正在如火如荼地进行着,双方在媒体宣传上也是战况激烈.在美国第一轮“斩首”行动之后,伊拉克...

双塔区19442415726： 声纹鉴定有人了解的吗? - ？
兆士美索： 一、什么是声纹鉴定声纹,也称 “ 语图 ” ,是由专用的电声转换仪器(语图仪)将声波特征绘制成的波谱图形.声纹鉴定就是把未知人的语声和已知人的语声,通过语图仪分别制成声纹图谱,再依据声纹图上的特征进行分析、比较和判断,...

双塔区19442415726： 在麻袋财富上投资有风险吗? - ？
兆士美索： 任何投资多少都是存在一定的风险的,但是麻袋财富有专业的团队,先进的技术,使风险降到最低,如果你要投资你可以了解一下这个平台.

双塔区19442415726： 为什么我的小爱同学没有提取我的声纹信息? - ？
兆士美索： 小爱同学音箱只要你在做册识别的时候,它会采集你的声纹底样.如何判断他有没有采集你的身份,你可以从几下几点去了解?第一他也没有重复让你去念一段文本,比如让你念3-5遍小爱同学.第二,在你唤醒小爱同学的时候,是不是要先念一句小爱同学.这个时候其他的人去念小爱同学的时候,他没有反应.那么就证明身份识别已经在起作用了.第三声纹识别,目前它的整个的使用效果还不是特别好.对于远近场,噪音合成,防重放这块做的其实都还不是特别好.如果感兴趣你可以用手机录音,然后再放一遍去攻击它一下.你就能够知道这个效果怎么样了.回答不易望采纳,如果需要了解更多的声纹识别相关技术可以关注我.给你更多的建议.

双塔区19442415726： 微信声音锁怎么用微信声音锁在哪里 - ？
兆士美索： iOS版微信用户升级到最新版后,需要在设置中开启该功能,然后按照系统要求读出随机数字若干次,之后微信会获取你的声音特征参数,最后用户退出微信.再次登录时用户就只需读出对应数字就能进入微信.“声音锁”功能采用了声纹识别...

双塔区19442415726： 派出所眼膜采集是干什么的 ？
兆士美索： 采集眼膜信息就是采集数据使用,后期补办身份证和相关证件都能用到,还有就是识... 当声纹采集完成,完成基础的声纹数据库系统建设,声纹识别可以有效协助公安缩小...

双塔区19442415726： 如何做一个声纹识别系统c++编程 - ？
兆士美索： 有基础还是好学的, 随便找本书温习一下C语法找本编程环境的书看看编程环境,再认真看看win32编程框架,基本就可以动手了. 不过,对项目的设计不熟悉不好做,做科研课题还好些,但还是建议,最好找个熟悉的人做一个框架和流程.

双塔区19442415726： 谁知道怎么用声音识别系统去鉴定人的身份啊?! - ？
兆士美索： 我来讲讲我的一点了解吧.每种声音都有三个度量去衡量,分别是音色,音调和音量.声音识别识别的就是音色.现在有声波收集器等设备以及各种软件可以捕捉到生活中的声音,并把它从飘渺不可见的东西转化为我们看得见的声纹(如cool edit),通过对比声纹就可以识别各种不同的声音.基于身份验证的声音识别系统与指纹识别系统类似,都是通过对比记声纹、指纹的某些较为特殊的地方而非全部细节来进行识别,可以说也是独一无二的.但是声纹系统仍有较大的缺陷存在:首先声音是可以录下来的,至于系统能否辨别出播放器播放其所记录声音发出的轻微噪声就不确定了;另一方面,声音是可以模仿的,不像指纹难以伪造,在面对模仿的声音时,可能系统也无法识别其中的差异.

双塔区19442415726： 声纹识别做到哪一步了,能有效帮助语音识别排除噪音了吗 - ？
兆士美索： 从理论上讲似乎行得通,但是我认为如果背景声音和人声频率接近的情况下,软件抑噪实现起来还是很困难的.

双塔区19442415726： 电脑机箱能卖多少钱? - ？
兆士美索： CPU:15 主板:100 内存:40 硬盘:50 显卡:集成显卡电源:50 机箱:50 合计:300

你可能想看的相关专题

星空见康网

声纹识别 | 快速概览 + 了解N：N聚类算法是如何应用的

你可能想看的相关专题