求最强大脑小度大战孙亦廷声纹识别技术解析

作者&投稿：郑勇（若有异议请与网页底部的电邮联系）

详解声纹识别：如何正确评价小度在最强大~

本次最强大脑人机挑战的项目是听声识人，背后的技术背景是声纹识别技术。实际上声纹识别是一种行为识别技术，是通过测试、采集声音的波形和变化，与登记过的声音模板进行匹配。该项技术最早由40年代末的贝尔实验室开发，主要用于军事情报领域。随着技术发展，逐步在法医鉴定、法庭证据等领域得到广泛使用。声纹识别的理论基础每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。这种特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。就像指纹一样，每个人的声音也就有独特的特征。第二个因素是发声器官被操纵的方式，发声器官之间相互作用就会产生清晰的语音。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。小度声纹识别技术解析最强大脑中，小度机器人拥有的声纹识别技术，实际上属于动态声音实时检测技术，同时还包括VAD、降噪、去混响等（VAD的目的是检测是不是人的声音，降噪和去混响是排除环境干扰）。考虑到挑战场景是从合唱团中找到特点的人声，难点在于如何对语音信号中说话人相关的信息提取和表示，以及如何去区分类似人声的细微差异。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行：对于收集到的语音，首先会进行有效语音检测（VAD），将收集到的语音中非有效部分的语音进行切除，然后进行声学特征提取。由于语音信号是一种短时非平稳不定长的信号，因此一般提取特征都是采取加窗得到以帧为单位的特征。目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP，以及目前火热的基于深度学习的特征deep feature。在得到声学特征之后，就是说话人信息的进一步提取。这里采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经中国络算法。通过建模后，我们就能够对语音进行更深层次的特征表示，使得说话人相关的信息进一步被呈现。最后得到的模型，就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。这样，我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。（在实际的比赛过程中，21个合唱队员在进行唱歌时，我们通过分别将这21个队员的唱歌声音送入到该模型中，最后得到21个能够表征这些队员信息的模型）。识别匹配阶段就相对容易理解了，在采集到测试语音之后，进行相应的特征提取操作，然后通过与模版库里面的所有模板样本进行相似距离计算，然后选择距离最近的一个作为最后的判决结果。（在实际比赛过程中，这就相当于三次测试，每次测试，我们将线人的暗号语音送入到模型中，提取特征，然后再分别与21个模型进行打分比较，得分最高者即是机器认为的最有可能的线人）。整个过程如下图所示：本次声纹识别的难度可能大家最感兴趣的是，最强人工智能的小度和我们的小选手小宝3题只对了1题。这里我简单说下影响大家发挥的因素，如下： 1、噪音问题 2、多人唱歌 3、声音记忆遗忘 4、特征迁移排名第一的是噪音问题，包括现场噪音和音乐噪音，这个比上场人脸识别的影响更大（上期存在着光线的影响），音乐本身也会影响机器和选手的判断；第二是多人唱歌，众所周知，声纹的识别主要靠频谱特征，而多人会出现频谱混叠的现象，使得特征分离和识别难度较大；第三，主要是对人类选手的影响，一般的人记忆时间的序列会比空间的要难，尤其是在记忆三串声音序列后，容易出现混淆，这也是为什么doctorWei一再希望小宝多听几遍的原因；最后说下特征迁移，挑战中是通过记忆说话，到辨识唱歌。而往往人们说话和唱歌声纹是不同的，这就存在一个特征迁移的问题，对应到我们的两位选手需要一定的归纳推理能力。以上4个因素使得最终结果不是那么完美，但是也正是这些不完美才会让我们在技术上不断进步，不断超越过去的自己

本次最强大脑人机挑战的项目是听声识人，背后的技术背景是声纹识别技术。实际上声纹识别是一种行为识别技术，是通过测试、采集声音的波形和变化，与登记过的声音模板进行匹配。该项技术最早由40年代末的贝尔实验室开发，主要用于军事情报领域。随着技术发展，逐步在法医鉴定、法庭证据等领域得到广泛使用。声纹识别的理论基础每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。这种特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。就像指纹一样，每个人的声音也就有独特的特征。第二个因素是发声器官被操纵的方式，发声器官之间相互作用就会产生清晰的语音。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。 ? 小度声纹识别技术解析最强大脑中，小度机器人拥有的声纹识别技术，实际上属于动态声音实时检测技术，同时还包括VAD、降噪、去混响等（VAD的目的是检测是不是人的声音，降噪和去混响是排除环境干扰）。???? 考虑到挑战场景是从合唱团中找到特点的人声，难点在于如何对语音信号中说话人相关的信息提取和表示，以及如何去区分类似人声的细微差异。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行：对于收集到的语音，首先会进行有效语音检测（VAD），将收集到的语音中非有效部分的语音进行切除，然后进行声学特征提取。由于语音信号是一种短时非平稳不定长的信号，因此一般提取特征都是采取加窗得到以帧为单位的特征。目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP，以及目前火热的基于深度学习的特征deep feature。在得到声学特征之后，就是说话人信息的进一步提取。这里采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经中国络算法。通过建模后，我们就能够对语音进行更深层次的特征表示，使得说话人相关的信息进一步被呈现。最后得到的模型，就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。这样，我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。（在实际的比赛过程中，21个合唱队员在进行唱歌时，我们通过分别将这21个队员的唱歌声音送入到该模型中，最后得到21个能够表征这些队员信息的模型）。识别匹配阶段就相对容易理解了，在采集到测试语音之后，进行相应的特征提取操作，然后通过与模版库里面的所有模板样本进行相似距离计算，然后选择距离最近的一个作为最后的判决结果。（在实际比赛过程中，这就相当于三次测试，每次测试，我们将线人的暗号语音送入到模型中，提取特征，然后再分别与21个模型进行打分比较，得分最高者即是机器认为的最有可能的线人）。整个过程如下图所示：本次声纹识别的难度可能大家最感兴趣的是，最强人工智能的小度和我们的小选手小宝3题只对了1题。这里我简单说下影响大家发挥的因素，如下： 1、噪音问题 2、多人唱歌 3、声音记忆遗忘 4、特征迁移排名第一的是噪音问题，包括现场噪音和音乐噪音，这个比上场人脸识别的影响更大（上期存在着光线的影响），音乐本身也会影响机器和选手的判断；第二是多人唱歌，众所周知，声纹的识别主要靠频谱特征，而多人会出现频谱混叠的现象，使得特征分离和识别难度较大；第三，主要是对人类选手的影响，一般的人记忆时间的序列会比空间的要难，尤其是在记忆三串声音序列后，容易出现混淆，这也是为什么doctorWei一再希望小宝多听几遍的原因；最后说下特征迁移，挑战中是通过记忆说话，到辨识唱歌。而往往人们说话和唱歌声纹是不同的，这就存在一个特征迁移的问题，对应到我们的两位选手需要一定的归纳推理能力。以上4个因素使得最终结果不是那么完美，但是也正是这些不完美才会让我们在技术上不断进步，不断超越过去的自己

本次最强大脑人机挑战的项目是听声识人，背后的技术背景是声纹识别技术。实际上声纹识别是一种行为识别技术，是通过测试、采集声音的波形和变化，与登记过的声音模板进行匹配。该项技术最早由40年代末的贝尔实验室开发，主要用于军事情报领域。随着技术发展，逐步在法医鉴定、法庭证据等领域得到广泛使用。

声纹识别的理论基础

每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。

这种特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。就像指纹一样，每个人的声音也就有独特的特征。第二个因素是发声器官被操纵的方式，发声器官之间相互作用就会产生清晰的语音。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。

理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。

小度声纹识别技术解析

最强大脑中，小度机器人拥有的声纹识别技术，实际上属于动态声音实时检测技术，同时还包括VAD、降噪、去混响等（VAD的目的是检测是不是人的声音，降噪和去混响是排除环境干扰）。

考虑到挑战场景是从合唱团中找到特点的人声，难点在于如何对语音信号中说话人相关的信息提取和表示，以及如何去区分类似人声的细微差异。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行：

对于收集到的语音，首先会进行有效语音检测（VAD），将收集到的语音中非有效部分的语音进行切除，然后进行声学特征提取。由于语音信号是一种短时非平稳不定长的信号，因此一般提取特征都是采取加窗得到以帧为单位的特征。目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP，以及目前火热的基于深度学习的特征deep feature。在得到声学特征之后，就是说话人信息的进一步提取。这里采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经网络算法。通过建模后，我们就能够对语音进行更深层次的特征表示，使得说话人相关的信息进一步被呈现。最后得到的模型，就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。

这样，我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。（在实际的比赛过程中，21个合唱队员在进行唱歌时，我们通过分别将这21个队员的唱歌声音送入到该模型中，最后得到21个能够表征这些队员信息的模型）。

识别匹配阶段就相对容易理解了，在采集到测试语音之后，进行相应的特征提取操作，然后通过与模版库里面的所有模板样本进行相似距离计算，然后选择距离最近的一个作为最后的判决结果。（在实际比赛过程中，这就相当于三次测试，每次测试，我们将线人的暗号语音送入到模型中，提取特征，然后再分别与21个模型进行打分比较，得分最高者即是机器认为的最有可能的线人）。整个过程如下图所示：

本次声纹识别的难度

可能大家最感兴趣的是，最强人工智能的小度和我们的小选手小宝3题只对了1题。这里我简单说下影响大家发挥的因素，如下：

1、噪音问题

2、多人唱歌

3、声音记忆遗忘

4、特征迁移

排名第一的是噪音问题，包括现场噪音和音乐噪音，这个比上场人脸识别的影响更大（上期存在着光线的影响），音乐本身也会影响机器和选手的判断；第二是多人唱歌，众所周知，声纹的识别主要靠频谱特征，而多人会出现频谱混叠的现象，使得特征分离和识别难度较大；第三，主要是对人类选手的影响，一般的人记忆时间的序列会比空间的要难，尤其是在记忆三串声音序列后，容易出现混淆，这也是为什么doctorWei一再希望小宝多听几遍的原因；最后说下特征迁移，挑战中是通过记忆说话，到辨识唱歌。而往往人们说话和唱歌声纹是不同的，这就存在一个特征迁移的问题，对应到我们的两位选手需要一定的归纳推理能力。

以上4个因素使得最终结果不是那么完美，但是也正是这些不完美才会让我们在技术上不断进步，不断超越过去的自己。

沧源佤族自治县19692043088： 蜂蜜姜茶什么时候喝最好 - ？
愈欧全舒： 早上起床喝,中医讲升阳都在早上,下午和晚上不宜吃姜,会加重体内的热

沧源佤族自治县19692043088： 第四季最强大脑名人堂有陈智强吗 - ？
愈欧全舒： 有第十一场 2017.4.7收官之战黄政、Alex先后在景象辨识、跨代人脸识别项目中不敌人工智能,双双遗憾落败.语音匹配项目中,人工智能却惨遭“滑铁卢”,三次挑战均以失败告终.陈智强重返赛场,在家书修复项目中,完成挑战.人类脑力选手代表队(黄政、Alex、陈智强)和人工智能机器人“小度”共同获得“脑王”奖杯.

沧源佤族自治县19692043088： 最强大脑第二期人机大战谁上的 - ？
愈欧全舒： 声纹识别比赛人类派出的选手为“听音神童”孙亦廷.周杰伦化身接头人,派出三位线人隐藏在大脑合唱团(21人)中“收集情报”,周杰伦和三名线人接头过程中通话遭到干扰,通话时断时续,线人声音暴露,我方担心线人安危,派出“机器人小度”和“名人堂”选手孙亦廷前去营救,两位营救队员只能根据不稳定通话中的只言片语作为辨别依据,在性别相同、年龄相仿、声线极为相似的专业合唱团中将3位线人找出,找出多者获胜.最终,孙亦廷和机器人分别准确识别出一位“线人”,这期以平局收场.

沧源佤族自治县19692043088： 看了《最强大脑》人脸识别那期之后,感觉这项技术很厉害？
愈欧全舒： 《最强大脑》里的机器人“小度”是百度公司的产品,当时节目组表示,目前还是在测试阶段,如果人工智能可以做到完全正确识别,那么这项技术将来就可以用在寻找走失老人这件事情上.现在旷视科技的人脸识别技术已经应用到安防方面了,在2015年他们的天眼系统和智能摄像头已经协助公安机关识别并抓获不法分子百余人了.

沧源佤族自治县19692043088： 百度机器人 - ？
愈欧全舒： 小度机器人诞生于百度自然语言处理部,于2014年9月16日首次亮相于江苏卫视的《芝麻开门》节目.依托于百度强大的人工智能,集成了自然语言处理、对话系统、语音视觉等技术,从而小度机器人能够自然流畅地与用户进行信息、服务、情...

沧源佤族自治县19692043088： 《最强大脑》历届脑王名单?？
愈欧全舒： 第一季、第二季无脑王,第三季脑王陈智强,第四季脑王人类脑力选手代表队和人工智能机器人“小度”,第五季脑王杨易,第六季脑王郑林楷,第七季脑王杨易,第八季...

沧源佤族自治县19692043088： 女生能喝葡萄酒好吗?要怎么挑选啊 - ？
愈欧全舒： 女孩当然也能喝葡萄酒,除非有肝脏类疾病或者酒精过敏.在欧美等国葡萄酒除了是酒精领料还被看做是保健品使用,红葡萄酒中的单宁可以有效预防血栓和淤血的形成,白葡萄酒则主要是呵护肺.建议刚开始接触葡萄酒的人从新世界的酒(美国,澳洲,智利,南非等国)开始尝试,价格不需要太高,入门后再品尝老世界(法国,意大利,德国,西班牙)的酒.从品种来说建议尝试MELOT(梅洛),PINOR NOIR(黑皮诺),CABERNNET SAUVIGNON (加本内),前面是红葡萄酒,白葡萄酒则不需要特别的事项,切记:葡萄酒虽好,但不可贪杯.

沧源佤族自治县19692043088： 黄政对战机器人小度谁赢了最强大脑第四季脑王是谁 - ？
愈欧全舒： 小度赢了,第四季脑王参赛者都是脑王.谁也没淘汰.黄政,小度,艾利克斯,陈智强

沧源佤族自治县19692043088： 为什么虾子会变黑 - ？
愈欧全舒： 虾变黑主要是酶的作用. 虾体内含有一种叫酪氨酸酶的物质,酪氨酸在酪氨酸酶的作用下,可以逐步形成醌类物质,然后再形成优黑素、褐黑素等黑色物质. 虾的全身都有酪氨酸酶分布,但头部的酪氨酸酶活性最强,腹部和尾部的酶活性较低...

你可能想看的相关专题

星空见康网

求最强大脑小度大战孙亦廷声纹识别技术解析

你可能想看的相关专题