基于迭代结构的双耳声源定位算法研究文献综述

 2022-11-04 11:00:40
{title}{title}

文献综述:

音频信号处理是数字信号处理中的重要分支,语音信号处理系统在教育、医疗、生活、娱乐等方面的应用越来越广泛,其应用的环境也千差万别,从而对语音信号处理系统有了越来越高的要求。目前,传统的声源定位技术已经比较成熟,而精度却有待提高,本课题提出基于混合过程的迭代结构的声源定位算法,为基于方位信息的语音分离提供依据,得到不同声学环境(噪声、混响)下的双耳声源定位结果和性能分析。

双耳声源定位一直都是国内外的研究热点,在智能机器人、虚拟现实、医学研究等领域获得了广泛关注。该项研究兴起于二十世纪八十年代,以心理声学和现代数字信号处理为基础,重点研究声信号中包含的空间方位信息以及听觉环境对声源定位的影响。声源定位技术作为一门新兴的边缘交叉学科,涉及听觉心理学、听觉生理学、人工智能和高性能计算机系统等多个领域,可以帮助传递和识别可视信息,增强三维仿真环境的逼真度、想象力和沉浸感,在军事和民用方面有广泛的应用,所以声源定位技术研究具有重要的理论意义和应用前景。

人耳听觉系统能够在嘈杂的声学环境中辨别不同的声源目标,并且能够识别相应的语音内容,即鸡尾酒效应,也称之为声场景分析。相关研究表明,人耳之所以能够分辨不同的目标,是由于听觉系统能够根据不同声目标的特征,对混合物信号进行切分和组合,从而得到不同目标的声学数据流。在声学目标切分中,声源的方位信息是一个重要的特征,并且由于声源的方位信息不受清浊音分类、谐波分量、基音周期等声学内容影响,逐步成为声学目标分离的重要特征,因此本次设计研究是基于人耳特征的双耳信号声源定位和分离算法。

混合语音信号的分离有着非常广泛的应用领域,包括:

(1)语音识别、说话人识别、情感识别系统:将混合语音分离作为系统前端,分离后的目标信号进行识别,可以大幅度提高系统的识别性能。

(2)助听器研究:从包含噪声和干扰的混合语音中分离出目标语音后,再进行放大,可以有效改善听力障碍人士的听觉感知效果。

(3)语音通信:嘈杂环境下的语音通话以及回声一直是影响通信终端语音音质的重要因素,去除回声和干扰,只传输分离后的话者语音,将会显著提高通信话音质量。

(4)智能家居:物联网的发展促进了智能家居的兴起,而语音交互式智能家居系统中最为便捷的交互方式,将混合语音分离后的目标语音作为控制系统的输入,可以提高控制系统的反应能力,增强智能家居系统使用的流畅性。

人耳听觉系统只有两路输入,却可以精确地对特定声源进行定位和跟踪,并且对噪声、混响以及干扰声源具有鲁棒性。听觉神经心理学研究表明,人耳的听觉系统由两个分离、但高度交互的声通道组成,听觉神经将声信息传递到听觉脑皮层之前,左、右耳的声信息要进行重新分配和组合,人耳的很多听觉能力都来自于双耳信息的组合和比较。

根据双耳信号对应的空间线索,耳间时间差ITD(Iteraural Time Difference)、耳间强度差IID(Interaural Intensity Difference),已有多种算法实现空间感知的语音分离。早在2000年,Rickard Scott等提出了DUET(Degenerate Unmixing Estimation Technique)算法就是基于ITD与IID的分离算法。近年来,Keyrouz等人[17]提出了自分裂的竞争学习(self-splitting competitive learning)算法来进行双声源的分离,随后又提出了一种增强算法适应多声源的要求。

目前,人们对复杂环境下的近场声源定位研究比较少,其中,广义互相关法(GCC)是最常用的一种时间延时估计方法。它需要计算两路信号的互相关函数,时延值就是两路信号互相关函数的峰值位置。根据声源、背景环境的不同情况,目前的声源定位研究主要可以分为以下几类:

  1. 二维空间定位于三维空间定位
  2. 近场定位与远场定位
  3. 方向定位与距离定位
  4. 理想环境下的声源定位与低信噪比、强混响环境下的声源定位

一个完整的声源定位系统包括声源数目估计、声源定位和声源增强。为了达到更好的估计效果,前端可能会加入信号分类或者信号分段的功能模块,以确保只包含感兴趣声音的片段送入后面的处理环节。现有的声源定位算法可大致分为三类:基于最大化可定向波束形成器输出功率的声源定位、基于到达时间差的声源定位和基于高分辨率估计的声源定位。还有一类特殊的声源定位算法,基于头部相关传输函数(HRTF)。

另外,声源增强和声源定位的结果是密不可分的。可以通过前面的几类方法得到声源的定位信息,也可以借助摄像头采集的图像判断声源方位。听觉生理学和心理学研究表明,人耳听觉特征对声源定位有较好的辅助作用,可以弥补在有些条件下利用双耳特征和频谱特征进行定位的不足。在嘈杂的环境中,人耳听觉对目标声源信号的识别能力和传统的物理方法相比,体现出一定的优势。

综上所述,声源定位技术经过几十年的研究已经取得了长足的进步,在各种场合也得到了广泛的应用。随着应用需求的不断提高,真实声场环境下的三维声源定位仍然值得进行深入研究。

参考文献

[1] 杨祥清. 声源定位算法及实现[D]:[硕士学位论文]. 合肥:中国科学技术大学,2007

[2] 陈露明. 嘈杂背景下的声源定位及语音分离实现技术的研究[D]. [硕士学位论文]. 成都:电子科技大学,2007

[3] 马浩. 基于空间听觉的声源定位和三维声再现技术研究[D]:[博士学位论文]. 南京:东南大学,2008

[4] 赵力. 语音信号处理[M]. 北京:机械工业出版社,2003

[5] 朱滢. 实验心理声学[M]. 北京:北京大学出版社,2000

[6] 胡捷. 基于双耳信息交互的声源定位技术研究[D]. 东南大学,2011

[7] 谢菠荪. 头相关传输函数与虚拟听觉[M]. 北京:国防工业出版社,2008

[8] H. Hermansky,J. R. Cohen,R. M. Stren. Perceptual Properties of Current Speech Recognition Technology[J]. Proceedings of the IEEE,2013,101 (9):1968-1985

[9] Nicoleta R,Wong D L. Binaural tracking of multiple moving sources[J].IEEE Trans. On Audio,Speech and Language Proceeding, 2008,16(4):728-739

[10] 夸特而瑞主编. 离散时间语音信号处理——原理与应用[M]: 第1版. 赵胜辉等译.北京:电子工业出版社,2004.105-133

[11] T.May,S. van de Par,A.Kohlrausch. A Binaural Scene Analyzer for Joint Localization and Recognition of Speakers in the Presence of Interfering Noise Sources and Peverberation[J]. Audio,Speech,and Language Processing,IEEE Transactions on,2012,20(7):2016-2030

[12]周菲菲. 鲁棒性双耳声源定位研究[D]. 东南大学,2012

[13]J.Woodruff,D.Wang. Binaural detection,localization,and segregation in reverberant environments based on joint pitch and azimuth cues[J]. Audio,Speech,and Language Processing,IEEE Transactions on,2013,21(4):806-815.

[14]J.Taghia,T. Gerkmann,A. Leijon. Blind source separation of nondisjoint sources in the time-frequency domain with model-based determination of source contribution[C]//Signal Processing and Information Technology,2011 IEEE International Symposium on. IEEE,2011:276-280.

[15]G.Bao,Z. Ye,X.Xu,etal. A compressed sensing approach to blind separation of speech mixture based on a two-layer sparsity model[J]. Audio,Speech,and Language Processing,IEEE Transactions on,2013,21(5):899-906.

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。