作者:郑凯桐房间脉冲响应(Room Impulse Response, RIR)表征了房间系统的系统响应,可以用于房间均衡和计算房间声学参数等用途在使用脉冲响应反向积分法计算房间混响时间时,首先需要测量房间内的声源到传声器的脉冲响应。
测量房间脉冲响应有许多种,文献[1]中对不同的房间脉冲响应测量进行了详细的介绍和对比详细介绍其中***为常用的长度序列法[2](Maximum Length Sequence, MLS),并在实际房间中使用该进行房间脉冲响应的测量。
长度序列是一种二进制伪随机序列,是具有全带特性的信号长度序列易于硬件生成且具有可重复性,通常被作为激励信号由扬声器系统进行重放以进行房间脉冲响应的测量阶数为N,周期为L=2N-1的长度序列信号的自相关函数具有以下性质:。
可以发现长度序列信号的自相关函数为单位脉冲响应在计算房间脉冲响应时,正是利用了公式中长度序列的自相关函数性质房间可以被视为一个线性时不变系统,计算房间脉冲响应可以被视为一个系统辨识问题在忽略噪声的情况下,系统的输出信号y(t)可以由系统的输入信号x(t)和系统的脉冲响应h(t)卷积得到:。
在公式两端对输入信号x(t)进行互相关运算,可得:
将长度序列的自相关函数的性质带入上式,可得:
以上推导表明:对系统的输入信号和输出信号进行互相关运算,即可计算出系统的脉冲响应对于房间系统而言,互相关运算计算出了房间脉冲响应由于长度序列是可重复信号,可以进行多次测量取平均以减少测量的随机误差,这也是长度序列信号相对于白噪声信号的优势之一。
在生成长度序列信号时应该根据所需房间脉冲响应的长度选择合适的阶数如果阶数过小,生成的长度序列信号长度短于所需房间脉冲响应的长度,会造成信号混叠,导致计算错误[2]图1分别展示了在真实房间中使用长度序列法进行测量时的输入信号、输出信号,以及测得的房间脉冲响应。
精准地测量房间脉冲响应需要专业的仪器与人员,并且耗费较多的时间与精力,不利于大规模测量在构建混响语音数据集用于训练深度神经时,由于数据集的大小与质量直接决定了算法的性能,为了获取大量的房间脉冲响应数据,往往采用计算机模拟的人工生成房间脉冲响应。
计算机模拟房间脉冲响应的主要可分为四类:类是基于波动声学的,如有限元法[3]和边界元法[4]这类可以准确地模拟房间中的声波传输,但是对于高频声波的计算复杂度比较高第二类是基于射线声学的,如虚源法[5]和路径追踪法[6]。
这类因为计算复杂度较低而被广泛使用,但是该类对于低频声波的仿真存在局限第三类是基于RIR统计模型的,如Schroder统计模型,但是该类模拟的RIR与真实的RIR在早期混响部分存在显著差异。
第四类是基于深度学习的,以上介绍的三类传统RIR模拟
(a)输入信号
(b)输出信号
(c)测得的房间脉冲响应图1 在真实房间中使用长度序列法进行测量时的信号均适用于特定的理论假设条件,其模拟的RIR与实际的RIR存在差异,造成深度学习模型在实际场景下性能下降有学者提出基于生成对抗(Generative Adversarial Network, GAN)的RIR模拟[7],提升了深度学习模型在远场语音识别任务下的准确度。
然而,该无法模拟具有特定混响时间的RIR且远场语音识别任务下使用的混响时间大多在0.8s以下,缺乏长混响时间对应的RIR数据库作者随后提出一种快速的RIR模拟[8],极大提升了RIR的模拟速度然而,该也是主要用于模拟中短混响(0.2-0.7s)的RIR,并且与真实房间的RIR仍存在差距。
在众多的房间脉冲响应模拟中,目前应用得***广泛的是虚源法图2 展示了虚源法模拟的房间脉冲响应的时域波形图
图2 使用虚源法模拟的房间脉冲响应时域波形图房间脉冲响应主要由直达声、早期反射声、晚期反射声三部分组成,分别使用黑色、红色、蓝色进行标注从房间脉冲响应值所对应的时间开始计算,前8ms的信号属于直达声,从8ms到50ms的信号属于早期反射声,50ms以后的信号属于晚期反射声。
在具有长混响时间的房间中,晚期反射声占有主导地位虚源法所模拟的房间脉冲响应具有在时域上稀疏的特性,并且其波形由标准的脉冲声和反射声组成然而,实际房间中的房间性质及反射物更为复杂,使用虚源法模拟的房间脉冲响应往往与实际房间中的房间脉冲响应不符。
由于虚源法是一种基于射线声学理论的理论模型,无法模拟低频声波特性和复杂房间中的声波传播过程在使用虚源法所模拟的房间脉冲响应训练深度学习模型时,会造成模型失配问题,导致混响时间盲估计模型在实际应用中性能下降。
需要提出一些更加切合实际的房间脉冲响应模拟法,尽量避免了使用虚源法模拟房间脉冲响应带来的弊端关键词:房间脉冲响应、房间脉冲响应测量参考文献:[1]STAN G B, EMBRECHTS J J, ARCHAMBEAU D. Comparison of different impulse response measurement techniques[J]. Journal of the Audio engineering society, 2002, 50(4): 249-262.
[2]NIELSEN J L. Maximum-Length Sequence Measurement of Room Impulse Responses with High-Level Disturbances[C]//Audio Engineering Society Convention 100. Audio Engineering Society, 1996.
[3]SHUKU T, ISHIHARA K. The ysis of the acoustic field in irregular* shaped rooms by the finite element method[J]. Journal of Sound and Vibration, 1973, 29(1): 67-IN1.
[4]KIRKUP S. The boundary element method in acoustics: A survey[J]. Applied Sciences, 2019, 9(8): 1642.
[5]ALLEN J B, BERKLEY D A. Image method for efficient* simulating all-room acoustics[J]. The Journal of the Acoustical Society of America, 1979, 65(4): 943-950.
[6]KROKSTAD A, STROM S, SØRSDAL S. Calculating the acoustical room response by the use of a ray tracing technique[J]. Journal of Sound and Vibration, 1968, 8(1): 118-125.
[7]RATNARAJAH A, TANG Z, MANOCHA D. IR-GAN: Room Impulse Response Generator for Far-field Speech Recognition[J/OL]. 2020[2021-07-26]. https://arxiv.org/abs/2010.13219v3.
[8]RATNARAJAH A, ZHANG S X, YU M, 等. FAST-RIR: Fast neural diffuse room impulse response generator[J]. arXiv preprint arXiv:2110.04057, 2021.
关于我们21dB声学人是科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等合作推广稿件投稿 | 项目推广 | 创业支持请发送需求至以下邮箱,我们将派专人与您联系。
21db@ioasonic.com版权声明文中所有图片和文字版权归21dB声学人所有如需转载或媒体合作,请与我们联系