音乐训练对语音识别能力的促进作用_文艺生活·中旬刊_杂文_网络文摘

肖睿王翠平

　　（西安音乐学院，陕西西安710061）

　　像鸡尾酒会这样喧闹的室内，会有许多不同的声音来源，如说话声、背景音乐声以及餐具和其他物体碰撞发出的声音等。在声波传输过程中，不同声音来源发出的声波相互重叠，会形成复杂的混合声波[1]。一个有趣的现象是：在鸡尾酒会上互相交谈时，人们可以完全集中在一个人的声音上，而使其他人的声音自动转移到背景中去。那么，听众如何区分不同目标的声音信号和他们接收到的声波，从而理解目标者的表达呢？这就是Cherry在1953 年所提出的著名的“鸡尾酒会”问题[2]。在这篇文章中，我们统一将目标者的表达称为目标言语，将背景的其他声音称为干扰性言语。

一、能量掩蔽和信息掩蔽

为了能更好地理解“鸡尾酒会”问题，我们首先来看看干扰性言语对目标言语能产生哪些掩蔽作用，这对深入认识这个问题的本质有重要的意义。

　　目前的研究多数采用多音素掩蔽法来研究有音乐训练背景和没有音乐训练背景的人的语音感知能力。Swaminathan 等人使用的是由可理解的句子组成的相互竞争的声音，这些句子与目标句子在空间上是分开的。模拟了一个生态现实的情景，一个人试图忽略旁边的干扰句，而去理解直接面对的目标者的语意。

　　为了区分在这种情况下导致掩蔽的不同因素，分成了两种由干扰言语引起的掩蔽：能量掩蔽和信息掩蔽。当干扰句在时间和频率上与目标语句重叠时，就会在听觉外围产生感官干扰，即能量掩蔽。当干扰句与目标句在语义上高度相似或混淆时，就会在听觉外围产生认知干扰，即信息掩蔽。例如，使用白噪声或语音形状的噪声来掩盖目标句时，会产生较高的能量掩蔽，但几乎没有信息掩蔽，因为在竞争认知处理中没有其他可理解的信号。而使用可以产生认知干扰的言语句子来掩盖目标句时，同时存在能量掩蔽和信息掩蔽。以特定的方式操纵干扰，可以改变不同条件下的能量掩蔽和信息掩蔽的大小。

二、干扰句的特点与信息掩蔽的关系

信息掩蔽的控制基于对掩蔽语言的空间位置和可解性的控制。就空间位置而言，相较于所有的干扰来自相同的位置，当干扰句在空间上与目标分开或距离较远时，目标句的可理解性会有所提高。这似乎是由于“认知因素”产生释放信息掩蔽的能力(例如，听者只关注目标信号而抑制对于错误信号的认知/语言处理)，而不是只由于“感觉因素”产生能量掩蔽的释放。

　　在可解性方面，通过将掩蔽语音正向播放(在这种情况下，它是正常的和完全可解的)或通过反转时域信号(使其不可解)来控制生成的信息掩蔽。

　　如图1 所示。A:扬声器相对于听众的位置；B&C:目标语句和干扰句正常和反转时域信号后的波形和频谱图。目标句:“小红拿了两个新玩具”；干扰句1：“李华买了九本书”；干扰句2：“小红拿了四个新玩具”。

　　

　　图1：信息掩蔽的不同情况[3]

　　Swaminathan 等人的研究有四种条件。在所有条件下，目标都是一个简短易懂的句子(例如，“小红看到了两双鞋”)，直接从参与者前面的扬声器播出。目标语句总是产生另外两个类似的干扰语句(由不同的人发音)。在条件1 和2 中，干扰句是可理解的。在条件3 和4 中，干扰句是不可理解的(时域反转)，并且干扰句与目标句空间分离。它们有非常相似的频谱结构(见图1)，因此产生了能量掩蔽非常相似的环境，但是信息掩蔽在条件1、2、3、4 中从很高逐渐降低。

三、音乐训练对听觉处理能力的作用

高强度的音乐训练对人们听觉处理能力(如在音高、音长和音色方面对声音进行细微的区分)和认知能力(如听觉注意和工作记忆)方面提出了非常高的要求，这些要求并未音乐所独有，语音感知也依赖于与工作记忆和听觉注意相关的听觉分析[4]。

　　在艺术实践中，接受过音乐训练的人们凭借他们的能力，在一个音乐合奏中选择性地聆听单个乐器，并将注意力从一种乐器随意地转移到另一种乐器上。这与“鸡尾酒会”问题有着惊人的相似之处，都是在几个相互竞争的声音中处理一个特定的声音的问题。

　　但是，选择性听力在音乐和语言语境中也不尽相同。例如，一个乐团的成员通常演奏相同的乐曲(不同的乐器可能演奏不同的部分)，而鸡尾酒会的问题涉及从不同的独立对话中选择一个给定的说话者。然而，在某种程度上，这两种情况下都要求在一个复杂的听觉场景有选择性的听的能力，而这些要求与大脑网络共享的音乐和语音处理有关，因此接受过音乐训练的人有更强的能力选择和参加到目标说话的语言(掩蔽)竞争。

四、音乐训练对语音识别能力的促进

Zuk 等人的研究显示接受过音乐训练的人在听觉认知任务上具有优势，更善于同时进行声音分离，比未经训练的人更不容易受到信息掩蔽的影响[5]。

　　音乐训练和语言感知的共同需求可能是由于部分重叠的大脑机制:越来越多的证据表明，涉及音乐和语音处理的大脑网络并没有完全隔离在大脑皮层中，而且事实上可能有很大程度的重叠[6]。这就提出了一个基本的问题:语言技能和音乐技能之间有很大关系吗，它们构成的心智能力是否相同？

　　解决这个问题的一种方法是将受过音乐训练的和未经训练的个人进行语言处理任务的比较。如果前者在这些任务上表现出优势，表明音乐和语音处理之间有神经生物学联系。原因如下：（1）在某些听觉和认知过程（音乐和语言共享的）中天生有优势的人会更多地从事音乐活动；（2）音乐训练可通过双向神经可塑性的大脑网络（语言和音乐共享的）提高语音处理任务。[7]

　　许多研究将接受过音乐训练的人的表现与未接受过不同语言任务训练的人的表现进行了比较，发现音乐训练与语音处理能力之间存在高度相关性，包括语音语调感知[8],语音对句子的影响辨别[9]以及第二语言语音知觉[10]。

　　从空间听觉的角度来说，当目标语音被两个可理解的、空间上分离的语音掩码所掩盖时，受过音乐训练的人比没有受过音乐训练的人对声音的感知更好。干扰句在空间上分离会有助于将目标句从干扰句的声音中分离出来，受过音乐训练的人的阈值比没有接受过音乐训练的人低得多(差异约为6 分贝)[11]。

　　这可能归因于他们抑制不相关背景声音的能力更强，更不容易受信息掩蔽的影响，并且在听觉注意任务上表现得更好。同时这也反映了接受过音乐训练的人们比未经训练的人有更好的“分析性”听觉能力，在产生信息掩蔽的干扰语音掩码的存在下，在基本听觉上的优势可以广到语音感知[12]。当空间分离的语音掩码存在时，未接受过音乐训练的听者在空间位置密集的正向语音干扰中，不能完全将干扰与目标本身进行空间化和隔离，这种个体差异源自于的空间敏锐度的不同。

五、结语

总的来说，最新的研究结果表明接受过音乐训练的个体比未经训练的个体在空间听觉上的能力更强。然而，也有研究报告称，接受过音乐训练的个体在标准的语音噪音感知测试中获得的优势不大。例如，Parbery-Clark 在两个临床试验中，接受过音乐训练的人在噪音测试中表现出了很小的优势[13]。Ruggles和Boebinger 等人的两项研究在噪音感知测试中发现接受过音乐训练的人没有任何优势[14][15]。

　　鉴于这些不一致的结果，由于其潜在的理论和现实意义，对这一课题的进一步研究是有必要的。在基础研究方面，如果接受过音乐训练的人在噪音中表现出明显的优势，这将为研究人员提供一个有用的群体来探索在噪音中感知语音的机制以及上述个体差异背后的因素。从实际的角度来看，在“鸡尾酒会”环境中交谈，对于神经性听力丧失的听者、耳蜗植入者，甚至一些临床上听力正常的听者都被证明是极具挑战性的。如果音乐训练确实能改善噪音中的听觉能力，这将对设计训练计划有重大的意义，以提高在正常和临床人群中的这种能力。

文章正文

音乐训练对语音识别能力的促进作用

一、能量掩蔽和信息掩蔽

二、干扰句的特点与信息掩蔽的关系

三、音乐训练对听觉处理能力的作用

四、音乐训练对语音识别能力的促进

五、结语

猜你喜欢

推荐阅读

参与评论