语音分离 Speech Separation
发布网友
发布时间:2024-12-31 15:49
我来回答
共1个回答
热心网友
时间:2025-01-22 19:24
本文内容主要来源于台大李宏毅老师的深度学习在自然语言处理系列课程。
人类能在嘈杂环境中专注于单一说话者的声音,语音分离技术主要分为两类:说话者分离与说话者分离。
评估准则包括感知语音质量评估(PESQ)与短时客观清晰度(STOI),PESQ评分范围从-0.5至4.5,STOI评分范围从0至1。
训练数据容易获取,且有了评估指标,说话者分离问题看似简单,但由于排列问题(Permutation Issue)导致无法解决说话者无关场景的说话者分离问题,引入了深度聚类技术。
深度聚类(Deep Clustering)是一种分割与分离的判别性嵌入方法,其输入为二维矩阵,经过模型生成嵌入,输出三维矩阵,通过K-means聚类产生掩码,进而得到分离后的语音。17年作者展示了一个现场版demo,效果稳定,但中间加入了一些处理过程,之后出现了真正端到端的Permutation Invariant Training(PIT)方法。
Permutation Invariant Training(PIT)提供了解决排列问题的思路,但此过程涉及先有鸡还是先有蛋的问题,最终收敛于一个形式。参考了多篇文献,如Morten Kolbæ k等人与Gene-Ping Yang等人的工作。
TasNet - Time-domain Audio Separation Network是一种端到端的语音分离网络,通过学习时间域音频的特性实现语音分离。
其他扩展问题包括了未知说话者数量的递归语音分离、低延迟自适应波束形成以及音频-视觉模型的说话者语音分离。
文中还提到了其他研究,如语音增强、说话者验证、生成对抗网络在语音增强中的应用、基于模型的语音增强与语音分离的优化方法等。
此外,还介绍了一些技术,包括说话者无关的多麦克风音频处理、端到端的语音分离、基于Wavenet的语音降噪、以及利用深度学习进行相位重建的语音分离方法。
这些研究为语音分离技术提供了不同的视角与方法,旨在提高语音分离的准确性和效率。