Signal enhancement review

信号降噪/增强长期以来都是研究热点,传统方法通过时频变换,预测噪声频谱,通过维纳滤波等方法弱化噪声,实现语音增强。

近几年,随着硬件计算能力、神经网络算法的发展,深度学习方法开始应用于SE,从早期的LSTM到近几年的GAN算法,都广泛应用于SE。

Comparison on VoiceBank Dataset

 YearPESQCSIGCBAKCOVLSSNR
Noisy 1.973.352.242.631.68
Wiener19782.223.232.682.675.07
SEGAN20172.163.482.942.87.73
DSEGAN20192.393.463.113.50 
MMSE-GAN20182.533.803.123.14 
Metric-GAN20192.863.993.183.42 
Metric-GAN+20213.154.143.163.64 
WaveNet2017 3.623.232.98 
SEFLOW20212.433.773.123.098.07
DiffSE20212.433.632.813.00 
Deep Feature Loss2018 3.863.333.22 
Wave-U-Net20192.623.913.353.2710.05
SELF-ADAPTATION+
MULTI-HEAD SELF-ATTENTION
20202.994.153.423.57 
RDL-Net20203.024.383.433.72 
Sounds of Silence20203.163.963.543.53 
T-GSA transformer20203.064.183.593.62 

Generative Model

Wiener filter

传统滤波方法,例如简单的维纳滤波通过一个FIR滤波器,去除噪声的过程。 通过训练集的数据对信号和噪声的建模,然后通过前几个点的信息,预测当前时刻的噪声信号所占的比例,然后去除掉,剩下的就是预测的时序信号了。维纳滤波作为一种使用很广泛的滤波器,其变化的形式也有很多种,可以是单输入输出的,也可以是多输入输出的。

Wiener filter通过滤波(矩阵或者其他模型的形式)来从信号和噪声的混合中提取信号,维纳滤波的核心,就是计算这个滤波器,也就是解Wiener-Hopf方程。

SEGAN

SEGAN直接在时域对信号建模,通过端对端训练,实现信号增强

minDVLSGAN(D)=12Ex,xcpdata(x,xc)[(D(x,xc)1)2]+12Ezpz(z)),xcpdata(xc)[(D(G(z,xc),xc))2]minGVLSGAN(G)=12Ezpz(z)),xcpdata(xc)[(D(G(z,xc),xc)1)2]+λ||G(z,xc)x||1λ=100

segan

DSEGAN

在SEGAN的基础上,级联多个generator,实现multi-stage enhancement approach,效果好于one-stage SEGAN baseline(SEGAN)。为了适应multi-stage,loss需要叠加各个generator output的loss。

dsegan

MMSE-GAN

作者通过实验发现Vanilla GAN无法很好的生成T-F mask/clean T-F representation,因此

minGV(G)=Ey[log(D(G(y)))]+12Ex,y[log(x)log(G(y))]2

Metric-GAN

Vanilla GAN的loss function不是直接优化evaluation metrics,可能限制generator生成数据的质量,因此提出了MetricGAN:

metricgan

Metric-GAN+

在MetricGAN的基础上,引入一些工程优化技巧,加速模型收敛与训练稳定性:

UNetGAN

WaveNet

Network

The intuition behind this configuration is two-fold.

wavenet

dcc

Main features

 

SEFLOW

目前唯一一篇完全基于Normalizing flow for speech enhancement:

seflow

GF-VAE

有点类似PCA,通过降维找到主成分(信号),从而实现speech enhancement/denoising

gevae

DIFFSE

核心方法,利用diffusion 可以利用condition combine不同域的特征(时域、频域),提出了supportive reverse sampling方法。

training过程不变:

sampling过程,提出了supportive reverse sampling:

Supportive Reverse Sampling

DDPM中定义:

SRS中:

diffse

Discriminative Model

Deep Feature Loss

背景:

但是conventional loss的方式,信号增强效果有待提升,因此作者提出了deep feature loss,网络结构不变,仅将conventional loss修改为deep feature loss:

Wave-U-Net

 

waveunet

Self adaption+Multi-head self attention

We adopt the multi-task-learning strategy for incorporating speaker-aware feature extraction for speech enhancement.

mhsa+ada

RDL-Net

背景:

因此,提出了Residual-Dense Lattice block,类似residual block,只是分支减少,以及分支 间的连接减少,有点类似通过NAS搜索出来的block/architecture。

rdl1

rdl2

Sounds of Silence

通常语音信号中,每个词或句子间存在间隔,通过对间隔的识别以及间隔期间噪声的分析,估计整个信号中噪声的分布,可以实现降噪。因此文章提出了一个可端到端训练的回归模型来实现降噪。

soundsofsilence

TSTNN