2022June论文笔记

2022年10月论文/读书笔记

TTS

A: Learning Latent Rep- resentations for Style Control and Transfer in End-to-end Speech Synthesis

微软使用 vae 对 tts 做风格建模的文章，结构上和之前 g 的 gst 有点像，从 target audio 中提取固定长度 vec 作为 latent variables z, 然后推理的时候，从 ref audio 中提取。

为了防止 KL collapse，采取了kl-loss 系数从小到大的策略，防止开始阶段，之间把 z 采成正态分布从而啥都没学到。除此，一些模型结构和参数也可以参考借鉴。vae 的一个核心 encoder，就是把可变长度的向量/矩阵，转成一个固定长度的向量。

基本这个结构就是和我自己在 vc 中使用的相同。

B: [Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech]

CVAE 的文章，

VC

A: Enriching Source Style Transfer in Recognition-Synthesis based Non-Parallel Voice Conversion

西工大谢老师他们的论文，之前读过，拿出来重读了一下发现有几个之前没注意到的点。论文核心在于讲 prosody 的建模方式，包括显示的特征（energy and pitch）和隐式的特征，reference-encoder and vae latent embedding，以及 SA-WA 的编码器结构。explicit 特征以及 SA-WA 结构，和我自己之前实现差别不大，主要是 VAE 和 ref-encoder 两部分，有一些细节：

使用 bn 作为 ref-enc 的输入，而不是 mel 谱，这里会默认 bn 里包括里prosody的信息，以及比较好的去除里 spk 信息
使用 vae 提取 embed 之后，过一个 speaker-classifier 生成 posterior，并对此进行优化。使用 adv-loss/ce-loss 交替进行训练。（这个地方的设计得精巧）
三个方案生成的 prosody 特征进行融合。

论文里有一个地方图文矛盾，可能是笔误，prosody 的多特征融合应该是 concat，而不是 addition？

刚好最近正在复现类似的结构，可以到时一并看下对比结果。

ASR

A:Toward Zero Oracle Word Error Rate on the Switchboard Benchmark

Asr 论文届的一股清流，话说 mod9 是一个做语音的服务公司吗？？

一篇讲 asr benchmark 的论文

讲了一些 asr 标注导致数据的出入，例如文本正则化，重复词语的过滤，一些同音/同义词替换之类的，这些过滤/正则会使得asr测试指标升高。
对多个asr 系统指标做了评测，罗列结果。

大体上做的工作类似 SpeechIO，asr 的结果评测其实并不简单，里面有很多琐碎的细节都会对指标造成重大影响。（是否从另一方面也说明了大多数论文的 asr 指标以及benchmark里面”水分”较大，不可轻信？？）

CSI

A: BYTECOVER: COVER SONG IDENTIFICATION VIA MULTI-LOSS TRAINING

字节关于 csi 的论文，用表征学习的想法来做翻唱检索，而不是多分类的任务。

提出了一个 resnet-ibn 的结构以及对应的 loss，同时兼顾类内和类间的距离。

比较好的是，论文介绍给了一些开源数据集，对这个领域的入门者还比较有帮助。

Liufeng's Blogs

2022June论文笔记

TTS

A: Learning Latent Rep- resentations for Style Control and Transfer in End-to-end Speech Synthesis

B: [Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech]

VC

A: Enriching Source Style Transfer in Recognition-Synthesis based Non-Parallel Voice Conversion

ASR

A:Toward Zero Oracle Word Error Rate on the Switchboard Benchmark

CSI

To Read List

Voice Conversion Based Speaker Normalization for Acoustic Unit Discovery

A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes

Unified Speech-Text Pre-training for Speech Translation and Recognition

VoiceFixer: A Unified Framework for High-Fidelity Speech Restoration

Search

Table of Contents