一个 librosa 踩坑的小记录。
2022年10月 论文/读书笔记
2022年5月-论文/读书笔记
合理使用并发和异步函数,来提高代码的性能和可扩展性。
最近读了一下 Revisiting Over-Smoothness in Text to Speech ,感觉还是有所启发。同时随手记录一些最近思考得 tts/vc 中表现力相关的问题点,无论对错,留个痕迹未来再回顾。
最近抽时间回去看了一下 TTS 中的前端内容,查缺补漏,温故知新。特此笔记如下。
遇事不决,量子力学!!!
和 ssl(Self-Supervised Learning)/预训练模型相关的几篇论文笔记。
Force alignment(FA) 是语音领域中一个常见的问题,输入是音频和对应文本字符, 输出每个字符的起始终止时间戳,相当于将句标签(强标签)转成了帧标签(弱标签)。 FA 在语音领域里的很多场景做为数据前处理的重要一环出现,例如 Durian-based tts 中利用 FA 生成 duration model 训练数据。Hybrid-Asr 中利用 FA 结果训练声学模型等。
子成人父,方解油盐非亿事,女为人母,才知酱醋味千般。 幼年长感父身宽,双肩可憾万重山。 而今转瞬成人父,才知年少见识偏。 流光逝,步蹒跚。碎银几两汉子难。 也曾心怀青云志,回首只盼老少安。