最近在做和 TTS/SVC 相关的内容,在 Svc 经典项目 https://github.com/svc-develop-team/so-vits-svc 里面, 发现他用的声码器 NSF-HifiGan 而非之前常用的 Hifi-GAN/MelGAN。 在跑过他的 demo 后效果果然很好,特别是在音质方面。 在想是不是这个声码器的缘故,所以就回来重新读了一下对应论文,还是感觉很有收获。
记录最近遇到的一个 PyTorch 训练内存泄漏的问题。查了好几天有点棘手,大费周折。
2022年12月 论文/读书笔记
2022年10月 论文/读书笔记
记录一个最近在写 C++/SIMD 向量化运算时遇到的小坑。
总结记录一些关于数据增强的探索与发现。
最近有空在 follow DDPM 方法在 vocoder/TTS/VC 等语音生成问题的应用。 先写下第一篇学习笔记,关于简单介绍 ddpm 及其在声码器中的一个简单应用 (waveGrad), 借此机会先梳理下整个方法的脉络和要点。
Cqt(Constant-Q transform) 特征是音乐领域里音频处理的常见特征。
直方图算法(histogram)是平时工作中经常遇到的一个算法,无论1D还是2D都有非常广泛的应用。
hnsw: 一个简单而高效的搜索算法,学习笔记