在语音任务中,f0(pitch) 提取是必不可少的重要一环。常见的 pitch 提取算法, 包括 praat/Sptk 等praat/pyworld/sptk f0提取算法的python脚本。 在提取过程中,重要的两个参数是 f0_min 和 f0_max,上下限设置错误会导致基频提取发生 “倍频” or “半频” 错误。
接触深度学习四年来,大概工作中有六成以上的时间都在写模型/调模型/分析模型为什么好或不好。这个过程中总结来一些经验, 特此记录。
最近发现 ASR/VC/TTS 三个不同的项目中都会有所涉及中文不同发音单元所造成的影响,这篇笔记总结一下相关经验。
代码测试
基于 Psola 采样点级别的 Pitch 调整算法。
最近在某个任务上,尝试对seq进行帧级别的分类,回去仔细研究了一下kaldi中的tdnnf结构, 感觉模型设计非常精巧,对后续学习和帮助很有帮助。
神经网络模型在云端的优化技巧。
update(20210810): 补充了自适应vad参数的相关内容
快速搭建博客,与写作规范。