2022年10月 论文/读书笔记
这周去旁听了 ICASSP-2022 深圳会场的 oral,其中感觉收获很大的是听了微软谭老师关于 TTS-Survey 和 Neural-Speech 的介绍。TTS-Survey 主要是在讲 General-Model, 特别是最近大火的 diffusion model(DDPM),以及 tts 中 one-to-many 造成的问题和解决方案。 之前也有过一些对应的思考: TTS中过度平滑问题相关的理解和思考 ,大体思路是一样的,但当时总结得比较乱没有这次这么清晰。同时,之前也在做 ddpm-vocoder, 也顺便重新学习了解了下 ddpm 的相关内容。Neural-Speech 以前在May论文学习笔记 中也总结整理过,但好文章常读常新还是很有收获。Vae + Gan + Ddpm 解决掉train/infer 的 mismatch 这个做法还是很有启发意义。

同时,这两个月基本 review 过了大部分 csi 领域的论文,稍微总结整理一下放在这里。
CSI
A: WideResNet with Joint Representation Learning and Data Augmentation for Cover Song Identification
腾讯音乐 Lyra lab 关于 csi 方向的工作。
几个核心的思路和创新点:
- 使用了分类+表征学习结合的思路(似乎已经不是很新了?)
- 使用了 prototypical network/loss
- SpecAugment (也是 asr 中常用的方法)
prototypical network/loss 虽然看上去比较高级,但似乎感觉不是这里的主要问题? wide-resnet 模型本身的结构感觉也不会是解决问题的关键因素。
另外就是关于实验部分做得比较详细:
- shs100k级别的数据量下,数据量的扩充可以显著提升指标。这看上去也很正常。
- 字节的bytecover 效果复现不出来,这个和我的结论也是基本吻合的。 (之前复现 bytecover,需要很多 trick 才能得出和原论文一样的效果,但其实是可复现的)
- 一些新的baseline结果,数据很漂亮刷新了 sota,而且提升的幅度不小。但是因为引入了 shs600k 这个大数据集,看上去和之前其他论文中的比较不太”公平”
- 对比了 PicklyNet,之前没太关注这个方法,查缺补漏
整体来看,论文还不错,虽然立意和创新度不太够,但完整实验还是有很多收获在其中。
B: TONET: TONE-OCTAVE NETWORK FOR SINGING MELODY EXTRACTION FROM POLYPHONIC MUSIC
预测 tone/octave 的方法。
- 重排 cfp 特征。
- Encoder-Docoder 的backone 架构。
- 后处理的融合算法
看上去模型结构比较平常,基本都是其他领域内也很常见的结构。 比较有意思的点是关于 cfp rearrange 部分,将不同 octave 里面相同音节合并(重排)。 这里操作和 chroma 特征有点像,但 chroma 是做了能量的合并,这里仅仅是重排。 从信息角度上并没有任何损失。
看上去,cqt 似乎也可以使用类似操作,是否会对 csi 有所帮助??
音乐门外汉的粗浅理解,chroma/cfp-rearragne 都是统一处理,将不同频率的 do/mi 归类到一个类别上, 认为他们之间有某种联系,从而抽取更好的表征。例如同一首歌,所有音符上升八度之后,依然是同一首歌。
C: PiCKINet: DETECTING COVER SONGS WITH PITCH CLASS KEY-INVARIANT NETWORKS
Queen Mary University of London 的工作,提出了 key-invariant Net
- 和 cqt 类似,但是第一层使用了更大尺寸的感受野。以及使用了 Squeeze and Excite modules
- cqt 特征使用了类似 tonet 提到的 rearrange 的重排方案,进行了频谱层面的随机选择和偏移。
感觉实验部分存在比较大的问题
- bytecover 没复现出来(居然也写在论文中了)
- 使用自己的私有数据集,和别人公开数据集对比结果(不同数据集的结果基本没有意义?)
😢😢😢
D: Move: ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS
Move
获得更高精度
- 使用triplet loss和hard data mining
- temporal content summarization
- standradized latent space
- data augmentation strategy for VI
E: ReMove: LESS IS MORE: FASTER AND BETTER MUSIC VERSION IDENTIFICATION WITH EMBEDDING DISTILLATION
ReMove
在已有预训练模型的前提下,通过蒸馏等手段,不损失精度的前提下获得更短的embed向量,进而提升其工程性能。
F: CQTNET: LEARNING A REPRESENTATION FOR COVER SONG IDENTIFICATION USING CONVOLUTIONAL NEURAL NETWORK
cqt-Net 开源代码:https://github.com/yzspku/CQTNet
CNN-based 结构,刷新了当时的 SOTA 结果。
代码开源,推理结果可复现。作者使用了 multi-length 进行训练,从而使得模型对不同片段长度输入具有更好的鲁棒性。 (验证确实如此)
作者的另一篇类似的工作: Temporal Pyramid Pooling Convolutional Neural Network for Cover Song Identification [IJCAI2019],不过看论文中结果,指标要差一些。