2022 Oct 论文笔记

2022年10月论文/读书笔记

这周去旁听了 ICASSP-2022 深圳会场的 oral，其中感觉收获很大的是听了微软谭老师关于 TTS-Survey 和 Neural-Speech 的介绍。TTS-Survey 主要是在讲 General-Model，特别是最近大火的 diffusion model(DDPM)，以及 tts 中 one-to-many 造成的问题和解决方案。之前也有过一些对应的思考: TTS中过度平滑问题相关的理解和思考，大体思路是一样的，但当时总结得比较乱没有这次这么清晰。同时，之前也在做 ddpm-vocoder，也顺便重新学习了解了下 ddpm 的相关内容。Neural-Speech 以前在May论文学习笔记中也总结整理过，但好文章常读常新还是很有收获。Vae + Gan + Ddpm 解决掉train/infer 的 mismatch 这个做法还是很有启发意义。

同时，这两个月基本 review 过了大部分 csi 领域的论文，稍微总结整理一下放在这里。

CSI

A: WideResNet with Joint Representation Learning and Data Augmentation for Cover Song Identification

腾讯音乐 Lyra lab 关于 csi 方向的工作。

几个核心的思路和创新点:

使用了分类+表征学习结合的思路（似乎已经不是很新了？）
使用了 prototypical network/loss
SpecAugment （也是 asr 中常用的方法）

prototypical network/loss 虽然看上去比较高级，但似乎感觉不是这里的主要问题？ wide-resnet 模型本身的结构感觉也不会是解决问题的关键因素。

另外就是关于实验部分做得比较详细:

shs100k级别的数据量下，数据量的扩充可以显著提升指标。这看上去也很正常。
字节的bytecover 效果复现不出来，这个和我的结论也是基本吻合的。（之前复现 bytecover，需要很多 trick 才能得出和原论文一样的效果，但其实是可复现的）
一些新的baseline结果，数据很漂亮刷新了 sota，而且提升的幅度不小。但是因为引入了 shs600k 这个大数据集，看上去和之前其他论文中的比较不太”公平”
对比了 PicklyNet，之前没太关注这个方法，查缺补漏

整体来看，论文还不错，虽然立意和创新度不太够，但完整实验还是有很多收获在其中。

B: TONET: TONE-OCTAVE NETWORK FOR SINGING MELODY EXTRACTION FROM POLYPHONIC MUSIC

预测 tone/octave 的方法。

重排 cfp 特征。
Encoder-Docoder 的backone 架构。
后处理的融合算法

看上去模型结构比较平常，基本都是其他领域内也很常见的结构。比较有意思的点是关于 cfp rearrange 部分，将不同 octave 里面相同音节合并（重排）。这里操作和 chroma 特征有点像，但 chroma 是做了能量的合并，这里仅仅是重排。从信息角度上并没有任何损失。

看上去，cqt 似乎也可以使用类似操作，是否会对 csi 有所帮助？？

音乐门外汉的粗浅理解，chroma/cfp-rearragne 都是统一处理，将不同频率的 do/mi 归类到一个类别上，认为他们之间有某种联系，从而抽取更好的表征。例如同一首歌，所有音符上升八度之后，依然是同一首歌。

C: PiCKINet: DETECTING COVER SONGS WITH PITCH CLASS KEY-INVARIANT NETWORKS

Queen Mary University of London 的工作，提出了 key-invariant Net

和 cqt 类似，但是第一层使用了更大尺寸的感受野。以及使用了 Squeeze and Excite modules
cqt 特征使用了类似 tonet 提到的 rearrange 的重排方案，进行了频谱层面的随机选择和偏移。

感觉实验部分存在比较大的问题

bytecover 没复现出来（居然也写在论文中了）
使用自己的私有数据集，和别人公开数据集对比结果（不同数据集的结果基本没有意义？）

😢😢😢

D: Move: ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS

Move

获得更高精度

使用triplet loss和hard data mining
temporal content summarization
standradized latent space
data augmentation strategy for VI

E: ReMove: LESS IS MORE: FASTER AND BETTER MUSIC VERSION IDENTIFICATION WITH EMBEDDING DISTILLATION

ReMove

在已有预训练模型的前提下，通过蒸馏等手段，不损失精度的前提下获得更短的embed向量，进而提升其工程性能。

F: CQTNET: LEARNING A REPRESENTATION FOR COVER SONG IDENTIFICATION USING CONVOLUTIONAL NEURAL NETWORK

cqt-Net 开源代码：https://github.com/yzspku/CQTNet

CNN-based 结构，刷新了当时的 SOTA 结果。

代码开源，推理结果可复现。作者使用了 multi-length 进行训练，从而使得模型对不同片段长度输入具有更好的鲁棒性。 (验证确实如此)

作者的另一篇类似的工作: Temporal Pyramid Pooling Convolutional Neural Network for Cover Song Identification [IJCAI2019]，不过看论文中结果，指标要差一些。

Liufeng's Blogs