2022 Oct 论文笔记

2022/10/29 读书笔记 共 2364 字,约 7 分钟 Read:

2022年10月 论文/读书笔记

这周去旁听了 ICASSP-2022 深圳会场的 oral,其中感觉收获很大的是听了微软谭老师关于 TTS-Survey 和 Neural-Speech 的介绍。TTS-Survey 主要是在讲 General-Model, 特别是最近大火的 diffusion model(DDPM),以及 tts 中 one-to-many 造成的问题和解决方案。 之前也有过一些对应的思考: TTS中过度平滑问题相关的理解和思考 ,大体思路是一样的,但当时总结得比较乱没有这次这么清晰。同时,之前也在做 ddpm-vocoder, 也顺便重新学习了解了下 ddpm 的相关内容。Neural-Speech 以前在May论文学习笔记 中也总结整理过,但好文章常读常新还是很有收获。Vae + Gan + Ddpm 解决掉train/infer 的 mismatch 这个做法还是很有启发意义。

同时,这两个月基本 review 过了大部分 csi 领域的论文,稍微总结整理一下放在这里。

CSI

A: WideResNet with Joint Representation Learning and Data Augmentation for Cover Song Identification

腾讯音乐 Lyra lab 关于 csi 方向的工作。

几个核心的思路和创新点:

  1. 使用了分类+表征学习结合的思路(似乎已经不是很新了?)
  2. 使用了 prototypical network/loss
  3. SpecAugment (也是 asr 中常用的方法)

prototypical network/loss 虽然看上去比较高级,但似乎感觉不是这里的主要问题? wide-resnet 模型本身的结构感觉也不会是解决问题的关键因素。

另外就是关于实验部分做得比较详细:

  1. shs100k级别的数据量下,数据量的扩充可以显著提升指标。这看上去也很正常。
  2. 字节的bytecover 效果复现不出来,这个和我的结论也是基本吻合的。 (之前复现 bytecover,需要很多 trick 才能得出和原论文一样的效果,但其实是可复现的)
  3. 一些新的baseline结果,数据很漂亮刷新了 sota,而且提升的幅度不小。但是因为引入了 shs600k 这个大数据集,看上去和之前其他论文中的比较不太”公平”
  4. 对比了 PicklyNet,之前没太关注这个方法,查缺补漏

整体来看,论文还不错,虽然立意和创新度不太够,但完整实验还是有很多收获在其中。


B: TONET: TONE-OCTAVE NETWORK FOR SINGING MELODY EXTRACTION FROM POLYPHONIC MUSIC

预测 tone/octave 的方法。

  1. 重排 cfp 特征。
  2. Encoder-Docoder 的backone 架构。
  3. 后处理的融合算法

看上去模型结构比较平常,基本都是其他领域内也很常见的结构。 比较有意思的点是关于 cfp rearrange 部分,将不同 octave 里面相同音节合并(重排)。 这里操作和 chroma 特征有点像,但 chroma 是做了能量的合并,这里仅仅是重排。 从信息角度上并没有任何损失。

看上去,cqt 似乎也可以使用类似操作,是否会对 csi 有所帮助??

音乐门外汉的粗浅理解,chroma/cfp-rearragne 都是统一处理,将不同频率的 do/mi 归类到一个类别上, 认为他们之间有某种联系,从而抽取更好的表征。例如同一首歌,所有音符上升八度之后,依然是同一首歌。

C: PiCKINet: DETECTING COVER SONGS WITH PITCH CLASS KEY-INVARIANT NETWORKS

Queen Mary University of London 的工作,提出了 key-invariant Net

  1. 和 cqt 类似,但是第一层使用了更大尺寸的感受野。以及使用了 Squeeze and Excite modules
  2. cqt 特征使用了类似 tonet 提到的 rearrange 的重排方案,进行了频谱层面的随机选择和偏移。

感觉实验部分存在比较大的问题

  1. bytecover 没复现出来(居然也写在论文中了)
  2. 使用自己的私有数据集,和别人公开数据集对比结果(不同数据集的结果基本没有意义?)

😢😢😢

D: Move: ACCURATE AND SCALABLE VERSION IDENTIFICATION USING MUSICALLY-MOTIVATED EMBEDDINGS

Move

获得更高精度

  • 使用triplet loss和hard data mining
  • temporal content summarization
  • standradized latent space
  • data augmentation strategy for VI

E: ReMove: LESS IS MORE: FASTER AND BETTER MUSIC VERSION IDENTIFICATION WITH EMBEDDING DISTILLATION

ReMove

在已有预训练模型的前提下,通过蒸馏等手段,不损失精度的前提下获得更短的embed向量,进而提升其工程性能。

F: CQTNET: LEARNING A REPRESENTATION FOR COVER SONG IDENTIFICATION USING CONVOLUTIONAL NEURAL NETWORK

cqt-Net 开源代码:https://github.com/yzspku/CQTNet

CNN-based 结构,刷新了当时的 SOTA 结果。

代码开源,推理结果可复现。作者使用了 multi-length 进行训练,从而使得模型对不同片段长度输入具有更好的鲁棒性。 (验证确实如此)

作者的另一篇类似的工作: Temporal Pyramid Pooling Convolutional Neural Network for Cover Song Identification [IJCAI2019],不过看论文中结果,指标要差一些。

Search

    Table of Contents

    本站总访问量