Notes for tutorial “Audiovisual Music Performance Analysis” at ISMIR 2019

Audiovisual Music Performance Analysis

可以将这一类研究问题总结成研究听觉-视觉对应性的问题,大致分为下面三类:

  • 静态的:图像和音频的对应性,比如长笛演奏者的姿势与演奏/非演奏活动状态的识别,键盘上手指的动作和记谱的相互转换
  • 动态的,并且跟乐器种类相关的:动作和音频的起伏之间的对应性,比如吉他手的弹奏动作与节奏模式的相互转换,小提琴手揉弦和颤音的相互转换
  • 动态的,广泛的:视觉/听觉的联动,学习audiovisual的嵌入表示

静态的audiovisual correspondence

  1. Play/Nonplay 活动检测

    对 Play/Nonplay 活动进行检测,有助于提高多音高分析和记谱。

    P/NP

    使用层次聚类:

    a. 对音乐演奏者按照演奏乐器的类型进行聚类
    b. 对 Play/Nonplay 活动进行聚类

  2. Audiovisual 音乐分离
    Alt text

动态的audiovisual correspondence

  1. Vibrato Analysis (弦乐)

    将左手的rolling motion和音高浮动关联起来。用OpenPose跟踪手的动作,用光流估计(optical flow estimation)更精准地提取动作,用score-informed pitch estimation进行音高估计。

    Alt text

  2. 动作数据和频谱的协同作用

  3. motion’s sound
    Alt text

Audiovisual Source Association

将video, audio, score进行匹配。

  • 身体动作和音符起始位置的相互转换(弦乐):用OpenPose提取身体关节,用PCA检测主要动作,从主要动作中得到音符起始位置的概率曲线。
  • 手指动作和音符起始位置的相互转换(风笛/管乐):用OpenPose跟踪手的位置,用光流估计提取motion。

用带adaptive weights的线性变换将以上方法组合起来:

Alt text

分析任务分类

  1. 识别与检测
  2. 关联与分离
  3. 演奏者活动分析
  4. 记谱

通用的framework:

Alt text

如何建模多模态之间的依赖关系?将子空间联合起来进行学习。$T_i^*,T_a^*=\arg\max\limits_{T_i,T_a} S(T_i(I)T_a(A))$,其中$S$可以是correlation, covariance, mutual information,$T_i, T_a$可以用深度结构建模。

Co-factorization

用矩阵分解来解释数据:$V_{(F\times N)} \approx W_{(F\times K)} \times H_{(K\times N)}$.

Alt text

解释性更好的模型:非负矩阵分解(Nonnegative Matrix Factorisation, NMF)

Alt text

将多模态的特征结合的方法:

  1. 连接feature矩阵:对不同模态使用同一个损失函数,并不总能达到最优
  2. hard co-factorisation:施加约束使得activations相同,但不能解释跨模态的局部差异,另外,在audio和visual上的temporal activations理论上相近,而不必完全相同
  3. soft co-factorisation:$D_1,D_2$分别是两个模态的相似度度量,$P(H_1,H_2)$是惩罚项,用来耦合分解后的矩阵;用最大-最小算法按顺序更新$H_1,H_2,W_1,W_2,S$

    • cost functions: Kullback-Liebler and Itakura-Saito
    • penalties: $l_1$ and $l_2$-coupling

Motion Informed Audio Source Separation

动作捕捉:以小提琴为例,将琴身看作平面,在琴弓上放置传感器,获取倾斜度和速度数据。

Alt text

模型:soft non-negative matrix co-factorisation的变体

Alt text

数据集:Ensemble Expressive Performance dataset (Marchini et al., 2014) 贝多芬的协奏曲弦乐演奏的多模态数据集

在视频中,source separation面临的困难是,动作的表示不那么直接。

  • 一种解决方法是在每个演奏者的bounding box中提取motion clusters,用平均速度来表示。
  • 另一种方法是联合分解音频频谱,用audio activations对cluster velocities做回归。
  • 但这两种方法都很难解决两个小提琴的case。

基于audiovisual内容的分类和检索

motivation - 视觉传达了音乐风格信息

现有工作

  • 基于专辑封面和宣传图片,进行风格标注和艺术家相似性计算
    • 颜色,材质
    • 距离计算,最近邻标签向量平均化
  • 基于音乐视频的风格分类
    • 音频特征:psychoacoustic music descriptors, MFCCs
    • 视觉特征:颜色统计值,情绪值,颜色丰富程度,Wang emotional factors,Itten’s contrast,颜色名,亮度变化模式
    • 分类器:SVM, KNN, random forest, naive Bayes
  • 基于音频,专辑封面和文本的风格分类
    • 对音频、视觉和文本表示使用深度神经网络进行学习、融合以及多标签分类

Computer Music

Generating Music with GANs «
Prev «
» SSDNeRF (ICCV 2023)
» Next