文章正文

诗词 散文 小说 杂文 校园 文苑 历史 人物 人生 生活 幽默 美文 资源中心小说阅读归一云思

基于音乐数据集的数据挖掘分析的相关研究

时间:2023/11/9 作者: 文艺生活·下旬刊 热度: 19604
王楚凡

  (中央财经大学(沙河校区)统计与数学学院,北京 102206)

一、引言

音乐是一门用来表达情感、反映生活与经历的艺术,人类的音乐发展史中产生了各种各样的音乐流派,相互影响,不断创造,在艺术家的创造过程中,之前制作的音乐作品、之前的艺术家、社会环境等因素都影响着他们音乐作品的特征和风格。影响者们对艺术家们的影响主要体现在音乐作品的某些特征具有一定的相似性,除此之外,艺术家们的作品也会出现明显转变,也许是产生新的节奏或是新的流派,这些变化离不开艺术家们的共同贡献。

二、问题分析

首先,通过分析和比较歌曲之间的特征,可以衡量影响者与追随者的歌曲相似性,以此反映艺术家之间的相互影响,也可以从中观察出音乐流派随着时间的转变,所以,构建一种用于量化音乐影响力的模型是极为重要的,这能够帮助更好的了解音乐在社会变迁中的进化过程;其次,对数据进行预处理,然后建立音乐相似度的度量模型,判断流派间与流派内音乐的异同;然后,选取有代表性的歌曲来对流派间与流派内音乐的异同进行可视化;最后,应用聚类分析进行模型检验,得出结论。

三、模型的建立与求解

首先,由于全音数据集中的指标数量较多,必须对数据进行降维处理,从数据集中选取了八位艺术家,其中四位来自同一流派(R&B),另外四位来自其他流派。将他们每个人的所有歌曲的所有特征分别取平均值,得出的这些数据能够很好的代表他们的歌曲特征。将这些特征分类,分别使用皮尔逊系数、斯皮尔曼系数、以及非参数检验来计算出这些特征与音乐流行指数的相关性大小,通过对各指标与流行指数的相关性比较,选取了相关性较为显著的几组指标。它们分别是:舞蹈性、能量性、响度、关键性、声学性、工具性、明确性、流行性。

  然后,选取了六个相关性较强的指标,在已有的这八个艺术家的数据中,筛选出这六个指标对应的数据进行标准化处理,处理后的数据用于求出相关系数矩阵。不同的音乐流派有着不同于其他流派的一个或数个音乐特征,因此可以提取出这些反映音乐流派特点的音乐特征,来判断流派之间的相似程度。利用影响数据集中艺术家与其所属流派的对应关系,在完整的音乐数据集中建立艺术家-所属流派-音乐特征的对应关系。求出同一流派内所有音乐的七个音乐特征的平均值,作为该流派的音乐特征,再通过皮尔逊相关系数求出流派之间的相似性。根据相关分析选择出这两种流派间最具有代表性的三个指标关键,舞蹈性,活力,再从R&B和流行乐/摇滚乐中分别选取8首歌,进行下列操作,通过对这16首歌的指标进行分析,可以得到两种音乐流派的指标分布相差很大,R&B流派的指标的整体分布区间明显低于流行乐/摇滚乐流派。并且R&B流派的指标分布范围更大,波动更广,由此可知两个流派的指标具有较为明显的差异,选择对舞蹈性做方差分析,利用SPSS软件对两种流派的舞蹈性分析结果见表1:

  

  表1 舞蹈方差分析表

  表1中的组间方差为0.265。同时Sig<0.05,小于显著性水平,根据假设检验的条件可断定两组数据之间具有显著性差异。由此推算能量指标求出组内方差,发现流行乐/摇滚乐流派内部的的方差为0.041,而R&B的方差为0.007,可以得到流行乐/摇滚乐流派的能量变化范围更广,而R&B流派能量的变化范围更小,流派之间的指标波动区别。为了研究流派随时间的变化,画出前卫流派重要指标随年代变化的散点图,如图1所示:

  

  图1 前卫流派各指标随年代变化图

  由图1发现,前卫流派的原子价和活泼指标随时间变化整体下降。响度和声学指标随年代推移波动幅度逐渐变大,而持续时间u ms则基本未发生变化。为了对影响者是否真的能够影响到追随者,首先利用皮尔逊相似度ρ(a,b)=E(a*b)/(σa*σb),其中E(a*b)是a和b之间的互相关,σ^2(a)=E(a^2)和σ^2(b)=E(b^2)是信号a和b的方差,在本题中,a,b分别代表音乐家A,音乐家B的音乐特征向量(a1,a2,...an)和(b1,b2...bn),其中n为经过经过降维方法后所提取出的更具有影响力的音乐指标。用相关分析的方法,研究各音乐的各个指标与人气之间的关系大小。由于已经利用这种降维方法提取过更具影响力的指标,因此直接选用已经筛选出的主要指标:“舞蹈性”、“能量”、“响度”、“声学性”、“乐器性”随机选取出两组影响者与追随者的指标,并将所选出的每位艺术家的所有歌曲取平均值来代表该音乐家的整体音乐特征。最终得到简化后的两组数据,其中每组有一个影响者和三个追随者音乐指标,其中这两组的影响者为不同的人,最后选取影响者7秒与其追随者前卫的崛起的最具影响力的音乐指标来进行可视化,以更好的对比影响者是否真的对其追随者产生了影响。为了更好地验证模型建立的准确性,画出影响者与其追随者的雷达图,根据模型,影响者与其追随者之间的大部分音乐指标都是较为相似的,但是在某个音乐特征方面,可能做了突破或改进,说明影响者对其追随者产生了一定的影响,模型建立正确。

  

  图2 雷达图

  经过对皮尔逊系数的比较,影响者确实影响到了相应的艺术家,也就是说“影响者”实际上会影响追随者创作的音乐,而经过相关分析各个音乐指标与人气的关系后,发现每个指标对于人气的贡献度不同,即某些音乐特征比其他音乐特征更具“感染力”。在流派中,变革者的音乐特征往往会出现显著的变化,使用Z分数表示原始数据偏离均值的程度,同时Z分数将不同指标的数据标准化,很好地消除了指标之间的量纲和取值范围差异的影响。Z分数计算参考公式:

  

  其中,Xi是歌曲各特征的数值,Ui是各特征数值的均值,分母为标准方差,使用Zi来衡量每首歌曲第i个特征与均值的偏离程度。对第r首歌的n个特征的Zi进行相加,得到:

  

  用Zr来表示每首歌的“特别”程度,找出所有歌曲中的最大值的歌曲,它是变革年份中最特别的一首歌曲,将这首歌所对应的艺术家确定为变革者。前卫流派各指标随时间变化的剧烈程度十分相似,具有一定的趋同性,在20世纪50年代至80年代,前卫流派上述五大特征波动都十分明显,而其余时候均处于较为平稳的状态。总的来说,流派的音乐特征随时间推移会有所变化,各指标的变化趋同,但各指标与时间并不构成线性相关的关系,也就是说其变化幅度、趋势不定。

四、结语

在经济繁荣时期,人们对精神文化的需求扩大,互联网技术的蓬勃发展同样对音乐进化具有推动作用,这种推动作用主要体现为互联网极大促进了音乐的传播,互联网加快了音乐的传播速度,提升了音乐的传播效果。也就是说,在互联网技术的推动下,音乐作品的传播途径增加,那些流行指数低的歌曲所占据的市场份额也逐步提升,在人们能够接触到足够多的歌曲时,他们的选择就是多样化的,在这种需求扩张的情况下,无论是哪种曲风的歌曲,流行指数都能有明显的提升。
赞(0)


猜你喜欢

推荐阅读

参与评论

0 条评论
×

欢迎登录归一原创文学网站

最新评论