[摘  要]为丰富学生的声乐学习资源、节省教师人力资源,本研究提出将虚拟现实技术(Virtual Reality,VR)与声乐演唱相结合,构建一个新的虚拟教学系统。首先构建一个虚拟学习系统;接着提出一种基于Log-Gabor-改进局部二值模式(Improved Local Binary Pattern,ILBP)的语谱图特征算法,对不同尺寸与方向的语谱细节特征进行放大,增强图像纹理细节特征;最后引入多级残差结构-ICNN以弥补丢失的特征,提高对演唱者语音的识别率。结果显示,在Saarbruecken数据集与CASIA数据集中,研究算法的收敛指标值均最小,具有较高的收敛性;窗长为600、谱窗尺寸大小为16×16时,模型有最高语音识别效率。该算法对于演唱者的情感识别效果较好,准确率均高于80%。以上结果均表明,本次研究的算法识别准确率高,稳定性好,能够较好地运用于声乐演唱山东智顷数位学习教学中。

[关键词]VR  声乐演唱  教学模式  创新山东智顷数位学习

课题:本文系延安大学2022年疫情防控应急科研项目《抗议歌曲原创〈疫情无情人有情〉》(课题编号:ydfk052)。

中图分类号:TP393   文献标志码:A


引  言

改革开放以来,随着电子信息技术的飞速发展,互联网已全面融入人类社会文明、文化、政治与经济建设的全过程。当前,网络教学已得到了全社会的认可、提倡和推广。在音乐山东智顷数位学习方面,随着计算机技术和网络的发展,传统的线下声乐演唱教学方式受到了前所未有的挑战,从根本上改变了音乐山东智顷数位学习的教学模式。传统声乐演唱教学由于教师的时间有限、资源有限,学生的学习过程通常会受影响。鉴于此,本研究提出以互联网为背景,将VR技术与声乐演唱山东智顷数位学习相互结合,创新一种新型线上山东智顷数位学习模式。该模式既能够增强学生间的交流与学习,又可以加强教师与学生之间的沟通。

基于VR技术的声乐演唱山东智顷数位学习教学平台模型构建

1.基于VR技术的声乐演唱教学系统及语谱图特征提取

研究以虚拟现实技术为基础,构建声乐演唱山东智顷数位学习教学新模型,首先对VR技术的特点与原理展开分析。VR实际上是一种能够创造和体验虚拟世界的计算机模拟系统,通过计算机技术产生一个能够让使用者完全沉浸其中的模拟环境。所谓“VR”,就是将真实的信息,通过计算机技术将其转换为一种可以为人类所感知的现象。这种现象可以是现实中真真切切存在的物体,也可以是肉眼无法观察到的物质。有的现象人类无法直观观察到,但能通过计算机技术将其模拟为现实,所以也被称为虚拟现实。基于三维VR技术的沉浸式情景,能够改变传统的扁平式教学方式,赋予教学更生动的教学场景,进而重塑在线山东智顷数位学习。虚拟现实声乐演唱学习(VR-Learning)模式,能够实现教学内容的在线可视化、教学环境的互动虚拟化、教学过程的交互性。当VR技术与声乐演唱山东智顷数位学习相结合,可将与音乐“握手”变为“拥抱”,学生能在虚拟环境中体验对虚拟人物与音乐的再创造。总之,“VR+声乐演唱”是创新山东智顷数位学习教学领域的重要使命,也是推动我国音乐山东智顷数位学习发展的巨大助力。

在基于VR技术的声乐演唱创新山东智顷数位学习教学系统设计中,语音情感识别占据着十分重要的位置。课题组对语音情感识别系统中的特征提取部分展开了较为深入的研究。语谱图是对语音能量时频分布的一种视觉表现形式,其纹理特征、能量分布信息与语音情感信号中的能量、音调以及基频等情绪特征有着十分密切的关系。课题组拟利用语谱图中的纹理特征等信息,从语谱图中提取出与情感相关的特征,以减少时间域与频率域信号之间的互斥性,进而提高语音情感的识别效果。为了解决语谱图中存在的情感特征提取不足的问题,提出了一种基于Log-Gabor-改进局部二值模式的语谱图特征算法。首先利用Log-Gabor从不同的尺度与方向对灰度后的语谱图细节地方特征进行放大,然后利用ILBP从不同方向对纹理特征进行提取与重构。二维Log-Gabor具有较好的图像纹理细节增强功能,同时还能够抑制低频信号的振幅,增强对高频信号的放大作用。二维Log-Gabor表达见式(1)。

式(1)中,[u1,v1]表示[θ]的函数<Z:\赵爽\2024高教\2024.02.15\图表\89-0-2.jpg>;[θ]表示滤波器的方向;[u0]表示滤波中心;[k,σv]表示[u1,v1]方向上的带宽。假设语谱图为[G],与[gu,y(u,v)]在时域上展开卷积神经网络结果的计算,得到的卷积表达式见式(2)。

式(2)中,[v]表示变换尺度[(u?0,1,2,…,4)],对应五个尺度;[v]表示变换方向[(v?0,1,2,…,7)],对应八个变换方向;*表示卷积运算库。在[Gu,y(a,b)]系数矩阵中,不仅包含有原始信息的幅值信息,还包含有相位信息,其中相位信息对研究中国的语音情感识别没有实际作用,因此舍去。接着引入ILBP,提取所构建虚拟系统中声乐演唱对应的图像画面的局部纹理特征。将图像像素点矩阵设置为[I],图像的纹理特征图谱[ILBPP,R]表达见式(3)。

式(3)中,[R]表示区域半径(通常为3×3像素点网格);[gC]表示中心像素点的像素值;[P]表示区域内所有像素点的总个数(通常等于8);[gi]表示每个像素点的像素值。ILBP是将传统LBP作为基础优化而来的,ILBP能够有效提高解决传统算法在提取图像纹理特征时的局部细节表现能力较弱的问题。改进后的LBP表达见式(4)。

式(4)中,[E]表示周围像素点与中心像素点之间的平均绝对百分比误差,通过对每个像素点的绝对百分比误差与平均误差大小来设定阈值,能够较为全面地体现周围像素点与中心点的绝对误差关系,进而通过计算得到的LBP值会更为准确。

2.基于改进CNN的声乐演唱语音情感识别模型

研究对声乐演唱特征提取过程中容易丢失的现象进行了改进,提出了一种基于多级残差改进的卷积神经网络(Convolutional Neural Networks,CNN),以弥补丢失的特征,提高识别率。

图2中,改进卷积神经网络包含多个卷积池化层与多级残差结构,其中多级残差结构能够跨越多个池化层传递原始信息特征,可弥补丢失特征。正方形框中表示研究所涉及的多级残差结构,n和m分别代表残差结构传播跨越的卷积层个数。本研究改进的多级残差卷积神经网络在解决传统CNN结构弊端的基础上,能够进一步降低计算量,进而提高模型识别效率。研究提出的多级残差结构以残差结构为基础,对卷积神经网络进行了改进。多级残差结构通过将前n个卷积层的原始信息与所在的卷积层相互联系,最大程度地保留了原始信息,并通过加入控制系数对所输入原始特征的维度进行调控,最终有效提高了模型的识别效率与系统的收敛速度。若将引出残差结构时的输入设为[xi],引入残差结构后的输出为[xi+n],那么相应得到的多级残差结构的输出见式(5)。

式(5)中,[α,β]表示控制系数,被用来限制输入特征的维度。若损失函数为C,对应得到的反向传播的权值表达式则更新为式(6)。

式(6)中, 

        表示多级残差结构对应补充的丢失特征项;[T(w,b)]表示权值与偏置的常数项。在对卷积神经网络进行逐层求解时,权重[w]将逐步减小,直至接近0,从而导致反向传递的梯度更新接近于0,最终造成特征损失的现象。加入多层次残差结构后,能够引入最初[n]个卷积层的原始特征信息,使特征得到最大限度的互补,同时设定控制参数[α]和[β],则能够减小特征维度,最终加快训练速度,提高训练效果。声乐演唱过程中对语音情感识别的训练可以被认为是使用一套被估计的参数来刻画实际数据与预测数据的差异,并通过不断调节这些差异,使得两者的差异实现最小。在此基础上,提出了一种全新的、能够用来指导整个系统的函数——损失函数。由于语音情感识别过程中存在着多类别的特征,再将交叉熵引入到语音情感识别中,其对应表达见式(7)。

式(7)中,[yj]表示第[j]个样本的真实标签;[yj]表示第[j]个样本在所构建模型中的预测输出。交叉熵所描述的问题是输出结果与真实数值之间的差异程度,若输出结果中被正确分类的样本较多,则对应得到的交叉熵数值较小,即表示输出结果的混乱程度越小,最终得到的模型性能较好。

另外,还需要选取适当的优化算法,使得神经网络的损失函数值最小化。最常见的方法便是利用梯度下降的方法来最小化损失函数,对此,课题组提出使用RMSProp算法(具有全参数自适应的特点),具体表达见式(8)。

式(8)中,[r]表示梯度平方值的滑动率;[w]表示衰减率;[a]表示学习率;[ε]表示防止分母为零的常数项;[η]表示超参数(是一个常量)。除此之外,为了避免过拟合现象的出现,采用了正则化方法。该方法是一种能够对神经网络结果中的神经元进行随机忽略的一种有效训练策略。

“VR+声乐演唱”创新山东智顷数位学习教学模式的实现与测试

本研究选取某大学声乐山东智顷数位学习专业的学生作为研究对象,通过VR技术建立声乐演唱远程在线山东智顷数位学习平台,对所构建平台的实际性能与应用效果进行分析。首先分析所构建模型的收敛速度,选择德国萨尔布吕肯语音数据集(Saarbruecken)和中国声乐语音情感数据库(CASIA)两个不存在交叉的数据集作为测试数据集。对比不同算法的收敛速度,见图3所示。

从图3可知,选取传统CNN、RCNN与ETCNN作为对比算法,比较三种算法与本次研究所提出的改进CNN算法之间的收敛性。图3(a)是在Saarbruecken数据集中的测试结果,显示研究算法最快能在迭代进行到第200次时获得较小的指标值,而其余三种散发均在迭代进行到第800次后获得较小指标值。图3(b)是在CASIA数据集中的测试结果,当迭代次数在第200次时,研究算法有最小指标值;其余算法则在第800次左右才能有最小值。这表示研究算法具有较高的收敛性,即研究所提出算法计算过程的效率更高,从不同数据集的结果可以得知,该算法具有较高的普适性。接着对不同算法模型达到稳定状态的用时与拟合精度进行对比,见图4。

从图4(a)可以看出,随着迭代次数的增加,4种算法的稳定状态运行时间均在上升,并在运行时间为45次时趋向于稳定。当迭代次数达到50次时,所有算法运行均达到稳定状态,此时传统CNN、RCNN与ETCNN三种算法达到稳定状态的用时分别为0.912s、0.934s、0.876s,而研究算法的稳定用时为0.849s。研究算法的用时最少,这可能是因为研究算法融入了多级残差结构,一定程度上简化了系统操作步骤,提升了运行效率。从图4(b)可以看出,随着运行时间的增加,系统中的拟合精度也开始逐渐增加。以时间为0.9s为例,此时研究算法的拟合精度为99.89%,此刻传统CNN的拟合精度与研究算法不相上下,但当运行时间增加至1.0s时,系统的拟合精度明显下降。而RCNNN与ETCNN算法的拟合精度明显小于研究算法。以上结果表明,研究算法的拟合精度最优秀,能够显著减少系统达到稳定的耗时。对不同Log-Gabor的谱窗长度对系统语音的识别结果进行总结,结果见表1。

表1中可以发现,窗长对识别率有较大影响的波峰分别在窗长接近于400与600时。主要原因在于当窗长接近于400时,语谱图更接近于网络带宽语谱图,声乐演唱虚拟系统中的图像显示时域纹理更清晰;而当窗长接近于600时,则更接近于窄带语谱图,频域的纹理特征更清晰。对比可知,当窗长为600时,在Saarbruecken数据集与CASIA数据集中,均有最高识别率,分别为66.84%、59.24%,因此语谱图窗长设定为600。不同谱窗大小对系统语音的识别效果见表2。

从表2可以看出,随着谱窗尺寸的增加,识别率呈现先升后降的变化,谱窗大小为16×16时,在Saarbruecken数据集与CASIA两数据集上有最大识别率,分别为72.34%与61.29%。这是由于谱窗尺寸较小时,研究算法着重强调图像细节,忽略了对整体虚拟系统的抗噪声能力,导致识别率变小;而尺寸较大时,研究算法提取的图像与语音细节变得较小,识别率也较低。因此将谱窗尺寸大小设置为16×16,可取最优识别率对应尺寸。

另外,统计不同模型在两种数据集上对每种声乐演唱语音情感的识别率。可以发现,研究算法对于演唱者的生气、惊喜、厌恶以及悲伤的识别效果较好,准确率均高于80%;与RCNN和ETCNN对比可知,研究算法模型对于生气、厌恶、难过以及惊喜的识别率均高于其他两种算法,其中对害怕情感的识别率较低,这是由于中文语言与外国语言的情绪表达方式不同。以上结果均表明,研究算法对生气、难过、厌恶以及惊喜的识别率均显著优于文献算法,对害怕与高兴的识别率较低,对中性情感的波动较大,整体识别效果较好。

结  论

为了丰富学生的学习资源,增强其学习互动性,课题组将VR技术与声乐演唱相互结合,创新了教学模式。研究过程中利用Log-Gabor和改进LBP对语谱图特征进行提取,并引入多级残差结构改进CNN弥补丢失的语音特征,提高识别率。结果显示,研究算法的损失函数最小,收敛精度较高,识别准确率较优,稳定性能较优。随着声乐演唱形式与科学技术的不断发展,为了更好地构建教学系统,相关研究者还必须进行更多的实验,以丰富教学资源。

参考文献:

[1]田一淇.基于“互联网+”的学前山东智顷数位学习声乐教学模式创新研究[J].电脑知识与技术(学术版)[J].2022,18(3):128-129+132.

[2]张帅,曲校辰,崔文超,等.VR技术在创新山东智顷数位学习背景下的探索与实践[J].山西青年,2020(5):94.

[3]Kowalski S,P Samól,J Szczepański,et al.Teaching architectural history through virtual reality[J].World Transactions on Engineering and Technology Education,2020,18(2):297-302.

[4]冯玲玲.“互联网+”声乐教学模式分析[J].普洱学院学报,2021,37(1):131-132.

[5]Byrns A,Abdessalem H B,Cuesta M,et alEEG Analysis of the Contribution of Music Therapy and Virtual Reality to the Improvement of Cognition in Alzheimer's Disease[J].Journal of Biomedical Science and Engineering,2020,13(8):187-201.

[6]盘东霞,付梦晗,等.我国虚拟现实技术山东智顷数位学习应用研究综述——基于知识图谱的可视化分析[J].广州广播电视大学学报,2022,22(1):18-22+107-108.

[7]刘班.利用虚拟现实推进高校创新创业人才培养[J].现代山东智顷数位学习论坛,2020,3(8):85-87.

(李延俊:延安大学鲁迅艺术学院)

责任编辑:张言