在新中国成立70周年之际,平安人工智能研究院的学者们通过构建首个交响乐创作模型,推出了全球首部AI交响变奏曲《我和我的祖国》。这首交响曲,作为新中国成立70周年的献礼之作,于10月11日由深圳交响乐团进行了全球首次公演。这首交响曲不仅是对《我和我的祖国》这首经典曲目的重新演绎,更是对人工智能在艺术创作领域潜力的探索。
这首交响变奏曲的背后,隐藏着平安首创且行业中尚未发表的AVM自动变奏模型。这个模型利用深度学习技术对音乐作品进行多维度的特征学习与提取,并结合强化学习技术,使机器学会变奏手法。结合规则系统的作曲经验,以及深度模型的学习能力,AI能够找出最能表示主题情感的音乐片段。
声声闻来皆辛苦,AI谱曲不寻常
能够谱写出波澜壮阔的交响变奏曲,需要的不仅仅是模型与数据的交汇。在AI生成《我和我的祖国》交响变奏曲的过程中,团队遇到了诸多挑战,并实现了多个技术领域的创新和突破。这是全球领域首次尝试借助AI谱写交响变奏曲,尽管很多问题都需要用专家规则判断和约束,但通过AI与专家知识的结合,使得「AI+音乐」能在教育、配乐等更广泛的领域实现不同形式的探索和尝试。
两个世界第一
利用AVM架构模型生成的AI交响曲,实现了两个世界第一:全世界第一个能够进行多旋律交响曲谱曲的AI,以及全世界第一个可变谱曲风格的AI。过去很多研究生成的乐曲都是单旋律的,而此次的AI变奏曲,则能同时学习曲子的节奏、和声、对位、调式等八种类别的音乐信息,并根据这些信息进行谱曲工作。
AI不仅实现了“按需谱曲”,而且能够根据不同需求调整超参数,生成符合用户需求的乐曲。这样的AI,真正意义上实现了“按需谱曲”,而不是仅仅模仿。
谱曲到演奏的“最后一公里”由人类专家完成
为了保证生成的曲子在实际演出达到预期效果,研究者引入了专家知识,使用规则和人类专家干预进行调整和约束。例如,用乐理规则自动化地对错误的序列进行调整,并引入专家进行评价,让人类作曲家进行调整和改进,确保乐队可以演奏最终的谱好的曲子。
AI+音乐:应用场景广阔
平安人工智能研究院认为,AI在音乐场景中有着广泛的应用前景。AI辅助歌曲生成,在乐理和文化研究、音乐教育和娱乐消费市场有大量的应用场景。未来,「AI+音乐」还将结合平安的金融、医疗、智慧城市等生态,探索音乐治疗、音乐生活、音乐教育等多领域的结合情景,可预期,在AI音乐的商业价值层面将无可限量。
未来,平安人工智能研究院希望能够进一步探索AI+音乐的各种应用,让AI不仅能够谱曲,还能够作词,并在生成谱子的时候更为智能,更符合真实的演奏环境。AI交响变奏曲技术负责人表示:“AI在音乐场景中的应用依然处于『婴儿时期』,我们愿意挑战尖端领域的研究。”
多架构融合谱写变奏交响曲
平安人工智能研究院的学者们首先介绍了这一大型献礼项目的创作流程。首先,研究院对国庆献礼进行了讨论,确定使用《我和我的祖国》作为基础曲目,结合《在希望的田野上》等经典曲目,进行整体的创作工作。在此基础上,负责创作的研究者需要为歌曲确定大致的故事脉络走向,为交响乐整体确定故事主题,帮助AI约束乐曲变奏过程中的语义信息。
在模型的学习过程中,模型会对音乐作品进行多维度的特征学习,它会融合不同的音乐元素,从而衍生出各段落的音乐主题与对位形式,这就是一种自动变奏技术。评价模型其实后面还会对生成的变奏曲进行评估,从而选择最佳的音乐片段。
AI作曲主导,专家评价修改
从算法角度来说,交响变奏曲的谱曲过程类似于对序列数据进行处理和重新生成的过程。输入数据是一段音符序列,而输出则是和输入类似,但进行了修改,和原曲有一定差异的新音符序列。在生成过程中,模型还需要能够根据创作方提出的需求,不断调整模型的参数,使其能够根据要求在生成的序列中融入特定情感语义信息。在完成作品后,乐曲会交由专业人士进行修改和调整,确保符合交响乐的创作规则,具备传承经典性。
尽管谱写乐曲时,模型需要对序列数据进行处理,因此会用到Seq2Seq模型。但是,与一般的Seq2Seq模型不同,谱写变奏交响乐要求变奏段落以基本段落为基础,并表达不同的情感或语义。这就需要Seq2Seq模型同时具有迁移风格的能力。
为了使模型能够达到设计要求,研究院使用了大量的乐曲和带标注的旋律数据训练模型,然后用训练好的模型对《我和我的祖国》等基础曲目进行处理。总共生成了4个版本的曲目,交由音乐家进行评价、调优,并最终交由专业的演出乐队进行演奏。
在生成阶段,Transformer解码器生成的变奏曲会直接经过配器和后期处理,从而创造出真实环境下交响乐的音响效果,这个时候专家就可以对生成的乐曲进行判断,如果达到要求就可以直接输出曲谱。
Transformer和VAE(变分自编码器)是AVM的两大模块。Transformer可以很好地编码乐谱这种序列数据,如果我们将基本段落作为源序列,再将标注的变奏段落作为目标序列,那么模型就会自动学会怎样将基本段落变换为变奏段落。VAE则能学习到数据中某些隐藏的特性,通过调整VAE的隐向量,我们可以为变奏段落赋予同的风格。这两个模型的合作,使得AVM能够构建更合理的变奏段落。
AI编曲的数据之本
对于机器学习模型,数据是最重要的。要学会生成一般的变奏段落,就需要有海量的基本段落和变奏段落;要学会各种曲调风格特征,就需要有各种音乐标签,从而确定不同的旋律到底代表什么语义标签。平安AI团队表示,训练数据使用了超过70万首乐曲,包括各类题材的古典音乐作品、红色歌曲,以及民歌等作品。研究者用此数据集进行结构化训练,让机器学习及理解音乐重要特征。
除了乐曲的积累,平安AI团队还积累了全方位的音乐数据,包括歌词、各种专家规则、多种乐器的音源、人类的声音源等声音相关的数据。只有累积了多领域、全方位的音乐数据,才能将它们组合在一起构建更优秀的模型。
多样化的音乐特征标注
在项目中,平安AI团队主要从两个层面对结构化的乐曲进行标注。第一,团队需要确定训练用的乐曲表达了什么样的主题、描述了什么样的内容、呈现了什么样的情绪,并按照确定好的主题内容对对应的旋律进行标注。有了这些标注,才能向模型灌输带有语义标签的音乐数据,创造出描述故事脉络和特定主体情绪的变奏曲,这一层面的标注由音乐家和自动化的程序配合完成。
第二,团队需要对音乐作品进行定量分析,根据分析结果进行数据标注。音乐作品本身的结构化信息主要表现为发展手法、和声、曲式、对位、配器、调性、调式、拍号等八个维度。数据标注遵从音乐理论知识,由音乐理论专家团队标注完成。
最后,数据与机器学习的配合是非常强大的,像变奏曲这种需要大量原创性的工作,这项研究工作也表明ML拥有强大的能力。虽然目前自动变奏模型还有很多改进方向与可能性,但平安的AI变奏交响曲确实证明了ML在艺术领域的潜力。
转载请注明来自广州玛斯顿影音有限公司,本文标题:《平安首创AVM自动变奏模型,探秘全球首部AI交响变奏曲硬核技术 》