AI作曲的诺亚方舟将去往何处 / 开普饭

文/黄康瑄

来源/智能相对论（ID：aixdlun）

10月8日，韩国新人歌手夏妍发布了由人工智能作曲机器人EvoM制作的单曲《Eyes on you》，成为全世界第一位凭借AI作曲出道的人类歌手。

EvoM是韩国光州科学技术院人工智能研究生院研发的韩国首个人工智能作曲机器人，在《Eyes on you》的录制中负责作曲、编曲工作。EvoM的研发者安昌旭表示，他的目标是让人工智能创作的歌曲登上K-POP排行榜。

启航-音乐生产自动化的野心

早在上个世纪，人类就开始探讨计算机独立制作音乐的可能性。1956 年，在列哈伦·希勒（Lejaren Hiller）的研究室里，世界上第一首完全由计算机生成的音乐作品--弦乐四重奏《伊利亚克组曲》（Illiac Suite）诞生了。1995 年，阿尔佩（Alpern）研发的 EMI 作曲系统也是较早的一个成熟的古典音乐作曲系统，该系统主要采用拼接的方式来创作再现已故作曲家音乐风格的作品，其中有类巴赫的创意曲、器乐协奏曲和组曲，还有类莫扎特的奏鸣曲以及类肖邦的夜曲。

随着人工智能相关技术的发展和普及，近年来，越来越多企业和机构开始研究这个科技与艺术结合的奇妙领域，各式各样的作曲算法不断涌现，不少虚拟音乐人展露头角。“智能相对论”梳理了下：

2016年，Google公司研发的机器学习项目马真塔（Magenta studio）通过神经学习网络创作出一首时长90秒的钢琴曲。同年，Sony旗下的计算机科学实验室（Computer Science Laboratories，简称Sony CSL）开发了Flow Machines平台。Flow Machines利用马尔科夫链分析数据库中现存的歌曲，提取旋律及和弦的关键信息，利用这些关键信息作为变量来学习音乐风格，让不同风格的歌曲相互转换、融合，并加以优化，其代表作是一首披头士音乐风格的歌曲《爸爸的汽车》（Daddy's Car）。此外，Sony CSL还开发了一个名为“DeepBach (深度巴赫) ”的神经网络，利用巴赫创作的352部作品来训练DeepBach，最终完成2503首赞美诗的创作。

第一个正式获得世界地位的AI虚拟作曲家则是2016年诞生的AIVA（Artificial Intelligence Virtual Artist）。AIVA通过读取由莫扎特、巴赫、贝多芬等名家谱写的15000首曲子进行学习，利用深度学习技术，搭建体现它自己对音乐理解的数学模型，运用模型创作出完全原创的曲子。作为虚拟音乐人，AIVA已通过法国和卢森堡作曲家协会（SACEM）的合法注册，成为该协会首位非人类会员，并拥有自己的署名版权。

今年2月，美国数字研究机构Space150模仿知名说唱歌手Travis Scott的人声和音乐风格，做出了说唱机器人Travis Bott。这是一个关于人工智能创造性的实验，研发团队采用附加神经网络技术（Additional Neural Network），创造出“Travis Scott味”的旋律和打击乐伴奏，再将Travis Scott的歌词输入“文本生成器模型（Text Generator Model）”，得到了机器自动仿照 Travis 风格生成的歌词。于是，Travis Bott完成了自己的创作--《Jack Park Canny Dope Man》。最后，研发团队使用基于AI的人体图像合成技术“Deepfake”，为这首歌拍摄了MV。就乐曲效果而言，Travis Bott对Travis Scott的模仿几乎以假乱真，完全融汇了Travis Scott作品以及人物魅力最主要的外部特征。同时，该项目也进一步验证了人工神经网络技术（Artificial Neural Networks）的蓬勃发展，有助于探索未来AI在音乐中的应用价值。

造船原理-几种算法模型

现代人工智能作曲技术背后蕴含了多种算法模型的结合运用，包含人工神经网络、马尔科夫链及遗传算法等。如AIVA和Travis Bott就使用了一种基于人工神经网络的深度学习技术。

人工神经网络是一种对生物神经的网络行为特征进行模仿，开展分布式并行信息处理的算法数学模型。程序员必须搭建一个多层“神经网络”，在多层的结构中分别加以编程，从而处理各种输入和输出点之间的信息。作品数据输入后，人工神经网络会找到众多被输入作品之间存在的规律，继而形成对音乐旋律、节奏、音高、强弱变化的理解与学习。这种学习的主要目的是用来预测，并非就此生成作品。AI程序会带着它对以上音乐风格的预测继续运行，并将在前方遇到下一个验证数据集。这个数据集会判定它的预测是否正确，正确与错误的回馈都将被AI记住。

在不断的高速学习中，AI的预测能力就会越来越强，最终掌握程序员大数据归总后的曲风，进而编写出自己的曲子。人工神经网络为从前的算法作曲提供了一种新的方式，其优势在于能够对音乐作品的全局性特征进行学习，但是需采用大量的样本进行训练。当下国内外有许多基于该种算法所形成的人工智能作曲系统，如 LSTM 神经网络，可以确保所创作音乐的完整性。

除了人工神经网络，马尔科夫链（Markov Chain）也一直被广泛地应用于算法作曲领域。马尔科夫链是一种随机选择过程，主要用于产生一段具有一定风格的旋律。就像按照一个特定的标准人为构造制定的转换表来依次选择音符，计算并选择下一个要出现音符的可能性。这种方法可以模拟作曲家创作音乐时的思维，来控制计算机生成相应的音乐作品，但是整部作品的曲式结构无法通过马尔科夫链建模。遗传算法（Genetic Algorithm）则是模仿生物进化过程的智能计算方法，使用适应性函数来演化样本、优化全局。

其中，变异算子可以模拟人在其创作当中灵感的闪现，相当于留下最具代表性的作品来产生新的旋律。该算法的壁垒在于适应性函数的设计至今尚无统一标准。

版权的“暗礁” 依然是AI作曲要面临的主要问题

由于AI音乐的产生是根据算法模型，让计算机在大量现成作品中寻求“规律”，按照这些规律提取资料中特定的乐章片段，依据计算得出的概率重新进行排列组合，故人工智能作曲必然涉及到资料库中大量现成作品的版权问题。

AI如何判断研究人员提供的曲库中哪些作品收到版权保护？AI作曲成果是否侵犯学习对象的版权？如AIVA最初以古典音乐为学习对象，它所使用的莫扎特、贝多芬等人的作品历史久远，版权时效已过，故没有此类问题。AIVA研发人员特意选择古典音乐为其学习对象，主要就是为了避免版权问题。但像Travis Bott所用的Travis Scott人物及作品相关资料皆需取得授权，而Travis Bott在此基础上创作的作品算不算对Travis Scott的抄袭？音乐作品抄袭的议题屡见不鲜，相关讨论仍然不时出现，至今依然没有统一、明确的判断标准。从版权问题可见，现在的人工智能作曲技术依托于算法，受限于曲库的音乐“规则”，还无法产生突破既有规律的作曲创意，此为AI作曲面临的另一个技术难题。

即便AI作曲技术经过不断优化，最终得以生产出纯原创、不涉及任何侵权的作品，此作品又将面临到版权认证的问题。随着AI创作相关技术的成熟与普及，一些国家开始在法律上明确界定AI作品的版权归属。

1988年，英国正式颁布了《版权、设计和专利法案》（Copyright, Designs and Patents Act 1988），其中，对于计算机创作的内容进行了明确的规定：“为计算机所生成之作品进行必要程序者，视为该计算机生成之作品的作者，其保护期限是自作品完成创作之年的最后一日起50年后届满”。规定AI作品的版权属于“进行必要程序者”，同时也明确界定了对计算机生成作品“进行必要程序者”，即包括程序员、使用者，也可能是人工智能系统或设备的投资者。

2017年，世界知识产权组织（WIPO）杂志提到：如果一部作品的创作过程中“人类的参与有限，或根本没有人类参与”，著作权法可以有两种潜在的生效方式--著作权法可以“拒绝”对计算机生成的作品进行版权保护，也可以将此类作品的作者归属于程序的创建者。现在国内解决此类问题也基本沿袭这个思路。

2018 年，上海一家公司未经过授权，将腾讯开发的自动化编写程序Dream writer生成的财务报告复制到该公司网站。深圳市南山区法院裁定，该公司因侵犯腾讯的版权而需承担民事责任，向腾讯公司赔偿1500元人民币。中国现行的《著作权法》尚未明确界定AI作品的版权归属，这一裁定可能是 AI 创作领域的重要里程碑。《著作权法》:“著作权是著作权法赋予民事主体对作品及相关客体所享有的权利。”其中，民事主体指公民、法人或非法人组织。《著作权法》保护的对象是作为民事主体的独创性思想表达，并非民事主体的AI无法单独享有著作权，但只要在作者名录加上人类作曲家或研发者的名字就能解决此问题。人工智能虽无法成为受法律保护的主体，但对其作品版权的保护也开始受到法律认可。

没有感情的辅助器-方舟的航向

人工智能作曲技术的日渐成熟，在音乐行业掀起一股不小的浪潮。尽管人工智能已经实现通过读取、记忆大量乐曲获取规律，计算音符节奏的出现概率并排列组合来“创造”音乐。但音乐的核心并非音乐本身而是“人”，音乐源于人类情感流动。《礼记·乐记》对音乐起源的解释非常贴切：“凡音之起，由人心生也。人心之动，物使之然也。感于物而动，故形于声；声相应，故生变；变成方，谓之音。”作曲家和演奏者透过旋律、节奏表达的情绪与观众聆听音乐引起的共鸣，这种藉由音符实现的，跨越时间、空间与种族的情感交流才是音乐存在的意义，也是莫扎特、贝多芬等音乐家流芳百世的根本原因。

从某种角度来说，由于音乐是人类抒发心情的一种方式，让没有感情的人工智能作曲或许可以说是一个伪命题。人工智能不具备情感，不了解音符、节奏等音乐表层结构和基于情绪表达的音乐深层逻辑之对应关系，其制作的音乐只是基于概率所排列的音符。无论算法作曲技术发展得多么成熟，音乐作为人类情感交流的艺术形式之一，AI所作的乐曲必然无法完全取代人类音乐作品在社会中的功能和角色，人工智能也无法替代行业内顶尖的音乐创作者及表演者。不仅是音乐，在美术、文学等艺术创作中皆是如此。

现在较为成熟的AI音乐公司除了Google、Sony、AIVA外，还有英国的AI Musical、德国的Melodrive、美国的Humtap、Popgun、Snafu Records及诸多硅谷大亨联合建立的人工智能非营利组织OpenAI、字节跳动旗下的Jukedeck等。百度、腾讯、阿里、网易云等音乐平台都在不同程度上对人工智能音乐有布局。即便人工智能暂时无法掌握乐曲中细腻的情感变化及流动，但基于计算机具备对大量作品进行数据处理、运算分析及排列组合的强大能力，使得人工智能编曲效率远远高于人类。在一些注重成本且审美要求不高的应用场景中，AI作曲占有明显的优势。因此，一批专业度不足的音乐从业者可能面临被淘汰的命运。

目前，人工智能作曲技术逐渐往商业应用与辅助创作的方向发展，“智能相对论”看到，其应用场景主要为视频配乐、游戏配乐、电视预告片、商业广告、发布会和电影等方面。

以非艺术场景的商用音乐为主要市场，打破了固有音乐市场关于成本及创作时间的限制。如上文提及的AIVA已开始为电影、视频、电视剧制作音乐。微软（亚洲）互联网工程院开发的小冰乐队能自动生成旋律和编曲框架，已为2020世界人工智能大会创作了主题曲《智联家园》。由西电沣东人工智能与类脑感知产业技术研究院研发的Muses人工智能作曲系统，基于GAN和LSTM的智能谱曲算法和视频多元素提取算法，实现了视频自助谱曲、智能仿曲和谱曲辅助智能等功能。通过对视频进行内容物体识别、色彩分析和画面节奏分析，生成合适的背景音乐；也可透过用户输入的仿曲或关键词、语句启发音符，产生类似风格的音乐。另有一款专门制作视频配乐的AI Ecrett Music，通过识别不同的视频主题、时间及情绪，对视频配乐进行个性化编辑，为视频制作者持续产生不同的音律。为创意要求较低、对价格较敏感的部分商业音乐创作提供了全新解决方案。

除此之外，人工智能作曲技术对音乐爱好者进行创作也起到了辅助作用。

2019年上线的“哼趣”APP就是一款基于人工智能的音乐创作工具，只需简单哼唱，AI就会根据哼唱内容、音调、旋律生成一段完整的、悦耳的曲子，此外，还可对生成的曲子进行个性化编辑，一键选择变换不同乐器、风格与时长。“哼趣”的核心原理是通过大量的乐曲训练来形成一套完善的LSTM神经网络的方式。同时，算法团队解决了MP3与MIDI格式的相互转换和降噪问题，将人声与机器可识别的MIDI语言进行转化，再利用带有音频判定的神经网络进行乐曲生成。使用这类软件或APP，不仅使得音乐创作更加便利快捷，也大大降低了普罗大众创作音乐的门槛。对专业音乐人而言，比起原先需要通过MIDI键盘输入旋律的创作形式，在很大程度上提升了工作效率，减少重复劳动，并降低了与制作方的沟通成本。人工智能作曲随机生成的旋律也能在创作陷入瓶颈时，为使用者提供灵感，编曲工具的发展将使专业作曲家的创造力得到进一步释放。

结语

AI作曲技术让音乐产业链运作更有效率，人工智能创作的歌曲登上K-POP排行榜也许不再是天方夜谭。技术革新既是挑战，也是机会。科技的进步促使人类在探索更多可能性的同时，也重新审视自己的价值。

AI作曲的诺亚方舟将去往何处

相关推荐