从钢琴演奏自动制作乐谱,成为世界上第一个“接近实用的水平”

从钢琴演奏自动制作乐谱,成为世界上第一个“接近实用的水平” 京都大学,

京都大学的研究小组发表了世界上第一次将从钢琴演奏的声音中自动记录乐谱的技术提高到接近实用的水平。 独自应用机器学习实现了。 钢琴是很受欢迎的乐器,但声音复杂,自动记谱被认为特别困难。 据说这是融合信息和智能的研究和艺术领域,为音乐文化做出贡献的成果。

成功进行了接近实用水平的钢琴自动记谱(京都大学提供)

在世界范围内广泛普及的钢琴多年来一直是自动记谱研究的热点。 只是,例如,由于用双手手指演奏,多个高度的声音同时连续的“多重音高”,所以很难区别每个声音。 如果用钢琴实现高精度的记谱,应该可以开辟将方法应用于各种乐器的道路。 因此,研究小组利用机器学习,开发了综合以下两种方法的钢琴自动记谱系统。 (1)为了推测各时刻的声音的高度、强度、有无按键,对在该领域中编制的复杂计算模型进行了独自的改良,提高了精度。 这样,“解决了在会议上识别多人同时说话的声音的问题”(研究组)。 另外(2)在统计分析现有各种音乐中频繁出现的节奏趋势的基础上进行学习。 即使有演奏者特有的节拍波动和和弦偏差等,也能认识节奏,能生成完整的乐谱。 据说这两种方法的合并以前很困难。 进而不仅局部捕捉到曲子,还考虑到了像a旋律、b旋律、副歌这样的曲子中大局的构造,提高了拍子和小节线的位置等的推测精度。 经过一连串的努力,记谱的错误比以前减少了一半。 “我同意弹钢琴的很多人都可以使用”(同上),实现了接近实用水平的乐谱。

钢琴自动记谱概要。 (1)从声音中识别音高等,(2)识别节奏生成完整的乐谱(京都大学提供)
今后除了通过更多数据的机器学习来提高精度外,还将努力识别强弱符号和装饰符号等更详细的要素。 也可以应用于歌声、吉他和鼓等,期待着也会带来多样的乐器编成的曲子的自动记谱。 研究小组京都大学白眉中心的中村荣太特定助教(信息学)说:“这是几十年来的课题,但部分实现实用水平是划时代的。 如果实用化的话,可以通过网络上的声音生成乐谱轻松地练习等,会丰富音乐文化吧。” 另一方面,也有可能产生版权问题、作为专家们收入来源的记谱工作减少等课题,他提出“为了健康发展,有必要就法律整顿和技术的社会安装进行讨论”。 成果刊登在3月13日的美国信息科学杂志《信息科学》电子版上,京都大学于6月15日发表。 研究得到了日本学术振兴会科学研究费资助事业、科学技术振兴机构( JST )战略性创造研究推进事业等的支援。
京都大学新闻发布会“将钢琴演奏写成乐谱的“耳朵拷贝AI”这是第一次成功生成接近实用水平的乐谱。”https://www.kyoto-u.ac.jp/sites/default/files/2021-06/210313-nakamura-3e82bf99e225a20aa0a1420a704703c1.pdf
将钢琴演奏写成乐谱的“耳朵拷贝AI” ―第一次成功生成了接近实用水平的乐谱― 概要 京都大学白眉中心/研究生信息学研究科的中村荣太特定助教、柴田健太郎信息学研究科硕士生(当时研究)、吉井和佳同副教授等人的研究小组开发了根据钢琴演奏声音数据自动生成乐谱的技术,在世界上首次成功生成了接近实用水平的乐谱。 听音乐演奏并写在乐谱上的记谱”也被称为耳朵拷贝,是经过特殊训练的人才有的能力。 为了能把谁都喜欢的曲子制成乐谱用于演奏等,进行了用计算机再现这种能力的自动记谱技术”的研究。 特别是钢琴演奏的记谱,需要认识音高(音调)和节奏的复杂组合,是非常困难的问题。 本研究通过基于使用大量数据的机器学习(注1 )和人类演奏模型的方法,大幅度提高了钢琴演奏的自动记谱的精度,成功生成了可以部分用于演奏和人工记谱的乐谱[1]。 今后,期待着实现实用化的研究开发、在音乐学研究和音乐教育中的应用,以及对支撑文化的智能的科学理解。 它还提出了版权法和对音乐家的影响问题。 该成果于2021年3月13日在线刊登在美国国际学术杂志《信息科学》上。 [1]记谱结果的示例在https://audio2score.github.io/index-ja.html上有很多。

1 .背景 互联网上有庞大数量的音乐视频和音频文件,每时每刻都在添加新的歌曲。 要演奏、编曲或分析这些音乐,必须将其表示为乐谱。 许多歌曲,如流行音乐,都是由训练有素的专家通过聆听声音并将其写成音符而制成乐谱的。 这被称为记谱和耳朵拷贝,由于需要很多时间的工作,世界上很多曲子都没有成为乐谱。 为了能够演奏和分析更多的曲子,正在进行通过计算机将记谱自动化的研究。 特别是像钢琴演奏那样多种声音重叠的音乐记谱,需要识别音高和节奏的复杂组合,因此这种自动化在多年来一直被视为非常困难的问题。 实际上,至今为止提出的方法精度都不充分,很难将自动生成的乐谱用于演奏等。 钢琴记谱的问题可以分为两个主要问题来考虑:“多重音高检测,推测声音信号中各时刻发出哪个音高”和“以拍(节拍)时间为单位识别各音符的发音时刻和声音长度的节奏量化”(图1 )。 针对各个问题,使用“自动从数据中提取重要特征和统计量的机器学习”的方法近年来得到了研究,取得了很大的进展。 本研究通过整合这些最先进的方法的世界首次尝试,向高精度的自动钢琴记谱系统的构建提出了挑战。

2 .研究方法成果 在本研究中,构筑了综合了分别使用机器学习的多重音高检测方法和节奏量化方法的自动钢琴记谱系统。 在前者的多重音高检测中,针对输入的声音数据,使用了深层神经网络,推测各时刻所包含的声音的高度和强度以及有无按键。 在后者的节奏量化中,使用了基于表示人类演奏中包含的时间变动模型和乐谱中出现的一般节奏模式的统计特征的模型的方法。 结果显示,与以往的方法相比,记谱错误平均可以减少到半数以下。 另外,从该记谱结果可以看出,从局部来看,音高和节奏的配置接近正确答案,但关于节奏、拍子、小节线的位置等音乐大局特性的识别错误很多。 拍子和小节线的位置等的认识与音乐乐句的重复结构、乐句边界的音乐特征的巨大变化、和弦进行和巴士进行等多个音乐要素有关,这一点在音乐学中广为人知。 因此,提出了使用捕捉音符之间关系的统计量进一步改善记谱精度的方法。 结果,成功自动生成了部分也可以用于演奏和辅助人工记谱的乐谱。 记谱结果的示例多见于项目页https://audio2score.github.io/index-ja.html上。 这次的结果,是几十年来未解决的问题——自动钢琴记谱,在部分达到实用水平的精度方面具有划时代的意义,期待着自动记谱技术今后的实用化动向。 另外,也被认为与人类在识别音乐时所使用的专业知识和智能结构的理解有关。

3 .波及效果,今后的安排 虽然这次的研究是以钢琴音乐为对象的,但同样的方法也可以应用于歌声、吉他、鼓等其他乐器,所以今后期待着研究扩展到多样的乐器组成的音乐的自动记谱上。 现阶段的自动记谱结果,从专业角度来看,有很多不满意的地方,今后除了通过使用更多数据的机器学习来提高精度之外,纳入乐谱书写法相关专业知识的研究也很重要。 另外,还可以自动识别包括强弱符号和装饰符号(阿佩吉奥和三重奏等)在内的更详细的乐谱要素,这是今后的课题。 如果可以自动记谱的话,就可以实现根据网络上的演奏动画自动生成乐谱,谁都可以用于演奏练习等,带来更丰富的音乐文化的技术。 另外,音乐专家可以缩短在记谱上花费的时间,相应地,可以集中精力进行更详细的音乐分析和创作活动。 将来,音乐数据 通过基础化和大规模数据分析等,期待成为支撑艺术学和文化学的基础技术。 另一方面,随着自动记谱技术的普及,如果能够从声音文件中立即得到乐谱,则可能会发生音乐盗用等着作权上的问题。 另外,作为音乐专业人士和学生收入来源的记谱工作减少,也有可能对音乐文化的发展产生不良影响。 在自动记谱技术的实用化已经成为现实的今天,有必要尽早推进关于面向这种文化健康发展的法律整顿和技术的社会安装的讨论。 4 .关于研究项目 本研究得到了日本学术振兴会科学研究费资助事业(课题编号16H01744和19K20340 )、科学技术振兴机构战略性创造研究推进事业ACCEL (课题编号JPMJAC1602 )、京都大学白眉项目、京都大学教育研究振兴财团的援助进行。 <用语解说> (注1 )机器学习:自动构建进行数据分类和预测等的计算法的技术。 最近,有时也称为人工智能( AI,Artificial Intelligence ) (准确地说,它们分别表示不同的概念)。 <研究者的评论> 这项研究将信息技术和智能相关的研究与艺术文化(音乐)的领域联系起来。 如果能感受到跨越不同领域的研究的乐趣和可能性的话,我会很高兴。 另外,我不想片面地看待研究,而是想传达在社会和文化的关系中思考学问和技术的发展的重要性。 中村<论文标题和作者> 标题:针对音频-得分画线传输的非本地光学统计指南 以非局部音乐统计量为线索的从音响到乐谱的钢琴记谱 作者: Kentaro Shibata,Eita Nakamura,Kazuyoshi Yoshii

(0)

相关推荐