awesome-deep-learning-music

awesome-deep-learning-music

深度学习技术在音乐领域的应用及研究进展

本项目收录了使用深度学习技术应用于音乐的科学文章、论文和报告,包括音乐生成、语音分离、演讲者识别等任务。项目旨在为音乐信息检索提供资源,含有文章概要、详细信息和代码链接。项目持续更新,欢迎贡献新资源。项目由Yann Bayle基于博士论文的前沿技术评审发起。

Deep Learning for MusicAI音乐音乐信息检索科学研究神经网络Github开源项目

⚠️ 该仓库未维护。虽然信息仍然相关,但欢迎贡献以保持其更新!一个好的起点是这里引用的文章:https://github.com/ybayle/awesome-deep-learning-music/issues/5

<img align="right" src="https://yellow-cdn.veclightyear.com/35dd4d3f/95eb6ab2-3529-4238-899c-8b3f4346ae83.png">

音乐深度学习(DL4M) Awesome

Yann Bayle网站GitHub)创建,来自 LaBRI(网站Twitter),波尔多大学(网站Twitter),法国国家科学研究中心(网站Twitter)和 SCRIME(网站)。

简而言之 不完全的关于音乐深度学习的科学文章列表:总结(文章标题、pdf链接和代码),详情(表格——更多信息),详情(bib——所有信息)

这个精选列表的作用是收集使用深度学习方法应用于音乐的科学文章、论文和报告。该列表目前正在建设中,但欢迎为缺失的部分贡献及添加其他资源!请参考如何贡献部分。 这里提供的资源来自我博士论文的最新进展综述,目前一篇相关的文章正在写作中。 已经有关于音乐生成语音分离讲话者识别的调研报告。 然而,这些调研并未涵盖本仓库中包含的音乐信息检索任务。

目录

DL4M总结

            | 年份 | 文章、论文和报告 | 代码 |

|------|-------------------------------|------| | 1988 | 音乐的神经网络建模 | 否 | | 1988 | 通过改进创造:用于梯度下降学习网络的创造力范式 | 否 | | 1988 | 用于音乐应用的顺序网络设计 | 否 | | 1989 | 神经网络模型中和弦分类的音高表示 | 否 | | 1989 | 通过神经网络的音乐创作算法:改进的CBR范式 | 否 | | 1989 | 算法编曲的连接主义方法 | 否 | | 1994 | 通过预测进行神经网络音乐创作:探索心理声学约束和多尺度处理的好处 | 否 | | 1995 | 单声道乐器声音的自动来源识别 | 否 | | 1995 | 基于神经网络的音乐类型分类模型 | 否 | | 1997 | 基于机器学习的音乐风格识别 | 否 | | 1998 | 音乐类型识别 | 否 | | 1999 | 音乐网络:并行分布式感知和表演 | 否 | | 2001 | 爵士即兴演奏与互动的多阶段学习 | 否 | | 2002 | 一种监督学习方法用于音乐风格识别 | 否 | | 2002 | 在音乐中寻找时间结构:使用LSTM递归网络进行布鲁斯即兴演奏 | 否 | | 2002 | 用于钢琴音乐音符起音检测的神经网络 | 否 | | 2004 | 基于卷积核的方法用于钢琴独奏音频信号中的音符起音检测 | 否 | | 2009 | 使用卷积深度置信网络进行音频分类的无监督特征学习 | 否 | | 2010 | 使用卷积神经网络及音高和节奏变化进行音频音乐类型分类 | 否 | | 2010 | 使用卷积神经网络进行自动音乐模式特征提取 | 否 | | 2011 | 基于音频的音乐分类,使用预训练的卷积网络 | 否 | | 2012 | 使用卷积神经网络重新思考自动和弦识别 | 否 | | 2012 | 超越特征设计:音乐信息学中的深度架构和自动特征学习 | 否 | | 2012 | 使用卷积神经网络进行音乐类型分类的局部特征图集成 | 否 | | 2012 | 为音乐注释和检索学习稀疏特征表示 | 否 | | 2012 | 局部特征无监督学习,用于音乐分类 | 否 | | 2013 | 音乐音频特征学习的多尺度方法 | 否 | | 2013 | 使用卷积神经网络进行音乐起音检测 | 否 | | 2013 | 基于深度内容的音乐推荐 | 否 | | 2014 | 慕尼黑LSTM-RNN方法用于MediaEval 2014音乐情感任务 | 否 | | 2014 | 音乐音频的端到端学习 | 否 | | 2014 | 用于音乐类型分类的深度学习 | 否 | | 2014 | 使用深度神经网络识别声学事件 | 否 | | 2014 | 音乐信息检索中的深度图像特征 | 否 | | 2014 | 从音乐音频到和弦拨片谱:教学深度卷积网络弹奏吉他 | 否 | | 2014 | 通过卷积神经网络改进的音乐起音检测 | 否 | | 2014 | 使用卷积神经网络在音乐结构分析中进行边界检测 | 否 | | 2014 | 改进内容和混合音乐推荐,使用深度学习 | 否 | | 2014 | 音乐分类中的不变性和深度表示 | 否 | | 2015 | 深度卷积神经网络的听觉化:聆听学习到的特征 | GitHub | | 2015 | 结合多特征和深度神经网络的下拍检测 | 否 | | 2015 | 使用频谱图和自相似滞后矩阵的神经网络进行音乐边界检测 | 否 | | 2015 | 使用卷积神经网络进行空间音频位置和内容分类 | 否 | | 2015 | 深度学习、音频对抗和音乐内容分析 | 否 | | 2015 | 深度学习和音乐对抗 | GitHub | | 2015 | 使用深度递归神经网络检测歌唱声 | 否 | | 2015 | 使用卷积神经网络在复音音乐中自动识别乐器 | 否 | | 2015 | 音乐数据增强的软件框架 | 否 | | 2015 | 用于音乐自动标签的深度特征袋模型 | 否 | | 2015 | 在频谱时域中使用卷积神经网络的音乐噪音分割 | 否 | 2015 | 使用特征融合方法的深度卷积神经网络进行乐器声音分类 | 不适用 | | 2015 | 使用卷积神经网络进行环境声音分类 | 不适用 | | 2015 | 探索数据增强以通过神经网络改进歌声检测 | GitHub | | 2015 | 使用深度神经网络的歌手特征识别 | 不适用 | | 2015 | 用于音乐转录的混合递归神经网络 | 不适用 | | 2015 | 用于复调音乐转录的端到端神经网络 | 不适用 | | 2015 | 深度卡拉OK:使用卷积深度神经网络从音乐混合物中提取人声 | 不适用 | | 2015 | 通过具有长短期记忆单元的递归神经网络对民间音乐风格进行建模 | GitHub | | 2015 | 基于深度神经网络的乐器从音乐中提取 | 不适用 | | 2015 | 用于音乐建模的深度神经网络 | 不适用 | | 2016 | 一种用于音频信号分割、特征提取和分类的高效方法 | 不适用 | | 2016 | 用于自动音乐创作的基于文本的LSTM网络 | 不适用 | | 2016 | 使用RNNs训练在轨道内过渡的播放列表生成算法 | 不适用 | | 2016 | 使用深度卷积神经网络进行自动标记 | 不适用 | | 2016 | 在第七贝斯和弦词汇表上使用深度神经网络进行自动和弦估计 | 不适用 | | 2016 | 深度Bach:一种可控制的巴赫合唱生成模型 | GitHub | | 2016 | 基于学习信号表示的贝叶斯计量跟踪方法 | 不适用 | | 2016 | 音乐深度学习 | 不适用 | | 2016 | 使用深度神经网络学习时间特征及其在音乐类型分类中的应用 | 不适用 | | 2016 | 关于简单逐帧方法对钢琴转录的潜力 | 不适用 | | 2016 | 和弦识别特征学习:深度色度提取器 | GitHub | | 2016 | 全卷积深度听觉模型用于音乐和弦识别 | 不适用 | | 2016 | 基于双向长短时记忆的多尺度音乐动态情感预测方法 | 不适用 | | 2016 | 音乐自动标记中的事件定位 | GitHub | | 2016 | 在音阶螺旋上进行乐器识别的深度卷积网络 | GitHub | | 2016 | SampleRNN:一种无条件的端到端神经音频生成模型 | GitHub | | 2016 | 具有1最大池化层的卷积神经网络的鲁棒音频事件识别 | 不适用 | | 2016 | 使用音乐动机的卷积神经网络进行试验 | GitHub | | 2016 | 使用深度神经网络的歌声旋律转录 | 不适用 | | 2016 | 使用深度神经网络和F0估计进行歌声分离 | Website | | 2016 | 从弱标签样本中学习精确定位歌声 | 不适用 | | 2016 | 基于卷积神经网络的时间-频率表示分析用于音乐开始检测 | 不适用 | | 2016 | 使用基于神经网络的多重ODF融合进行音乐信号中的音符开始检测 | 不适用 | | 2016 | 音乐转录建模和作曲的深度学习 | GitHub | | 2016 | 用于鲁棒音高确定的卷积神经网络 | 不适用 | | 2016 | 用于声学事件检测的卷积神经网络和数据增强 | Website | | 2017 | 音频处理中加布尔框架和深度散射网络 | 不适用 | | 2017 | 基于视觉的声学定时事件检测:以单簧管音符开始为例 | 不适用 | | 2017 | 用于音乐生成的深度学习技术 - 综述 | 不适用 | | 2017 | JamBot:基于音乐理论感知和弦的多声音乐生成 | GitHub | | 2017 | XFlow:1D <-> 2D跨模态深度神经网络用于视听分类 | 不适用 | | 2017 | 机器聆听智能 | 不适用 | | 2017 | 使用深度卷积神经网络进行单耳音频源分离 | GitHub | | 2017 | 用于多标签分类的深度多模态网络 | No | | 2017 | 音乐信息检索中的深度学习教程 | GitHub | | 2017 | 用于音乐标签的深度神经网络音频信号预处理方法比较 | GitHub | | 2017 | 音乐分类和回归任务的迁移学习 | GitHub | | 2017 | 用于音乐分类的卷积递归神经网络 | GitHub | | 2017 | 使用频谱图进行音乐分类的卷积神经网络评价 | No | | 2017 | 使用深度神经网络的大词汇自动和弦估计:设计框架、系统变异和局限性 | No | | 2017 | 卷积神经网络的基本滤波器:训练还是设计? | No | | 2017 | 用于声响场景分类的深度神经网络集成 | No | | 2017 | 使用卷积网络集成进行稳健下拍检测 | No | | 2017 | 使用向量积神经网络的音乐信号处理 | No | | 2017 | 通过分类卷积神经网络转换音乐信号 | No | | 2017 | 结合语音和时长信息的音频到乐谱匹配 | GitHub | | 2017 | 使用位置约束的互动音乐生成与期望-RNN | No | | 2017 | 用于音乐序列的转换不变深度排名距离 | No | | 2017 | GLSR-VAE:变分自编码器架构的地质潜在空间正则化 | No | | 2017 | 用于多音音乐中主要乐器识别的深度卷积神经网络 | No | | 2017 | 用于大规模音频分类的卷积神经网络架构 | No | | 2017 | DeepSheet:基于深度学习的乐谱生成器 | No | | 2017 | Talking Drums: 用神经网络生成鼓点 | No | | 2017 | 使用深度U-Net卷积网络分离歌声 | GitHub | | 2017 | 通过端到端多模态神经网络进行音乐情感识别 | No | | 2017 | 通过深度学习集成的谐波间隔表示的和弦标签个性化 | No | | 2017 | 使用卷积神经网络进行端到端音乐调性估计 | No | | 2017 | MediaEval 2017 AcousticBrainz 流派任务:多层感知器方法 | No | | 2017 | 基于分类的深度卷积神经网络的歌声旋律提取 | No | | 2017 | 使用预训练卷积神经网络的多级和多尺度特征聚合进行音乐自动标记 | No | | 2017 | 使用样本级深度卷积神经网络的多级和多尺度特征聚合进行音乐分类 | GitHub | | 2017 | 使用原始波形的样本级深度卷积神经网络进行音乐自动标记 | No | | 2017 | 用于多音音乐生成的SeqGAN | GitHub | | 2017 | 使用卷积自编码器的和弦与打击音分离 | No | | 2017 | 用于音乐情感识别的堆叠卷积和递归神经网络 | No | | 2017 | 一种深度学习的方法用于嘻哈音乐的源分离和混音 | No | | 2017 | 使用屏蔽条件神经网络的音乐流派分类 | No | | 2017 | 带有跳过滤连接和时间频率掩码递归推断的单耳歌声分离 | GitHub | | 2017 | 生成数据以训练卷积神经网络进行古典音乐源分离 | GitHub | | 2017 | 单耳得分感知的古典音乐源分离,使用卷积神经网络 | GitHub | | 2017 | 使用深层特征进行音频、文本和图像的多标签音乐流派分类 | GitHub | | 2017 | 用于冷启动音乐推荐的深度多模态方法 | GitHub | | 2017 | 通过LSTM-RNN和谐波总和损失提取和检测旋律 | 无 | | 2017 | 使用艺术家标签进行音乐表示学习 | 无 | | 2017 | 迈向基于物理声合成的逆控制 | Website | | 2017 | 使用加权和多任务损失函数的DNN和CNN进行音频事件检测 | 无 | | 2017 | 使用卷积神经网络的无伴奏合唱音节分割 | GitHub | | 2017 | 大规模音乐音频标记的端到端学习 | GitHub | | 2017 | 使用卷积神经网络建模时间特征的高效架构设计 | GitHub | | 2017 | 使用卷积神经网络分析音乐音频信号的音色 | GitHub | | 2017 | 音乐分离的MUSDB18语料库 | GitHub | | 2017 | 深度学习和智能音频混合 | 无 | | 2017 | 用于音乐信号事件检测、序列标记和相似性估计的深度学习 | 无 | | 2017 | 使用卷积神经网络的音乐流派分类音乐特征图 | 无 | | 2017 | 使用软注意机制和卷积神经网络的多声部录音自动鼓声转录 | GitHub | | 2017 | 半监督音频源分离中的对抗式方法用于歌唱声提取 | 无 | | 2017 | 将模型带回音乐实践:评估使用深度学习构建的生成性转录模型 | GitHub | | 2017 | 生成用于音乐服务的非平凡旋律 | 无 | | 2017 | 监督音乐转录的不变性和数据增强 | GitHub | | 2017 | 使用层次注意网络的基于歌词的音乐流派分类 | GitHub | | 2017 | 一种混合DSP/深度学习方法用于实时全频带语音增强 | GitHub | | 2017 | 用于音乐分析的卷积方法 | 无 | | 2017 | 扩展用于语义音频分析的时间特征集成 | 无 | | 2017 | 使用稀疏编码卷积神经网络对声音事件进行识别和检索 | 无 | | 2017 | 一种特定钢琴的音符级转录的两阶段方法 | 无 | | 2017 | 降低DNN基于大规模音频分类模型的复杂性 | 无 | | 2017 | 处理卷积神经网络的音频频谱图表示 | Website | | 2017 | 基于深层模型的无监督特征学习用于环境音频标记 | 无 | | 2017 | 基于深度卷积递归模型的注意和定位利用进行弱监督音频标记 | GitHub | | 2017 | Surrey-CVSSP系统用于DCASE2017挑战任务4 | GitHub | | 2017 | 关于LSTM网络在多声部音乐序列建模中的研究 | 网站 | | 2018 | MuseGAN:用于符号音乐生成和伴奏的多轨序列生成对抗网络 | GitHub | | 2018 | 音乐Transformer:生成具有长期结构的音乐 | 无 | | 2018 | 受音乐理论启发的策略梯度方法用于钢琴音乐转录 | 无 | | 2019 | 使用MAESTRO数据集实现因子化钢琴音乐建模与生成 | GitHub | | 2019 | 使用稀疏Transformer生成长序列 | GitHub | | 2021 | DadaGP:一个用于序列模型的Tokenized GuitarPro歌曲数据集 | GitHub | 回到顶部

DL4M 详情

一个易于阅读的表格版本显示在文件 dl4m.tsv 中。每篇文章的所有详细信息都存储在相应的 bib 条目中 dl4m.bib。每个条目都有常规的 bib 字段:

  • author
  • year
  • title
  • journalbooktitle

每个 dl4m.bib 条目中还显示了其他信息:

  • link - PDF 文件的 HTML 链接
  • code - 如果有,源码链接
  • archi - 神经网络架构
  • layer - 层数
  • task - 文章中研究的任务
  • dataset - 使用的数据集名称
  • dataaugmentation - 使用的数据增强技术类型
  • time - 计算时间
  • hardware - 使用的硬件
  • note - 附加注释和信息
  • repro - 实验的可重复性程度

回到顶部

无文章代码

回到顶部

统计和可视化

回到顶部

关于 dl4m 文章的审阅建议

请参见 advice_review.md 文件。

如何贡献

欢迎贡献! 请参见 CONTRIBUTING.md 文件。

回到顶部

常见问题

这些文章是如何排序的?

文章首先按年份递减排序(以跟上最新动态),然后按主要作者的姓氏字母顺序排序。

为什么包括来自 arXiv 的预印本?

我想要对 DL4M 进行全面的研究并了解最新动态。然而,对于当前在审的文章信息应谨慎对待。如果可能,你应等待最终接受且经过同行评审的版本再引用 arXiv 文章。我会定期更新 arXiv 链接至相应的已发表论文。

我能多大程度上相信一篇文章发布的结果?

这里提供的列表并不保证文章的质量。你应尝试重现文中的实验或向 ReScience 提交请求。使用一篇文章的结论需自行承担风险。

回到顶部

使用的首字母缩写

一个用于深度学习和音乐的有用首字母缩写列表存储在 acronyms.md 中。

回到顶部

来源

用于收集拟议材料的会议、期刊和聚合器列表存储在 sources.md 中。

回到顶部

贡献者

回到顶部

其他有用的相关列表和资源

音频

返回顶部

音乐数据集

返回顶部

深度学习

返回顶部

被引用者

如果你使用了此仓库提供的信息,请告知我们!此仓库已被以下引用:

返回顶部

许可

你可以在 MIT 许可条款下自由复制、修改和分发 深度学习音乐 (DL4M),请参见许可证文件了解详细信息。 此项目使用了其他项目的资源,你可以参考它们以获取适当的许可证信息:

返回顶部

编辑推荐精选

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

下拉加载更多