five

音乐抄袭检测数据集(MPD-Set)|音乐抄袭检测数据集|版权保护数据集

收藏
arXiv2023-07-02 更新2024-06-21 收录
音乐抄袭检测
版权保护
下载链接:
https://github.com/xuan301/BMMDet_MPDSet
下载链接
链接失效反馈
资源简介:
音乐抄袭检测数据集(MPD-Set)是由上海交通大学教育部人工智能重点实验室的研究人员在知名国家级音乐领域专业机构的指导下创建的,旨在解决音乐抄袭检测问题。该数据集包含2000首音乐作品,每对作品之间存在抄袭关系,涵盖了旋律、节奏和音调层面的多种实际抄袭案例。数据集的创建过程涉及从Wikifonia开放源数据集中提取音乐片段,并将其转换为MIDI格式。MPD-Set的应用领域主要集中在音乐版权保护和抄袭检测,通过提供详细的数据支持,帮助识别和量化音乐作品中的抄袭行为。
提供机构:
教育部人工智能重点实验室,上海交通大学
创建时间:
2021-07-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
音乐抄袭检测数据集(MPD-Set)是首个公开的大规模音乐抄袭检测数据集,包含2000首音乐作品。该数据集由上海交通大学与国家级音乐专业机构的知名研究人员合作构建,基于Wikifonia开源数据集中的真实人类创作歌曲片段,通过提取音乐片段并转换为MIDI格式,模拟了现实生活中常见的四种抄袭类型:旋律转调、音高偏移、节奏变化和旋律变化。每种抄袭类型各占数据集的25%,确保了数据集能够全面反映现实中的音乐抄袭场景。
特点
MPD-Set的特点在于其精细化的抄袭检测设计,涵盖了旋律、节奏和音调等多个层面的抄袭案例。数据集不仅模拟了常见的抄袭手段,如转调、音高偏移和节奏变化,还引入了更为复杂的旋律变化类型,使用MuseMorphose模型生成变体片段。此外,MPD-Set还包含一个真实案例数据集,用于评估模型在实际场景中的表现,确保了数据集的实用性和广泛适用性。
使用方法
MPD-Set可用于训练和评估音乐抄袭检测算法,特别是针对细粒度抄袭检测的模型。用户可以通过将音乐片段转换为MIDI格式,并使用Bipartite Melody Matching Detector(BMM-Det)等基于图匹配的算法进行检测。该数据集支持多种抄袭类型的检测,用户可以根据需求调整模型参数,并通过实验验证模型在不同抄袭场景下的表现。数据集的开放性使得研究人员能够进一步探索和优化音乐抄袭检测技术。
背景与挑战
背景概述
随着音乐创作的普及和知识产权保护意识的增强,音乐抄袭检测逐渐成为学术界和产业界关注的焦点。传统的音乐抄袭检测方法多为粗粒度,难以应对现实场景中的复杂抄袭行为。为此,上海交通大学人工智能教育部重点实验室的研究团队在知名音乐领域专家的指导下,于2021年创建了音乐抄袭检测数据集(MPD-Set)。该数据集是首个公开的大规模音乐抄袭检测数据集,涵盖了2000首音乐作品,旨在模拟现实生活中的多种抄袭案例,包括旋律、节奏和音调层面的抄袭。MPD-Set的构建不仅填补了该领域的数据空白,还为音乐抄袭检测算法的研究提供了坚实的基础。
当前挑战
MPD-Set的构建面临多重挑战。首先,音乐抄袭检测领域的现有数据集稀缺且不公开,导致研究者难以获取足够的数据进行算法验证。其次,音乐抄袭行为具有多样性和隐蔽性,如转调、音高变化、节奏变化和旋律变化等,这些复杂的抄袭手段使得检测算法的设计变得尤为困难。此外,构建一个能够真实反映现实抄袭场景的数据集需要深入的音乐理论知识和专业的数据处理技术,以确保数据集的多样性和代表性。这些挑战不仅推动了MPD-Set的创建,也为后续的音乐抄袭检测研究提出了更高的要求。
常用场景
经典使用场景
音乐抄袭检测数据集(MPD-Set)的经典使用场景主要集中在音乐版权保护领域,尤其是在检测音乐作品中的细粒度抄袭行为。该数据集通过模拟真实世界中的抄袭案例,涵盖了旋律、节奏和音调等多个层面的抄袭方式,如转调、音高偏移、时长变化和旋律变化等。研究者可以利用MPD-Set训练和评估音乐抄袭检测算法,特别是基于二分图匹配的BMM-Det模型,以识别音乐作品中的局部抄袭片段。
实际应用
MPD-Set在实际应用中具有广泛的潜力,尤其是在音乐版权保护和法律诉讼领域。音乐行业可以通过该数据集训练的算法,快速识别和定位音乐作品中的抄袭片段,从而有效防止版权侵权行为。此外,MPD-Set还可以用于音乐创作过程中的自我审查,帮助音乐人避免无意中的抄袭行为。在法律诉讼中,MPD-Set提供的数据和算法可以作为证据,帮助法官和律师更准确地判断抄袭行为的存在与否。
衍生相关工作
MPD-Set的发布不仅推动了音乐抄袭检测算法的发展,还催生了一系列相关研究工作。例如,基于BMM-Det模型的改进算法不断涌现,进一步提升了细粒度抄袭检测的性能。此外,MPD-Set还激发了其他领域的研究,如音乐生成和音乐风格迁移,研究者开始探索如何利用该数据集进行更复杂的音乐分析和创作。未来,MPD-Set有望成为音乐信息检索和音乐版权保护领域的基准数据集,推动更多创新性研究的开展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)

这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录