Quantitative Analysis of Melodic Similarity in Music Copyright Infringement Cases Dataset

github2024-07-29 更新2024-07-30 收录

下载链接：

https://github.com/saebyulpark/MCIC

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含116个音乐版权侵权案例的MIDI文件和乐谱，用于定量分析旋律相似性。数据集来自多个来源，包括Yuan (2023)、Music Copyright Infringement Resource (MCIR)和Lost in Music by Westminster Law School。

This dataset includes MIDI files and sheet music corresponding to 116 music copyright infringement cases, and is utilized for quantitative analysis of melodic similarity. It is sourced from multiple origins, including Yuan (2023), the Music Copyright Infringement Resource (MCIR), and *Lost in Music* by Westminster Law School.

创建时间：

2024-07-20

原始信息汇总

音乐版权侵权案例中的旋律相似性定量分析数据集

数据集描述

该数据集包含116个旋律侵权案例（MIDI文件、乐谱），用于在ISMIR 2024会议上发表的论文《音乐版权侵权案例中的旋律相似性定量分析》。数据集来源包括：

Yuan (2023): 提供带有感知数据的更新元数据。
Music Copyright Infringement Resource (MCIR): 链接地址为 MCIR
Lost in Music by Westminster Law School: 链接地址为 Lost in Music

数据集最终包含116个案例（侵权：33，否认：66，和解：17）。

教程

教程涵盖以下步骤，使用两首歌曲进行：

使用Mel2Word将旋律分词为单词。
计算每个元素的Tversky和TF-IDF分数。
使用Word2Vec (W2V)模型计算相似性。

详细步骤请参考 Tutorial.ipynb。

此外，新实现的TV_by_element方法（按元素提取Tversky个体分数）的代码提供在 TVelement.ipynb。

联系

如有问题或进一步信息，请联系 [saebyul_parkl@kaist.ac.kr]。

搜集汇总

数据集介绍

构建方式

在音乐版权侵权案件的量化分析领域，该数据集的构建基于多个权威来源，包括Music Copyright Infringement Resource (MCIR)、Westminster Law School的Lost in Music项目以及Yuan (2023)的最新更新。通过整合这些资源，数据集包含了116个案例，分为侵权、否认和和解三类。每个案例均附有详细的摘要，为旋律相似性的计算评估提供了关键信息。此外，数据集采用了先进的自然语言处理技术，如Mel2Word方法，通过Byte Pair Encoding (BPE)对旋律进行分词，并基于嵌入距离计算相似度分数，从而实现对音乐相似性的客观量化分析。

特点

该数据集的显著特点在于其综合性和技术先进性。首先，数据集不仅涵盖了广泛的版权侵权案例，还通过详细的案例摘要提供了丰富的背景信息，增强了数据集的实用性和透明度。其次，数据集采用了创新的Mel2Word方法和修改后的Tversky测量与TF-IDF权重系统，这些技术手段能够捕捉旋律的语义意义，反映元素的显著性、重要性和独特性，从而在法律和感知层面提供更为精确的相似性评估。

使用方法

使用该数据集时，用户可以通过提供的教程逐步进行操作。首先，使用Mel2Word方法将旋律分词为单词。接着，计算每个元素的修改Tversky和TF-IDF分数。最后，利用Word2Vec模型计算相似度。详细的步骤指南和代码示例可在提供的教程文件中找到，包括用于计算元素分数的修改Tversky测量方法的具体实现。这些资源为用户提供了从数据处理到结果分析的全流程指导，确保了数据集的高效利用和准确解读。

背景与挑战

背景概述

在音乐版权侵权案件中，旋律相似性的量化分析一直是法律和音乐学界关注的焦点。*Quantitative Analysis of Melodic Similarity in Music Copyright Infringement Cases Dataset*（MCIC）数据集由KAIST的研究团队于2024年创建，旨在通过先进的自然语言处理（NLP）技术，量化和分析音乐版权侵权案件中的旋律相似性。该数据集汇集了来自Music Copyright Infringement Resource（MCIR）、Westminster Law School的*Lost in Music*项目以及Yuan（2023）的最新更新，共包含116个案例，分为*Infringed*、*Denied*和*Settled*三类。MCIC不仅提供了每个案例的详细摘要，还通过*Mel2Word*方法将旋律转化为词元，利用Byte Pair Encoding（BPE）进行编码，从而实现对旋律相似性的客观和可扩展分析。这一研究不仅在法律层面提供了新的分析工具，也在音乐学领域推动了对旋律相似性量化方法的发展。

当前挑战

尽管MCIC数据集在音乐版权侵权案件中展现了其独特的价值，但其构建和应用过程中仍面临诸多挑战。首先，旋律的量化和编码过程复杂，需要高度专业化的NLP技术支持，如*Mel2Word*方法和Byte Pair Encoding（BPE），这些技术的应用和优化是数据集构建的主要难点。其次，数据集的多样性和代表性问题，尽管MCIC汇集了多个权威来源的数据，但如何确保这些数据能够全面反映音乐版权侵权案件的多样性，仍是一个亟待解决的问题。此外，计算旋律相似性的方法，如修改的Tversky测量和TF-IDF权重，虽然在理论上具有创新性，但在实际应用中如何确保其准确性和可靠性，也是研究者需要深入探讨的课题。最后，数据集的更新和维护也是一个长期挑战，随着音乐版权侵权案件的不断增加，如何持续更新和扩充数据集，以保持其时效性和权威性，是未来研究的重要方向。

常用场景

经典使用场景

在音乐版权侵权案件中，该数据集通过量化旋律相似性，为法律和感知层面的相似性评估提供了客观且可扩展的分析工具。通过先进的自然语言处理技术，特别是Mel2Word方法，该数据集能够将旋律转化为词元，并计算基于嵌入距离的相似性分数。这一方法不仅适用于学术研究，也为法律实践中的版权纠纷提供了科学依据。

实际应用

在实际应用中，该数据集被广泛用于音乐版权侵权案件的分析和判决。通过量化旋律相似性，该数据集帮助法律从业者更准确地评估案件中的音乐相似度，从而做出更为公正的判决。此外，该数据集还支持音乐产业的版权保护工作，通过自动化和标准化的分析流程，提高了版权管理的效率和准确性。

衍生相关工作

基于该数据集，许多相关研究工作得以展开，特别是在音乐版权保护和旋律相似性分析领域。例如，一些研究者利用该数据集开发了新的旋律相似性计算模型，进一步提升了分析的精确度和效率。此外，该数据集还激发了在音乐创作和版权教育方面的应用研究，推动了音乐版权领域的技术创新和知识普及。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集