MusicUGCNER
收藏arXiv2024-12-16 更新2024-12-18 收录
下载链接:
https://github.com/progsi/YTUnCoverLLM
下载链接
链接失效反馈官方服务:
资源简介:
MusicUGCNER数据集由柏林图书馆与信息科学学院创建,主要用于音乐领域中的命名实体识别(NER)任务。该数据集基于用户生成内容(UGC),包括来自Reddit的帖子以及YouTube视频标题,涵盖了音乐作品和表演艺术家的实体标注。数据集的创建过程包括从SHS100K数据集中提取视频标题并进行人工标注,确保了数据的高质量。该数据集主要应用于音乐实体检测,旨在提高大语言模型在处理音乐相关文本时的性能和鲁棒性。
The MusicUGCNER dataset was created by the Berlin School of Library and Information Science, and is primarily designed for named entity recognition (NER) tasks in the music domain. This dataset is based on user-generated content (UGC), including posts from Reddit and YouTube video titles, and covers entity annotations for musical works and performing artists. During its creation, video titles were extracted from the SHS100K dataset and manually annotated to ensure high data quality. This dataset is mainly used for music entity detection, with the goal of improving the performance and robustness of large language models (LLMs) when processing music-related text.
提供机构:
柏林图书馆与信息科学学院
创建时间:
2024-12-16
原始信息汇总
数据集概述
数据集内容
该数据集用于音乐实体检测的上下文学习(In-Context-Learning for Music Entity Detection),包含多个子数据集,每个数据集都采用k折分割,并遵循IOB格式(Inside–outside–beginning tagging)。数据集的元数据存储在相应的data.jsonl文件中。
提供的子数据集
- reddit+shsyt: 完整的MusicUGC数据集,包含YouTube和Reddit的标注。
- reddit: 仅基于Reddit的MusicRecoNER数据集,经过后处理。
- shsyt: 仅基于YouTube的子集。
- shs100k2: 基于SHS100K2的自动匹配数据集,数据量较大但质量较低,未经过人工校验,召回率较低。
数据集格式
- 数据集文件格式为
.IOB,遵循IOB标注格式。 - 元数据存储在
data.jsonl文件中。
数据集使用
- 数据集位于
data/dataset目录下。 - 提供了用于记忆测试和生成完形填空数据集的脚本。
- 提供了基于上下文学习的提取脚本,支持本地模型和API模型。
引用信息
- 如果使用该数据集,请引用相关论文:
- A Benchmark and Robustness Study of In-Context-Learning with Large Language Models in Music Entity Detection
- Information Extraction of Music Entities in Conversational Music Queries
- A Human Subject Study of Named Entity Recognition (NER) in Conversational Music Recommendation Queries
搜集汇总
数据集介绍

构建方式
MusicUGCNER数据集通过结合用户生成内容(UGC)构建,主要来源于Reddit帖子和YouTube视频标题。数据集的构建过程包括从Secondhandsongs平台获取的歌曲元数据与YouTube视频标题的自动匹配,随后由人工进行标注。标注过程采用IOB格式,确保每个标记都能被准确分类为艺术家(Artist)或音乐作品(WoA)。此外,数据集还与MusicRecoNER数据集结合,以涵盖不同类型的UGC内容。
使用方法
MusicUGCNER数据集适用于音乐领域命名实体识别(NER)任务的研究。研究者可以使用该数据集对预训练的大型语言模型(LLMs)进行微调,或通过上下文学习(ICL)进行实体检测。数据集的IOB格式使得模型能够直接输出实体标签,便于后续的评估和分析。此外,数据集还可用于测试模型对未见实体和文本扰动的鲁棒性。
背景与挑战
背景概述
MusicUGCNER数据集由Simon Hachmeier和Robert Jäschke于2024年在柏林洪堡大学图书馆与信息科学学院创建,旨在解决音乐领域中的命名实体识别(NER)问题。该数据集基于用户生成内容(UGC),特别是来自Reddit和YouTube的视频标题,涵盖了歌曲标题和艺术家名称等音乐实体。其核心研究问题在于如何有效识别和分类这些实体,尤其是在用户生成内容中常见的拼写错误、缩写和歧义性表达。MusicUGCNER的发布为音乐信息提取领域的研究提供了新的基准,尤其是在大语言模型(LLMs)和上下文学习(ICL)的应用背景下,推动了音乐实体检测技术的进步。
当前挑战
MusicUGCNER数据集面临的挑战主要集中在两个方面:首先,用户生成内容中的音乐实体识别存在诸多困难,如拼写错误、缩写和歧义性表达,这些因素增加了实体识别的复杂性。其次,音乐实体的结构不规则,缺乏固定的词汇表,导致实体识别模型在处理这些实体时容易出现误判。此外,构建过程中还面临数据标注的挑战,尤其是在处理多义性和嵌套实体时,标注的一致性和准确性难以保证。这些问题不仅影响了模型的性能,也对后续的研究提出了更高的要求。
常用场景
经典使用场景
MusicUGCNER数据集的经典使用场景主要集中在音乐领域的命名实体识别(NER)任务中。该数据集通过收集和标注用户生成内容(UGC)中的音乐实体,如歌曲标题和艺术家名称,为研究人员提供了一个标准化的基准。其应用场景包括处理音乐搜索查询、分析在线音乐消费行为,以及在对话式音乐推荐系统中提取关键信息。通过使用该数据集,研究人员可以评估和比较不同语言模型在音乐实体检测任务中的性能,尤其是在处理用户生成内容中的拼写错误和缩写等挑战时。
解决学术问题
MusicUGCNER数据集解决了音乐领域中命名实体识别的常见学术问题,特别是在用户生成内容(UGC)中的实体检测。由于UGC中存在拼写错误、缩写和歧义等问题,传统的命名实体识别方法往往难以应对。该数据集通过提供高质量的标注数据,帮助研究人员探索如何利用大型语言模型(LLMs)在上下文学习(ICL)设置下提升实体识别的准确性和鲁棒性。此外,该数据集还揭示了实体在预训练中的暴露对模型性能的显著影响,为未来的研究提供了重要的参考。
实际应用
MusicUGCNER数据集在实际应用中具有广泛的应用场景。首先,它可以用于优化音乐搜索引擎,帮助用户更准确地找到他们想要的音乐内容。其次,该数据集可以应用于在线音乐消费行为的分析,帮助音乐平台更好地理解用户的偏好和行为模式。此外,它还可以用于对话式音乐推荐系统,通过识别用户请求中的音乐实体,提供更加个性化的推荐服务。这些应用不仅提升了用户体验,还为音乐产业的数据驱动决策提供了有力支持。
数据集最近研究
最新研究方向
在音乐实体检测领域,MusicUGCNER数据集的最新研究方向主要集中在利用大型语言模型(LLMs)进行上下文学习(ICL)的性能评估与鲁棒性分析。研究者们通过对比小型语言模型(SLMs)如BERT和RoBERTa,发现LLMs在处理用户生成内容(UGC)中的音乐实体识别任务时表现出更高的性能。特别是,LLMs在处理未见过的实体和应对文本中的噪声(如拼写错误和缩写)方面展现出更强的鲁棒性。此外,研究还揭示了预训练阶段实体暴露对模型性能的显著影响,表明LLMs在音乐实体识别任务中的优势部分源于其在大规模数据上的预训练。未来研究可能进一步探索结合音乐词典与检索增强生成方法,以提升LLMs在音乐实体识别中的泛化能力。
相关研究论文
- 1A Benchmark and Robustness Study of In-Context-Learning with Large Language Models in Music Entity Detection柏林图书馆与信息科学学院 · 2024年
以上内容由遇见数据集搜集并总结生成



