five

MusicBrainz20K

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MusicBrainz20K
下载链接
链接失效反馈
官方服务:
资源简介:
用于实体解析和实体聚类的 MusicBrainz20K 数据集基于 MusicBrainz 数据库中关于歌曲的真实记录。每条记录都使用以下属性进行描述:艺术家、标题、专辑、年份和长度。记录已使用 DAPO [1] 数据生成器进行了修改。生成的数据集由五个来源和大约 20K 条记录组成,描述了 10K 个独特的歌曲实体。它包含两到五个来源中 50% 的原始记录的重复项,这些记录是高度损坏生成的,以对实体解析和聚类方法进行压力测试。 [1] 希尔德布兰特、凯等人。 “使用 Apache Spark 进行大规模数据污染。” IEEE 大数据交易 6.2(2017):396-411。
提供机构:
OpenDataLab
创建时间:
2022-08-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作