reczoo/KKBox_x1
收藏Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/KKBox_x1
下载链接
链接失效反馈官方服务:
资源简介:
KKBox_x1是一个用于音乐推荐的挑战数据集,发布于WSDM 2018。数据集包含用户-歌曲配对数据,涵盖19种用户特征(如城市、性别)和歌曲特征(如语言、流派、艺术家)。数据被随机分为8:1:1的训练集、验证集和测试集。对于分类字段,不常见的特征被替换为`<OOV>`标记,阈值为min_category_count=10。数据集统计显示,总记录数为7,377,418,其中训练集5,901,932条,验证集和测试集各737,743条。
KKBox_x1是一个用于音乐推荐的挑战数据集,发布于WSDM 2018。数据集包含用户-歌曲配对数据,涵盖19种用户特征(如城市、性别)和歌曲特征(如语言、流派、艺术家)。数据被随机分为8:1:1的训练集、验证集和测试集。对于分类字段,不常见的特征被替换为`<OOV>`标记,阈值为min_category_count=10。数据集统计显示,总记录数为7,377,418,其中训练集5,901,932条,验证集和测试集各737,743条。
提供机构:
reczoo
原始信息汇总
KKBox_x1 数据集概述
数据集描述
KKBox 是一个用于音乐推荐的挑战数据集,源自 WSDM 2018 竞赛。该数据集包含特定时间段内的用户-歌曲对,共计有 19 个用户特征(如城市、性别)和歌曲特征(如语言、流派、艺术家)。数据集被随机分为 8:1:1 的比例,分别作为训练集、验证集和测试集。对于所有分类字段,不常见的特征被替换为默认的 <OOV> 标记,阈值设置为 min_category_count=10。
数据集统计
以下是数据集的统计信息:
| 数据集分割 | 总计 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|---|
| KKBox_x1 | 7,377,418 | 5,901,932 | 737,743 | 737,743 |
数据完整性校验
数据完整性可以通过以下 md5sum 值进行校验:
bash $ md5sum train.csv valid.csv test.csv 195b1ae8fc2d9267d7c8656c07ea1304 train.csv 398e97ac139611a09bd61a58e4240a3e valid.csv 8c5f7add05a6f5258b6b3bcc00ba640b test.csv
搜集汇总
数据集介绍

构建方式
KKBox_x1数据集的构建,源于音乐推荐领域的研究需求,旨在为WSDM 2018挑战提供基准数据。该数据集由用户-歌曲对构成,覆盖特定时间段的互动数据,包含19个用户特征(如城市、性别)和歌曲特征(如语言、风格、艺术家)。数据集通过随机分配的方式,划分为8:1:1的训练集、验证集和测试集,以保障模型训练与评估的全面性。对于稀疏出现的分类特征,当其出现频率低于设定的阈值min_category_count=10时,采用默认的<OOV>标记进行替换,以处理未出现的类别信息。
特点
该数据集具备丰富的用户与歌曲特征,为音乐推荐算法提供了多维度的数据支撑。其特点在于数据量大,总计7,377,418个用户-歌曲互动实例,保证了模型的泛化能力;同时,数据集通过严格的分割比例,确保了训练与测试的均衡性。此外,对分类特征的特殊处理,降低了数据稀疏性带来的影响,提升了模型的鲁棒性。
使用方法
使用KKBox_x1数据集时,用户可从指定的HuggingFace数据集库中下载。数据集包含train.csv、valid.csv和test.csv三个文件,分别对应训练集、验证集和测试集。在数据准备阶段,需对数据进行预处理,包括但不限于类别特征的编码转换、缺失值的填充等。随后,基于该数据集,研究人员可以设计并训练音乐推荐模型,通过验证集评估模型性能,并最终在测试集上测试模型的推荐效果。
背景与挑战
背景概述
KKBox_x1数据集,源自2018年WSDM音乐推荐挑战,由台湾知名音乐流媒体服务提供商KKBox提供。该数据集汇聚了用户与歌曲之间的互动记录,涵盖19种用户特征和歌曲特征,如城市、性别、语言、流派、艺术家等。数据集的构建旨在推动音乐推荐系统的研究,助力解决个性化推荐中的关键问题。该数据集已被学术文献引用,如SIGIR 2022上发表的'BARS: Towards Open Benchmarking for Recommender Systems',显示了其在推荐系统领域的重要影响力。
当前挑战
数据集在构建和应用过程中面临诸多挑战,其中包括如何准确捕捉用户动态兴趣变化、冷启动问题、以及处理稀疏数据。此外,数据集中对不频繁出现的类别特征进行统一替换,增加了模型对泛化能力的挑战。研究者和开发者需要设计有效的算法来处理这些复杂情况,以实现高质量的音乐推荐。
常用场景
经典使用场景
在音乐推荐领域,KKBox_x1数据集的经典使用场景在于构建能够精准预测用户与歌曲互动的推荐模型。通过对用户和歌曲特征的分析,如城市、性别、语言、风格、艺术家等,模型能够学习到用户偏好,进而为用户推荐其可能感兴趣的歌曲。
衍生相关工作
KKBox_x1数据集衍生了一系列相关工作,如BARS Benchmark,该工作旨在为推荐系统提供一个开放的评价基准,推动了推荐系统领域的学术交流和算法进步。此外,基于该数据集的研究还扩展到了多任务学习、跨域推荐等更广泛的领域。
数据集最近研究
最新研究方向
在音乐推荐领域,KKBox_x1数据集作为WSDM 2018挑战的组成部分,其研究价值日益凸显。近期研究集中于深入挖掘用户与歌曲之间的复杂关联,以及如何通过用户特征和歌曲属性进行精准推荐。SIGIR 2022会议上提出的BARS研究,旨在构建一个开放性的推荐系统评估基准,该研究利用KKBox_x1数据集进行了实证分析,展现了数据集在推动推荐系统性能提升与评估方法革新中的重要作用。
以上内容由遇见数据集搜集并总结生成



