listening-history-chronological-split

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/talkpl-ai/listening-history-chronological-split

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含用户信息和音轨播放记录的数据集，分为测试集和训练集，可用于分析用户行为和音乐推荐等场景。

This is a dataset containing user information and audio track playback records. It is divided into a test set and a training set, and can be applied to scenarios such as user behavior analysis and music recommendation.

创建时间：

2025-07-22

原始信息汇总

数据集概述

基本信息

数据集名称: listening-history-chronological-split
下载大小: 89,120,085字节
数据集大小: 121,458,520字节

数据集特征

user_id: 字符串类型，表示用户ID
session_id: 字符串类型，表示会话ID
track_ids: 字符串序列，表示音轨ID列表
user_info: 结构体，包含以下字段：
- age: 整型，表示用户年龄
- country: 字符串类型，表示用户国家
- creation_time: 字符串类型，表示创建时间
- gender: 字符串类型，表示用户性别

数据集划分

test_cold:
- 样本数量: 200
- 数据大小: 182,447字节
test_warm:
- 样本数量: 800
- 数据大小: 761,162字节
train_warm:
- 样本数量: 119,296
- 数据大小: 120,514,911字节

配置文件

默认配置:
- test_cold: 数据文件路径 data/test_cold-*
- test_warm: 数据文件路径 data/test_warm-*
- train_warm: 数据文件路径 data/train_warm-*

搜集汇总

数据集介绍

构建方式

在音乐推荐系统研究领域，listening-history-chronological-split数据集采用时间序列分割策略构建，通过捕获用户历史行为数据来模拟真实场景。数据集包含用户ID、会话ID、曲目序列及用户人口统计信息等结构化字段，特别设计了test_cold、test_warm和train_warm三种分割方式，分别对应冷启动用户、已知用户活跃会话及训练用历史数据，总计包含近12万条训练样本，数据规模达121MB。这种时序划分方法有效保留了用户行为的时间依赖性，为推荐系统的时序建模提供了理想实验环境。

特点

该数据集最显著的特征在于其多维度的用户行为表征体系，不仅记录基础的用户-物品交互数据（track_ids序列），还整合了用户年龄、国家、注册时间和性别等人口属性（user_info结构体）。测试集创新性地采用冷热用户分离策略，test_cold子集模拟新用户冷启动场景，test_warm子集则针对已知用户的持续兴趣追踪，这种设计使得数据集能同时评估推荐系统在新用户适应性和老用户偏好捕捉两方面的性能。数据字段的序列化存储方式更完整保留了用户会话的原始时序关系。

使用方法

研究者可通过HuggingFace平台直接加载该数据集，默认配置包含三个预定义分割。train_warm子集适用于训练时序推荐模型，test_warm用于验证模型对已知用户的预测能力，而test_cold专为冷启动算法评估设计。使用时应特别注意用户会话数据的时序完整性，推荐采用RNN、Transformer等时序模型处理track_ids序列，同时可结合user_info中的 demographic特征进行多任务学习。数据加载后需保持原始的时间划分顺序，以确保实验结论的有效性。

背景与挑战

背景概述

在音乐推荐系统领域，时序行为分析一直是提升个性化服务质量的关键。listening-history-chronological-split数据集由匿名研究团队构建，专注于记录用户在流媒体平台上的音乐收听行为序列。该数据集通过捕获用户ID、会话ID、曲目序列及人口统计信息，为研究用户偏好的动态演变提供了细粒度的时序数据支持。其创新性地采用冷启动（cold）与常规（warm）场景的划分策略，显著推动了推荐系统在冷启动用户处理方面的研究进展，成为评估时序感知推荐算法的重要基准之一。

当前挑战

该数据集主要应对音乐推荐领域两大核心挑战：一是冷启动场景下用户兴趣建模的困难性，新用户缺乏历史行为导致传统协同过滤方法失效；二是时序动态性捕捉的复杂性，用户偏好会随季节、情绪等外部因素非线性变化。数据构建过程中，研究者需解决多源异构日志的清洗对齐问题，包括会话分割的阈值定义、异常交互的过滤规则设计等。此外，隐私保护要求对原始行为数据进行严格的匿名化处理，这在一定程度上增加了数据可用性与真实性的平衡难度。

常用场景

经典使用场景

在音乐推荐系统和用户行为分析领域，listening-history-chronological-split数据集因其按时间顺序划分的听歌记录而备受青睐。研究者通常利用该数据集训练时序推荐模型，以捕捉用户在不同时间段的音乐偏好变化。通过分析用户的历史听歌序列，模型能够学习到用户兴趣的演变规律，从而提升推荐系统的个性化水平。

衍生相关工作

围绕该数据集已衍生出多项创新性研究，包括基于注意力机制的时序推荐模型、融合人口统计特征的混合推荐系统等。部分工作专注于解决数据稀疏性问题，通过迁移学习将温暖用户模型迁移至冷启动场景。这些研究不仅推动了推荐算法的发展，也为理解人类音乐消费行为提供了新的理论视角。

数据集最近研究