yambda

Hugging Face2025-05-28 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/yandex/yambda

下载链接

链接失效反馈

官方服务：

资源简介：

Yambda-5B是一个包含1百万用户和9.39万首音乐的巨大音乐推荐数据集，拥有4.79亿用户-音乐交互，包括收听、喜欢、不喜欢、取消喜欢和取消不喜欢等交互行为。该数据集提供了时间戳、有机与推荐驱动的交互标记、音频嵌入，并支持多种规模（50M、500M、5B交互）。

Yambda-5B is a large-scale music recommendation dataset encompassing 1 million users and 93,900 music tracks, with 479 million user-music interactions including behaviors such as listening, liking, disliking, canceling likes, and canceling dislikes. This dataset provides timestamps, organic and recommendation-driven interaction labels, audio embeddings, and supports multiple scale variants (50M, 500M, 5B interactions).

创建时间：

2025-05-27

原始信息汇总

Yambda-5B 数据集概述

基本信息

许可证: Apache-2.0
标签: recsys, retrieval, dataset
数据集名称: Yambda-5B
数据规模: 1B < n < 10B

数据集配置

flat-50m: 包含 likes、listens、unlikes、multi_event、dislikes、undislikes 的 parquet 文件
flat-500m: 包含 likes、listens、unlikes、multi_event、dislikes、undislikes 的 parquet 文件
flat-5b: 包含 likes、listens、unlikes、multi_event、dislikes、undislikes 的 parquet 文件
sequential-50m: 包含 likes、listens、unlikes、multi_event、dislikes、undislikes 的 parquet 文件
sequential-500m: 包含 likes、listens、unlikes、multi_event、dislikes、undislikes 的 parquet 文件
sequential-5b: 包含 likes、listens、unlikes、multi_event、dislikes、undislikes 的 parquet 文件

关键特性

包含 4.79B 用户-音乐交互数据（包括 listens、likes、dislikes、unlikes、undislikes）
带有全局时间顺序的时间戳
7.72M 条目的音频嵌入
包含自然和推荐驱动的交互
多种数据集规模（50M、500M、5B 交互）
标准化评估协议和基准测试

统计数据

数据集	用户数	条目数	收听次数	喜欢次数	不喜欢次数
Yambda-50M	10,000	934,057	46,467,212	881,456	107,776
Yambda-500M	100,000	3,004,578	466,512,103	9,033,960	1,128,113
Yambda-5B	1,000,000	9,390,623	4,649,567,411	89,334,605	11,579,143

数据格式

文件描述

listens.parquet: 用户收听事件，包含播放详情
likes.parquet: 用户喜欢行为
dislikes.parquet: 用户不喜欢行为
undislikes.parquet: 用户取消不喜欢行为
unlikes.parquet: 用户取消喜欢行为
embeddings.parquet: 曲目音频嵌入

通用事件结构

uid: 用户唯一标识符
item_id: 曲目唯一标识符
timestamp: 时间戳（以5秒为单位）
is_organic: 是否为自然交互的标志（0/1）

统一事件结构

event_type: 事件类型（listen、like、dislike、unlike、undislike）
played_ratio_pct: 播放百分比（仅适用于 listen 事件）
track_length_seconds: 曲目时长（仅适用于 listen 事件）

顺序（聚合）格式

uid: 用户唯一标识符
item_ids: 交互曲目ID的时序列表
timestamps: 对应交互的时间戳
is_organic: 对应交互的自然标志

常见问题

测试条目是否出现在训练数据中？: 部分出现，部分不出现
测试用户是否出现在训练数据中？: 是，测试集中没有冷用户
音频嵌入如何生成？: 使用基于卷积神经网络的模型
is_organic标志的含义？: 表示交互是通过自然发现还是推荐驱动的方式发生
哪些事件被视为推荐驱动？: 包括来自个性化音乐源和个性化播放列表的行为
什么被视为“收听”曲目？: 播放超过50%时长的曲目被视为“收听”

搜集汇总

数据集介绍

构建方式

Yambda-5B数据集作为音乐推荐系统领域的重要资源，其构建过程体现了工业级数据采集的严谨性。该数据集通过真实用户交互日志系统，捕获了来自百万级用户的47.9亿条音乐交互记录，涵盖播放、喜欢、不喜欢等多种行为类型。数据采集过程中特别区分了自然发现与推荐驱动的交互场景，并采用5秒时间粒度进行标准化处理。所有交互事件均按用户ID和时间戳升序排列，确保时序完整性。音频嵌入特征则通过卷积神经网络模型预计算生成，为内容感知推荐提供支持。

特点

该数据集最显著的特征在于其多模态特性和细粒度标注。包含9.39百万首曲目的音频嵌入向量，以及精确到播放比例的交互细节，如播放完成度和曲目时长。独特的有机交互标记机制，能清晰区分用户自然探索行为与系统推荐引发的互动。数据以Parquet格式组织，提供从5000万到50亿条记录的多规模子集，并包含原始事件和时序聚合两种数据结构，满足不同研究需求。用户历史交互长度的对数正态分布，真实反映了音乐消费的长尾特性。

使用方法

研究者可通过HuggingFace平台直接加载数据集的不同配置版本，flat格式适合基于独立事件的推荐模型训练，sequential格式则优化了序列推荐任务的输入效率。音频嵌入文件可与交互记录通过曲目ID关联，用于构建混合推荐系统。基准测试代码库提供了模型性能对比的标准化流程。使用时需注意交互事件中可选字段的null值处理，对于播放行为分析应过滤非listen类型事件。数据集的时间戳采用相对值存储，实际应用中可能需要还原为绝对时间序列。

背景与挑战

背景概述

Yambda-5B数据集作为工业级音乐推荐领域的重要资源，由Apache 2.0协议授权发布，其规模达到47.9亿用户-项目交互行为，涵盖100万用户与939万音乐曲目。该数据集创新性地整合了显式反馈（如喜欢/不喜欢标记）与隐式反馈（如收听事件），并标注了用户行为来源（自然发现或算法推荐），同时提供预计算音频嵌入特征。其多尺度数据架构（50M/500M/5B三级规模）与标准化评估协议，为推荐系统领域的内容感知研究提供了新的基准平台。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决超大规模序列推荐中用户兴趣漂移建模难题，以及混合显隐式反馈的权重平衡问题；在构建过程中，面临多源行为日志的时间对齐、非结构化音频特征到嵌入空间的映射优化，以及十亿级事件数据的去噪与标准化处理等技术障碍。此外，区分算法推荐与自然发现行为的数据标注工作，对原始日志的语义解析提出了极高要求。

常用场景

经典使用场景

在音乐推荐系统领域，Yambda-5B数据集以其海量的用户-音乐交互记录成为研究推荐算法的黄金标准。该数据集通过记录用户的收听、喜欢、不喜欢等行为，为研究者提供了丰富的隐式和显式反馈数据。特别值得注意的是，数据集还区分了用户自然发现音乐和算法推荐音乐的行为，这为研究推荐系统对用户行为的影响提供了独特视角。

解决学术问题

Yambda-5B数据集有效解决了推荐系统研究中的多个关键问题。其大规模的用户交互数据为研究长期用户行为模式提供了可能，而精确的时间戳记录则支持时序推荐算法的开发。数据集中的有机与推荐行为标记为解决算法偏差问题提供了研究基础，预计算的音频嵌入特征则为内容感知推荐系统的研究铺平了道路。

衍生相关工作

基于Yambda-5B数据集已产生多项重要研究成果。其中包括时序推荐算法的创新、混合推荐系统的设计，以及推荐系统公平性研究等。这些工作不仅推动了推荐系统领域的发展，也为理解用户音乐偏好形成机制提供了新的理论框架。数据集提供的标准化评估协议更促进了研究成果的可比性和可复现性。

以上内容由遇见数据集搜集并总结生成