bili_likes

Hugging Face2025-04-06 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/faeea/bili_likes

下载链接

链接失效反馈

官方服务：

资源简介：

哔哩哔哩用户点赞记录数据集，用于微调大型语言模型(LLM)。数据集包含三个部分：指令、输入和输出。输入部分是由用户点赞的视频的文字描述序列组成。

创建时间：

2025-03-29

原始信息汇总

数据集概述

基本信息

名称: bili_likes
许可证: Apache-2.0
任务类别: 文本生成
语言: 中文
数据规模: 100K<n<1M

数据集描述

用途: 用于微调大型语言模型（LLM）
内容: 包含三部分：指令（instruction）、输入（input）和输出（output）。输入部分为用户点赞的视频文本描述序列。

数据集结构

字段: instruction, input, output
数据量: 未明确说明

数据集来源

来源: bilibili用户的点赞记录
数据生产者: 未明确说明

使用说明

直接用途: 未明确说明
超出范围的用途: 未明确说明

创建信息

创建动机: 未明确说明
数据处理: 未明确说明

注意事项

个人和敏感信息: 未明确说明
偏见和风险: 未明确说明
建议: 用户应了解数据集的风险、偏见和局限性。

引用

BibTeX: 未提供
APA: 未提供

搜集汇总

数据集介绍

构建方式

在中文互联网内容生态研究的背景下，bili_likes数据集通过采集哔哩哔哩平台用户的点赞行为数据构建而成。该数据集采用三部分结构化设计（指令、输入、输出），其中输入数据由用户点赞视频的文本描述序列组成。数据采集过程遵循平台规范，通过API接口获取经过脱敏处理的用户行为日志，确保数据来源的合法性与隐私保护。

特点

作为中文短视频领域的行为分析数据集，bili_likes呈现显著的内容多样性特征。数据集规模介于10万至100万样本之间，覆盖多维度用户偏好信息。其结构化设计特别适合大语言模型微调任务，输入文本序列天然具备上下文关联特性，输出部分可反映用户隐式反馈。数据语言为简体中文，符合Apache-2.0开源协议要求。

使用方法

该数据集主要应用于推荐系统算法优化和用户行为模式研究领域。研究者可通过解析指令-输入-输出的三元组结构，构建用户兴趣预测模型。在LLM微调场景中，建议将视频描述文本作为prompt输入，点赞行为作为监督信号。使用前需注意数据清洗，消除重复和无效记录，并建议采用交叉验证评估模型性能。

背景与挑战

背景概述

bili_likes数据集聚焦于中文互联网环境下用户行为模式的深度解析，由匿名研究团队于当代大数据时代背景下构建。该数据集以哔哩哔哩平台用户的点赞记录为研究对象，通过结构化处理生成包含指令、输入、输出三部分的文本序列，旨在为大语言模型的微调提供细粒度训练素材。其核心价值在于捕捉年轻世代在视频内容消费过程中展现的隐性偏好特征，为推荐系统算法优化和用户画像构建提供了独特的数据视角。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，稀疏且非结构化的点赞行为数据需要解决用户意图模糊性、跨视频语义关联性弱等自然语言理解难题；在构建过程中，原始数据存在信息密度不均、隐含敏感内容的风险，需设计复杂的清洗规则与匿名化处理流程。视频描述文本的多模态特性与用户真实偏好间的映射关系，亦对数据标注的可靠性提出更高要求。

常用场景

经典使用场景

在自然语言处理领域，bili_likes数据集以其独特的用户点赞记录为研究者提供了丰富的文本生成素材。该数据集通过捕捉用户对视频的偏好描述，为大型语言模型的微调提供了高质量的指令-输入-输出三元组，尤其在模拟用户兴趣驱动的文本生成任务中展现出显著价值。

实际应用

在实际应用层面，基于bili_likes训练的模型可精准服务于内容推荐场景。视频平台能够利用该数据集构建的用户偏好表征，实现从粗粒度协同过滤到细粒度语义匹配的推荐升级，显著提升长尾视频的曝光效率与用户粘性。

衍生相关工作

该数据集已催生多个跨模态推荐系统的创新研究，包括基于注意力机制的偏好解码器架构、用户兴趣漂移追踪算法等。部分工作进一步扩展了原始数据的应用边界，将其与视频内容特征相结合，形成了端到端的个性化内容生成框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集