KuaiComt

Name: KuaiComt
Creator: 快手科技
Published: 2025-04-02 19:09:18
License: 暂无描述

arXiv2025-04-02 更新2025-04-07 收录

下载链接：

https://github.com/lyingCS/KuaiComt.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

KuaiComt数据集是由快手科技构建并开源的一个真实世界视频评论推荐数据集，包含了34,701名用户在2023年10月1日至10月31日之间的视频和评论互动数据。该数据集提供了丰富的文本信息，包括视频标题和评论内容，旨在为视频和评论推荐及预测任务的研究与开发提供坚实基础。数据集经过精心设计，保留了用户的正面反馈（点赞或回复），并采取了匿名化措施以保护隐私和商业机密。KuaiComt数据集能够帮助研究人员和开发人员通过理解和建模视频平台上的用户行为来提升推荐系统。

The KuaiComt dataset is a real-world video comment recommendation dataset constructed and open-sourced by Kuaishou Technology. It contains video and comment interaction data from 34,701 users between October 1 and October 31, 2023. This dataset provides rich textual information including video titles and comment contents, aiming to provide a solid foundation for research and development of video and comment recommendation and prediction tasks. The dataset is carefully designed to retain users' positive feedback (likes or replies), and has adopted anonymization measures to protect privacy and trade secrets. The KuaiComt dataset can assist researchers and developers in improving recommendation systems by understanding and modeling user behaviors on video platforms.

提供机构：

快手科技

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

KuaiComt数据集构建于快手平台的用户交互日志，涵盖了34,701名用户在2023年10月的视频观看及评论互动行为。为确保数据质量，研究团队过滤了评论数量少于55条的视频及互动次数少于2次的评论，并对视频标题和评论文本进行了匿名化处理。数据采集过程严格遵循时间顺序划分策略，按4:1:1的比例划分为训练集、验证集和测试集，以保持时间序列的完整性。

使用方法

KuaiComt支持两阶段建模框架：首先利用LLM对评论语义进行领域自适应微调，通过停留时间分桶预测等任务生成预训练嵌入；随后将嵌入特征与传统模型特征融合，结合用户无关和用户特定的评论排序辅助任务进行多目标优化。该数据集特别适用于验证视频推荐场景下的停留时间预测模型，其时间划分策略能有效模拟真实场景的冷启动问题，在线A/B测试表明应用该数据集可使评论停留时间提升1.27%。

背景与挑战

背景概述

KuaiComt数据集由快手科技有限公司的研究团队于2025年发布，旨在解决短视频平台中用户评论停留时间预测这一新兴研究问题。作为首个专注于评论交互行为的大规模公开数据集，它采集自快手平台2023年10月的真实用户交互日志，包含34,701名用户与82,452个视频的1,600余万条评论交互数据。该数据集创新性地将视频内容特征、用户行为轨迹和细粒度评论语义相结合，为理解用户参与评论区的复杂行为模式提供了全新视角。其核心价值在于突破了传统观看时长预测的局限，通过捕捉用户对单条评论的互动信号及其关联性，推动了推荐系统从内容消费到社交互动的研究范式转变。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决评论停留时间与视频观看时长之间的非线性关联建模难题，包括用户对热门评论的注意力分配机制、交互行为的边际效应递减特性等复杂模式；在构建过程中，需处理海量异构数据融合的技术挑战，包括评论文本的语义理解偏差消除、用户隐私保护与数据匿名化之间的平衡，以及正负样本极度不均衡（仅保留正向反馈）导致的建模偏差。特别地，如何通过LLM增强的评论理解来捕捉隐含的社交信号，以及如何设计有效的辅助任务来提升停留时间预测的细粒度准确性，构成了方法论层面的核心挑战。

常用场景

经典使用场景

KuaiComt数据集在短视频平台推荐系统的研究中扮演了关键角色，尤其在用户评论行为分析方面。该数据集通过捕捉用户在快手平台上与视频评论的交互行为，包括停留时间、点赞和回复等细粒度信号，为研究用户参与度提供了丰富的数据支持。其经典使用场景包括预测用户在评论区的停留时间，以及分析评论质量对用户行为的影响。

解决学术问题

KuaiComt数据集解决了短视频平台中用户评论行为建模的多个学术问题。首先，它填补了评论停留时间预测这一研究空白，传统方法主要关注视频观看时长，而忽略了评论区的复杂交互。其次，该数据集通过整合大型语言模型（LLMs）的文本理解能力，解决了评论内容语义分析的难题。此外，它还提供了用户-评论交互的细粒度数据，支持个性化推荐算法的开发。

实际应用

在实际应用中，KuaiComt数据集为短视频平台的推荐系统优化提供了重要依据。通过分析用户停留时间与评论质量、交互次数的关系，平台可以更精准地推荐吸引用户的评论内容，从而提升用户参与度和平台粘性。例如，快手平台已利用该数据集的成果进行A/B测试，显著提高了用户在评论区的停留时间和互动次数。

数据集最近研究