HIPPO-video

Hugging Face2025-07-21 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/jeongeunnn/HIPPO-video

下载链接

链接失效反馈

官方服务：

资源简介：

HIPPO-VIDEO数据集是一个包含2,040个模拟YouTube观看历史的集合，每个历史由LLM驱动的用户模拟器生成，包含10个视频，模拟用户从特定主题、子主题、意图和初始查询的观看行为。

创建时间：

2025-07-16

原始信息汇总

HIPPO-VIDEO数据集概述

📌 数据集基本信息

名称: HIPPO-VIDEO Dataset
简介: 由基于大型语言模型(LLM)的用户模拟器生成的模拟YouTube观看历史记录
提出论文: COLM 2025论文《HIPPO-VIDEO: Simulating Watch Histories with Large Language Models for History-Driven Video Highlighting》
许可证: Apache 2.0 License

📊 数据规模与结构

总记录数: 2,040条模拟YouTube观看历史
每条历史内容: 包含10个视频
组织方式: 四层目录结构
- 层级: {topic}/{sub_topic}/{intent}/{initial_query}.json
- 分类维度:
  - topic: 高级类别(如"Cooking")
  - sub_topic: 特定兴趣领域(如"Baking")
  - intent: 用户观看目标或情绪(4种类型)
    - amusing
    - emotional
    - informative
    - recent-news
  - initial_query: 用户的首次搜索查询(作为文件名)
分类组合总数:
- 170个topic/sub-topic组合
- 4种intent类型
- 每种组合3个会话

🏷️ 数据特征

特征字段:
- topic (string)
- sub_topic (string)
- intent (string)
- initial_query (string)

📄 文件格式

JSON文件字段:

字段	类型	描述
`topic`	string	主题类别
`sub_topic`	string	子主题
`intent`	string	意图类型
`video sequence`	对象列表	每个观看视频的详细信息
`search queries`	字符串列表	视频跳转间发出的搜索查询

🎯 应用场景

个性化视频高光检测
个性化视频摘要
用户建模和行为模拟研究

📝 示例数据片段

json { "topic": "Cooking", "sub_topic": "Baking", "intent": "amusing", "search queries": ["funny cake decorating fails and successes compilation"], "video sequence": [ { "title": "Cake Decorating Fails and Wins", "video_id": "abc123", "url": "https://youtube.com/watch?v=abc123", "channel": "CakeZone", "description": "...", "view_count": 123456, "duration": 320 } ] }

📜 使用许可

许可证类型: Apache 2.0 License

搜集汇总

数据集介绍

构建方式

在数字媒体与用户行为研究领域，HIPPO-video数据集通过大语言模型驱动的用户模拟器构建了2040条模拟YouTube观看历史。每条历史记录包含10个视频，基于特定主题、子主题、用户意图和初始查询生成，采用四层目录结构组织数据，确保逻辑层次清晰。数据生成过程严格遵循预设的170个主题/子主题组合与4种意图类型，每个组合生成3次会话，最终形成结构化的JSON文件集合。

使用方法

研究者可通过Python标准JSON库直接加载数据文件，路径遵循预设的四层目录结构。典型应用场景包括：基于视频序列分析用户兴趣演化，利用搜索查询构建行为预测模型，或结合视频元数据进行个性化推荐算法验证。数据集目录的层级设计支持灵活的条件筛选，例如特定主题下的所有会话分析，或跨意图类型的对比研究。

背景与挑战

背景概述

HIPPO-video数据集由研究团队在COLM 2025会议上提出，旨在通过大型语言模型（LLM）模拟用户观看行为，生成YouTube观看历史记录。该数据集包含2040条模拟记录，每条记录由10个视频组成，覆盖了170个主题/子主题组合及4种用户意图类型。其核心研究问题聚焦于个性化视频高亮检测、视频摘要生成以及用户行为建模，为推荐系统和用户行为分析领域提供了宝贵的研究资源。

当前挑战

该数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，如何准确捕捉用户多样化的观看意图并生成符合真实行为模式的视频序列，这对个性化推荐算法的泛化能力提出了较高要求；其二，在构建过程中，依赖LLM模拟用户行为可能导致数据偏差，且视频元数据的完整性与真实性校验亦是一项复杂任务。

常用场景

经典使用场景

在个性化视频推荐系统研究中，HIPPO-video数据集通过模拟用户观看历史，为算法开发提供了丰富的训练和测试素材。其多层次的视频序列和搜索查询数据，能够精确还原用户在YouTube平台上的浏览行为，特别适用于历史驱动的视频高亮检测和个性化摘要生成任务。数据集的结构化设计使得研究者能够深入分析用户从初始查询到最终观看决策的完整行为链条。

解决学术问题

该数据集有效解决了用户行为模拟领域的数据稀缺问题，为个性化推荐系统的可解释性研究提供了实验基础。通过涵盖不同主题、子主题和意图的组合，它支持研究者探索用户兴趣演化模式与视频内容特征的关联性。这种基于LLM生成的高质量仿真数据，显著降低了真实用户数据收集的伦理门槛和成本约束，推动了推荐系统领域的算法创新。

实际应用

在实际应用层面，流媒体平台可利用该数据集优化其推荐引擎的上下文感知能力。教育科技公司能够基于不同学习意图的观看模式，开发自适应教学视频系统。广告商则可通过分析情感意图下的视频序列，精准定位用户在不同情绪状态下的商业偏好，实现营销内容的情景化投放。

数据集最近研究