content-behavior-corpus

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/behavior-in-the-wild/content-behavior-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Content Behavior Corpus (CBC) 数据集包含内容及其相应的接收者行为。该数据集利用 YouTube 这一公开的大规模内容-行为数据源，包括：传播者数据（频道名称和订阅者数量）、消息（YouTube 视频ID、提取的语音、场景式字幕、屏幕上的文本、视频描述、视频长度、上传日期）、接收者效应（视频点赞数、观看次数和重播图）。这些数据涵盖了传播的五个要素，其中频道固定为 YouTube，接收者为平均频道订阅者和观众。

创建时间：

2024-07-24

原始信息汇总

数据集概述

数据集信息

特征

video_id (string): 视频的唯一标识符。
asr_raw (list of objects): 原始自动语音识别（ASR）数据。
- start (float64): ASR 片段的开始时间。
- end (float64): ASR 片段的结束时间。
- text (string): ASR 片段的转录文本。
- words (list of objects): 单词级别的 ASR 详细信息。
  - confidence (float64): ASR 单词的置信度分数。
  - start (float64): 单词的开始时间。
  - end (float64): 单词的结束时间。
  - text (string): 单词的转录文本。
asr_grouped (list of lists of strings): 按重播片段分组的 ASR 转录文本。
ocr (list of lists of strings): 每个重播片段的光学字符识别（OCR）数据。
blip2_annotations (object): 视频重播片段的 BLIP-2 注释。
- actions (list of strings): 每个重播片段中识别的动作列表。
- captions (list of strings): 每个重播片段生成的图像字幕列表。
- objects (list of strings): 每个重播片段中识别的对象列表。
replay_graphs (object): 与视频重播行为相关的数据。
- original_marker_duration (float64): 重播片段的原始持续时间。
- processed_marker_duration (float64): 重播片段的处理后持续时间。
- multiplier (float64): 原始重播片段合并为处理后重播片段的倍数。
- markers (list of objects): 重播片段。
  - start (float64): 重播片段的开始时间。
  - end (float64): 重播片段的结束时间。
  - replay_score (float64): 重播行为的得分（范围为 [0, 1]）。
likes (float64): 视频获得的点赞数。
views (float64): 视频获得的观看次数。
metadata (object): 与视频相关的元数据。
- title (string): 视频的标题。
- description (string): 视频的描述。
- length (float64): 视频的长度（以秒为单位）。
- date (string): 视频的发布日期。
channel_data (object): YouTube 频道的信息。
- channel_id (string): 频道的唯一标识符。
- company_name (string): 拥有频道的公司或个人名称。
- subscribers (float64): 频道的订阅者数量。

数据分割

train
- num_bytes: 396758465
- num_examples: 22569
test
- num_bytes: 35343326
- num_examples: 2026

数据集大小

download_size: 135245985
dataset_size: 432101791

配置

config_name: default
- data_files:
  - train: data/train-*
  - test: data/test-*

许可证

license: MIT

名称和标签

pretty_name: Content Behavior Corpus
language: en
tags: youtube, content, behavior, likes, views, transcript, captions, OCR, replay

数据收集和处理

数据收集

videos: 使用 pytube 下载。
asr_raw: 使用 openai/whisper-medium 和 whisper-timestamped 库提取。
asr_grouped: 从 asr_raw 中提取的单词按重播片段分组。
ocr: 使用 PaddleOCR 提取。
blip2_annotations: 使用 blip2-flan-t5-xxl 提取。
replay_graphs: 通过直接解析视频页面的 HTML 内容提取。
likes: 通过直接解析视频页面的 HTML 内容提取。
views: 通过直接解析视频页面的 HTML 内容提取。
metadata: 通过直接解析视频页面的 HTML 内容提取。
channel_data: 通过直接解析视频页面的 HTML 内容提取。

引用

BibTeX

@inproceedings{ khandelwal2024large, title={Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior}, author={Ashmit Khandelwal and Aditya Agrawal and Aanisha Bhattacharyya and Yaman Kumar and Somesh Singh and Uttaran Bhattacharya and Ishita Dasgupta and Stefano Petrangeli and Rajiv Ratn Shah and Changyou Chen and Balaji Krishnamurthy}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://arxiv.org/abs/2309.00359} }

APA

Khandelwal, A., Agrawal, A., Bhattacharyya, A., Kumar, Y., Singh, S., Bhattacharya, U., Dasgupta, I., Petrangeli, S., Shah, R. R., Chen, C., & Krishnamurthy, B. (2024). Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior. The Twelfth International Conference on Learning Representations. https://arxiv.org/abs/2309.00359

联系

email: behavior-in-the-wild@googlegroups.com

搜集汇总

数据集介绍

构建方式

Content Behavior Corpus（CBC）数据集的构建基于YouTube平台，通过自动化工具和技术手段从视频中提取多模态数据。视频数据通过pytube库下载，语音识别（ASR）使用OpenAI的Whisper模型及其时间戳扩展库进行处理，光学字符识别（OCR）则通过PaddleOCR完成。BLIP-2模型用于生成视频回放片段的注释，包括动作、字幕和对象识别。回放行为数据通过解析视频页面的HTML内容获取，并结合原始回放片段生成处理后的回放图。视频的点赞、观看次数、元数据及频道信息均通过直接解析视频页面提取。

使用方法

CBC数据集适用于内容行为分析、推荐系统优化及大规模语言模型的训练。研究人员可通过视频ID访问具体视频的多模态数据，结合语音识别、光学字符识别及BLIP-2注释分析视频内容。回放行为图和接收者行为数据（如点赞和观看次数）可用于研究用户行为模式。数据集的结构化设计支持直接用于机器学习模型的训练与评估，同时也可作为基准数据集用于内容行为模型的开发与验证。

背景与挑战

背景概述

Content Behavior Corpus（CBC）数据集由Ashmit Khandelwal等研究人员于2023年提出，旨在通过YouTube平台上的视频内容及其对应的观众行为数据，探索内容与行为之间的关联。该数据集涵盖了视频的自动语音识别（ASR）、光学字符识别（OCR）、场景标注、回放行为等多维度信息，并结合了视频的点赞、观看次数等观众反馈数据。CBC数据集的构建基于YouTube这一公开平台，提供了丰富的内容与行为数据，填补了现有大规模数据集在接收者行为信息上的空白。该数据集的研究成果已在国际学习表示会议（ICLR 2024）上发表，为内容行为建模领域提供了重要的数据支持。

当前挑战

CBC数据集在构建和应用过程中面临多重挑战。首先，数据采集的复杂性较高，需从YouTube视频中提取多模态信息，包括ASR、OCR、回放行为等，这对数据处理工具和算法的精度提出了较高要求。其次，数据标注的准确性依赖于自动化的工具，如Whisper、PaddleOCR和BLIP-2等，这些工具在不同语言、场景下的表现可能存在差异，影响数据的可靠性。此外，数据集中的观众行为数据（如点赞、观看次数）可能受到平台算法、用户偏好等因素的影响，导致数据偏差。最后，如何将内容与行为数据有效结合，构建能够模拟和优化内容行为的模型，仍是该领域亟待解决的核心问题。

常用场景

经典使用场景

Content Behavior Corpus（CBC）数据集在内容与接收者行为建模领域具有广泛的应用。该数据集通过整合YouTube视频的自动语音识别（ASR）、光学字符识别（OCR）以及视频重放行为数据，为研究者提供了一个多模态的内容分析平台。经典使用场景包括视频内容的情感分析、观众行为预测以及视频推荐系统的优化。通过分析视频的转录文本、字幕、重放行为以及观众的点赞和观看数据，研究者能够深入理解内容与观众行为之间的复杂关系。

解决学术问题

CBC数据集解决了内容与接收者行为之间的关联建模问题。传统的大规模文本数据集虽然提供了丰富的内容信息，但缺乏对接收者行为的详细记录。CBC通过整合YouTube视频的多模态数据，填补了这一空白。它不仅为研究者提供了内容与行为之间的关联数据，还为大规模语言模型（LLMs）的训练提供了新的视角。通过分析视频的转录、重放行为以及观众的反馈，研究者能够更好地理解内容如何影响观众的行为，从而推动内容生成与优化领域的研究。

实际应用

CBC数据集在实际应用中具有广泛的价值。例如，在视频推荐系统中，通过分析视频的重放行为和观众的点赞数据，平台可以更精准地推荐符合用户兴趣的内容。此外，该数据集还可用于广告投放优化，通过分析观众对不同内容的反应，广告商可以更有效地定位目标受众。在教育领域，CBC数据集可以帮助教育视频制作者了解哪些内容更受学生欢迎，从而优化教学材料的制作。

数据集最近研究