CHAI_testset

Hugging Face2026-05-13 更新2026-05-14 收录

下载链接：

https://huggingface.co/datasets/chancharikm/CHAI_testset

下载链接

链接失效反馈

官方服务：

资源简介：

CHAI（基于批判的人机协同）数据集是一个用于评估精确视频描述监督框架的评估数据集。该框架的核心是让训练有素的人类专家与模型生成的初始描述（称为预描述）协同工作，专家提供修正性的批判意见，从而引导生成改进后的最终描述（称为后描述）。数据集基于一个结构化的描述规范构建，该规范涵盖了视频中的主体、场景、动作、空间布局和摄像机动态等多个维度，其视觉基元由专业电影制作人参与开发。数据集包含多个JSON格式的评估文件，分别用于不同的评估任务：`test_split.json`包含原始评估数据，每条数据包括视频路径、模型生成的预描述、人工撰写的批判、修订后的最终描述（后描述）及相关元数据；`eval_caption_generation_test.json`格式化为描述生成任务，将视频与任务指令及最终描述配对；`eval_critique_generation_test.json`格式化为批判生成任务，将视频、任务指令及待批判的描述配对；`eval_caption_yes_or_no_test.json`格式化为奖励建模（二元对齐评分）任务。该数据集适用于视频到文本的多任务评估，特别是视频描述生成、描述批判生成以及描述质量的对齐评分等研究场景。

The CHAI (Critique-based Human-AI Collaboration) dataset is an evaluation dataset designed to assess a precise video description supervision framework. The core of this framework involves trained human experts collaborating with model-generated initial descriptions (pre-descriptions). Experts provide corrective critiques to guide the generation of improved final descriptions (post-descriptions). The dataset is built on a structured description specification that covers multiple dimensions of videos, including subjects, scenes, actions, spatial layouts, and camera dynamics, with visual primitives developed with input from professional filmmakers. The dataset includes multiple JSON format evaluation files for different tasks: `test_split.json` contains raw evaluation data, each entry comprising video paths, model-generated pre-descriptions, human-written critiques, revised final descriptions (post-descriptions), and related metadata; `eval_caption_generation_test.json` is formatted for description generation tasks, pairing videos with task instructions and final descriptions; `eval_critique_generation_test.json` is formatted for critique generation tasks, pairing videos, task instructions, and descriptions to be critiqued; `eval_caption_yes_or_no_test.json` is formatted for reward modeling (binary alignment scoring) tasks. This dataset is suitable for multi-task evaluation in video-to-text scenarios, particularly for research in video description generation, description critique generation, and alignment scoring of description quality.

创建时间：

2026-04-29

原始信息汇总

数据集概述

CHAI_testset 是一个用于评估视频字幕生成和批评生成的数据集，基于 CHAI (Critique-based Human–AI) 框架构建，旨在通过人类与人工智能协作实现精确的视频语言描述。

数据集任务类别

video-text-to-text：视频到文本的转换任务（视频字幕生成与评价）。

数据集背景

该数据集是为 CHAI 评估系统设计的测试集。CHAI 是一个监督框架，由受过训练的人类专家与模型生成的预字幕配对，专家提供修正性批评，指导模型将预字幕改进为更优的后字幕。数据集基于结构化字幕规范构建，涵盖主体、场景、运动、空间布局和摄像机动态，并借鉴了专业电影制作人的视觉基元。

数据集文件结构

数据集包含以下评估文件：

test_split.json：原始评估数据。每条记录包含视频路径、模型生成的预字幕、人类撰写的批评、修订后的最终字幕（后字幕）及相关元数据。
eval_caption_generation_test.json：为字幕生成任务格式化。将视频与任务指令及最终后字幕配对。
eval_critique_generation_test.json：为批评生成任务格式化。将视频、任务指令及待批评的字幕配对。
eval_caption_yes_or_no_test.json：为奖励建模（二元对齐评分）任务格式化。

数据集使用示例

可使用 Hugging Face CLI 下载完整数据集（包含视频和评估 JSON 文件）：

bash pip install huggingface_hub hf download datasets/chancharikm/CHAI_testset --local-dir ./CHAI_testset

引用

如果您使用了本数据集，请引用以下论文：

@inproceedings{chai2026, title = {Building a Precise Video Language with Human--AI Oversight}, author = {Zhiqiu Lin and Chancharik Mitra and Siyuan Cen and Isaac Li and Yuhan Huang and Yu Tong Tiffany Ling and Hewei Wang and Irene Pi and Shihang Zhu and Ryan Rao and George Liu and Jiaxi Li and Ruojin Li and Yili Han and Yilun Du and Deva Ramanan}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2026} }

搜集汇总

数据集介绍

构建方式

CHAI_testset数据集是为验证CHAI（基于人类-人工智能协作的纠正性监督）框架的有效性而构建的评测数据。其构建过程首先由模型自动生成视频的初步描述（pre-caption），随后由经过专业训练的人类专家对这些预描述进行细致审查并撰写纠正性评论文本（critique）。基于这些批评意见，模型在人类监督指导下对原始描述进行修正，最终生成更为精确的最终描述文本（post-caption）。整个过程严格遵循一套涵盖主体、场景、运动、空间布局及摄像机运镜等维度的结构化描述规范，该规范借鉴了专业电影制作中的视觉基元，确保了数据集在视频语义描述上的专业性与精细度。

特点

该数据集的核心特点在于其独特的三元组结构：每个数据条目均包含模型原始生成的预描述、人类专家撰写的评论文本以及最终修正后的描述，形成了“生成-批评-修正”的完整链条。数据集中内嵌了四种不同任务格式的评测文件，分别服务于描述生成、批评生成、二元对齐评分（奖励建模）等多元任务，极大地方便了研究者从多个维度评估模型性能。此外，数据集中的评论文本由受训的人类专家撰写，蕴含着丰富的语义纠正知识，可作为细粒度监督信号，引导模型学习如何生成更符合人类视觉认知的视频描述。

使用方法

使用该数据集时，研究者可通过Hugging Face命令行工具一键下载包含视频与评测JSON文件的完整数据包。数据集提供了多种形式的评测文件，例如用于描述生成任务的`eval_caption_generation_test.json`将视频与指令及最终描述配对，研究者可直接加载并用于测试模型的描述生成能力；用于批评生成任务的`eval_critique_generation_test.json`则可用于训练模型生成人类风格的评论文本。此外，`eval_caption_yes_or_no_test.json`专门为奖励模型设计，适用于对描述与视频的对齐程度进行二分类打分，为视频理解模型的反馈学习提供了标准化基准。

背景与挑战

背景概述

CHAI_testset数据集诞生于2026年，由卡内基梅隆大学等多机构的研究团队（包括Zhiqiu Lin、Chancharik Mitra等）联合构建，旨在解决视频描述中精确性和结构性的不足。该数据集聚焦于视频到文本生成任务，通过人类与人工智能协作的监督框架，对模型生成的预描述进行专家修正与批评性反馈，从而生成高度精准的后描述。数据集基于专业电影制作人开发的视觉基元，系统性地定义了主体、场景、运动、空间布局与摄影机动态等关键维度，为视频语言建模提供了结构化的标注规范。其研究成果发表于CVPR 2026，对视频理解、人机协作及细粒度描述生成领域产生了显著影响，推动了从粗粒度视频标注向精细化语义描述范式的转变。

当前挑战

该数据集面临的领域挑战在于，现有视频描述模型常缺乏对动态场景中运动轨迹、空间关系及摄影机运动的精确刻画，导致生成文本语义模糊或缺失关键细节。CHAI_testset通过引入基于视觉基元的规范与人类专家批评机制，力图弥合机器学习与专业视频语言之间的鸿沟。构建过程中，团队需设计高效的批评引导流程，使人类专家能快速识别模型生成描述中的瑕疵，并确保修正意见具有一致性与可复现性。此外，数据采集需平衡视频多样性、标注成本与专家培训投入，以建立高质量、可扩展的评估基准，最终实现视频描述从“大致正确”到“精确无误”的质变。

常用场景

经典使用场景

CHAI_testset作为精细视频描述领域的标杆数据集，其核心使用场景在于评估和提升视频描述模型的生成质量。研究人员借助其中包含的专家修正性批评与迭代修订过程，可系统性地比较模型生成的初始描述（预字幕）与经过人类反馈优化后的最终描述（后字幕），从而量化模型在捕捉主体、场景、运动、空间布局及镜头动态等关键视觉要素上的精度。这一数据集尤其适合作为视频描述生成任务的标准测试平台，支持对模型细粒度语义理解与表达能力的深度剖析。

衍生相关工作

CHAI_testset的发布催生了多项具有深远影响的衍生研究。经典工作如基于该数据集的批评生成任务，有效训练了能识别描述漏洞的辅助模型，形成反馈闭环并提升初始生成质量。同时，其奖励建模任务为视频描述中的二元对齐打分提供了基准，启发了多项探索人类偏好对齐的研究，例如融合序惯偏好优化的描述策略。此外，该数据集的结构化字幕规范被后续工作扩展为通用视频语言基元库，推动精细语义标注与跨模态推理的标准化进程，形成了以CHAI为核心的知识外溢效应。

数据集最近研究