CHAI

github2026-04-21 更新2026-04-29 收录

下载链接：

https://github.com/chancharikmitra/CHAI

下载链接

链接失效反馈

官方服务：

资源简介：

CHAI（基于批判的人机协作）是一个监督框架，它将训练有素的人类专家与模型生成的预标题配对：专家提供纠正性批判，指导修订为改进后的后标题。这种分工将文本生成任务交给模型，使人类能够专注于验证，从而提高准确性和效率。我们发布了基于结构化标题规范的开放数据集、基准和训练配方，涵盖了主题、场景、运动、空间布局和相机动态——这些规范基于与专业电影制作人共同开发的数百个视觉原语。由此产生的批判和偏好为通过SFT、DPO和推理时缩放改进开源VLM（Qwen3-VL）提供了丰富的监督，涵盖三个任务：标题生成、奖励建模和批判生成。

CHAI (Critique-based Human-AI Collaboration) is a supervised framework that pairs trained human experts with model-generated pre-titles: experts provide corrective critiques to guide revisions into refined post-titles. This division of labor delegates text generation tasks to models, enabling humans to focus on validation and thus improving both accuracy and efficiency. We release open datasets, benchmarks, and training recipes based on structured title specifications, which cover topics, scenarios, motions, spatial layouts, and camera dynamics—these specifications are built upon hundreds of visual primitives co-developed with professional filmmakers. The resulting critiques and preferences provide rich supervision for improving open-source VLMs (Qwen3-VL) via SFT, DPO, and inference-time scaling, encompassing three tasks: title generation, reward modeling, and critique generation.

创建时间：

2026-04-10

原始信息汇总

CHAI 数据集概述

数据集简介

CHAI（Critique-based Human-AI）是一个基于人类-AI协作监督框架的视频语言数据集，旨在提升视频描述的精确性。该数据集由卡内基梅隆大学、哈佛大学和苹果公司联合开发，相关论文被CVPR 2026接收为Highlight论文。

核心任务

数据集围绕以下三个任务构建：

描述生成（Caption Generation）：模型直接生成高质量视频描述
评论生成（Critique Generation）：模型对已有描述生成批判性评论
奖励建模（Reward Modeling）：模型判断候选描述是否与视频内容对齐（二分类“是/否”）

数据组成

所有评估数据位于仓库的 eval_data/ 目录下，包含以下文件：

1. `test_split.json`

原始评估数据，每条包含：

视频路径
模型生成的预描述（pre-caption）
人工撰写的评论（critique）
修订后的最终描述（post-caption）
预描述评分（1-5分）
描述类型（如：主体、场景、运动、空间、镜头）
关联元数据

2. `eval_caption_generation_test.json`

描述生成任务的格式化数据：

输入：视频 + 任务指令
输出：最终描述（post-caption）

3. `eval_critique_generation_test.json`

评论生成任务的格式化数据：

输入：视频 + 任务指令 + 待评论的描述
输出：评论
对于评分低于5的预描述，生成两条训练样本：
- 预描述 + 人工评论
- 最终描述 + “完美描述”哨兵评论

4. `eval_caption_yes_or_no_test.json`

奖励建模任务的格式化数据：

输入：视频 + 任务指令 + 候选描述
输出：“是”或“否”
对于评分低于5的预描述，生成两条样本：
- 最终描述为正例（“是”）
- 预描述为负例（“否”）

技术细节

描述规范：涵盖主体、场景、运动、空间布局和镜头动态五个维度
视觉原型：基于数百个与专业电影制作人合作开发的视觉原型
模型训练：支持通过SFT、DPO和推理时扩展技术，在Qwen3-VL等开源VLM上提升性能

引用信息

bibtex @inproceedings{chai2026, title = {Building a Precise Video Language with Human--AI Oversight}, author = {Zhiqiu Lin and Chancharik Mitra and Siyuan Cen and Isaac Li and Yuhan Huang and Yu Tong Tiffany Ling and Hewei Wang and Irene Pi and Shihang Zhu and Ryan Rao and George Liu and Jiaxi Li and Ruojin Li and Yili Han and Yilun Du and Deva Ramanan}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2026} }

联系方式

Zhiqiu Lin：zhiqiulin98@gmail.com
Chancharik Mitra：cmitra@andrew.cmu.edu
也可通过GitHub Issue联系

资助信息

该工作受美国国家科学基金会研究生研究奖学金计划支持（Grant No. DGE2140739）。

搜集汇总

数据集介绍

构建方式

CHAI数据集构建于人类与人工智能协同的监督框架之上，旨在提升视频描述语言的精确性。其构建过程首先利用视频语言模型生成初始预描述，随后由经过专业训练的人类专家提供修正性评判，这些评判详尽指出预描述在主体、场景、运动、空间布局及摄像机动态等维度上的不足。基于评判意见，模型被引导生成经过优化的最终描述。所有数据均源自明确的描述规范，并融合了专业电影制作人开发的数百种视觉原语，从而确保了数据的高质量与结构化。

特点

该数据集的核心特点在于其结构化与多维度的注解体系，覆盖了视频理解的五大关键要素：主体、场景、运动、空间与摄像机。评判数据不仅包含优化前后的描述对比，还附带了1至5分的质量评分，为监督学习提供了丰富的偏好信号。此外，数据集针对生成描述、生成评判和奖励建模三项任务进行了专门格式化，提供了平衡的正负样本，能够有效支持开源视觉语言模型（如Qwen3-VL）通过监督微调、直接偏好优化及推理时扩展进行能力提升。

使用方法

使用CHAI数据集时，研究者可直接访问`eval_data`目录下的结构化JSON文件。对于描述生成任务，使用`eval_caption_generation_test.json`，其中包含视频及其对应最终描述。评判生成任务使用`eval_critique_generation_test.json`，提供视频、描述及人工评判对。奖励建模任务则使用`eval_caption_yes_or_no_test.json`，包含视频与候选描述，模型需回答“是”或“否”以判定描述与视频的对齐程度。用户可将这些数据集加载至标准训练流程中，用于模型的微调、偏好学习或推理优化。

背景与挑战

背景概述

随着视频—语言模型在动态场景理解中的广泛应用，如何生成精准且结构化的视频描述成为核心瓶颈。CHAI数据集由卡内基梅隆大学、哈佛大学和苹果公司的研究团队于2026年提出，旨在通过人类与人工智能协作的监督框架提升视频描述的精确性。该数据集基于一个涵盖主体、场景、运动、空间布局和相机动态的精细标注规范，融合了数百个由专业电影制作人开发的视觉基元，构建了包含预描述、人类修正性批评及改进后最终描述的完整数据流水线。CHAI不仅为视频描述生成提供了高质量的监督信号，更通过奖励建模和批评生成任务推动了开源视觉语言模型（如Qwen3-VL）的优化，其影响力辐射至视频理解、人机协作和数据高效标注等多个前沿领域。

当前挑战

CHAI数据集所解决的领域问题聚焦于视频描述生成中的精确性不足和语义模糊性，传统模型往往无法区分主体、运动或相机动态的细微差异，导致描述要么过于泛化，要么包含事实性错误。数据构建过程中面临的挑战尤为突出：首先，需将专业电影制作人的视觉基元转化为可操作的标注语义，要求标注专家具备极高的领域知识；其次，人类修正性批评的生成需要平衡准确性与效率，设计高效的人机协作流程以确保大规模数据生产的可行性；最后，数据集还需应对多任务适配的复杂性，即同一批原始标注需同时服务于生成、批评和偏好建模任务，这对数据格式的一致性和任务特异性提出了严苛要求。

常用场景

经典使用场景

CHAI数据集的核心应用在于为视频-语言模型提供精细化的监督信号，以提升视频描述生成的准确性与语义粒度。具体而言，该数据集通过结构化标注规范，将视频内容分解为主体、场景、运动、空间布局及镜头动态五个维度，并基于数百个由专业电影制作人定义的视觉基元进行注释。每个视频样本包含模型生成的初始描述（pre-caption）、人类专家撰写的修正性评语（critique）以及最终优化后的描述（post-caption），从而支持模型的生成、评判与修正三种能力训练。这一设计使得CHAI不仅适用于传统视频描述任务，更能在需要高精度与专业表达的复杂场景中发挥关键作用。

解决学术问题

在视频语言理解领域，现有模型生成的描述常存在歧义性、冗余性或缺乏对动态场景的精确刻画，本质上源于训练数据中监督信号的粗粒度与主观偏差。CHAI数据集通过引入人类-人工智能协作的矫正机制，系统性地解决了描述质量评估标准模糊、专家知识难以编码至模型等学术难题。其提供的结构化评语与偏好数据，为视频描述中的细粒度对齐研究提供了可复用的基准，使得开放源视觉语言模型（如Qwen3-VL）能够通过监督微调、直接偏好优化及推理时缩放等技术显著提升对专业级视频内容的语义理解与生成能力，推动了数据驱动的视频理解向精炼化、规范化方向演进。

衍生相关工作

CHAI数据集的提出催生了一系列具有影响力的后续工作。首先，基于其评语与偏好数据，研究者开发了面向视频描述的奖励模型，用于指导生成式模型的训练与选择，形成了从单一生成到生成-评判闭环的范式转变。其次，该数据集中的多维度标注规范被迁移至其他视频理解任务，如细粒度动作识别、空间关系推理及镜头分类，衍生出跨任务的迁移学习框架。此外，人类专家与模型预描述协作的矫正机制启发了交互式视频标注工具的设计，推动了人机协同标注系统的研究热潮。最后，CHAI中关于推理时缩放方法的探索，为大规模语言模型在视频领域的即时适应提供了新思路，相关成果在后续的多模态推理与长视频理解任务中被广泛引用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集