CHAI
收藏CHAI 数据集概述
数据集简介
CHAI(Critique-based Human-AI)是一个基于人类-AI协作监督框架的视频语言数据集,旨在提升视频描述的精确性。该数据集由卡内基梅隆大学、哈佛大学和苹果公司联合开发,相关论文被CVPR 2026接收为Highlight论文。
核心任务
数据集围绕以下三个任务构建:
- 描述生成(Caption Generation):模型直接生成高质量视频描述
- 评论生成(Critique Generation):模型对已有描述生成批判性评论
- 奖励建模(Reward Modeling):模型判断候选描述是否与视频内容对齐(二分类“是/否”)
数据组成
所有评估数据位于仓库的 eval_data/ 目录下,包含以下文件:
1. test_split.json
原始评估数据,每条包含:
- 视频路径
- 模型生成的预描述(pre-caption)
- 人工撰写的评论(critique)
- 修订后的最终描述(post-caption)
- 预描述评分(1-5分)
- 描述类型(如:主体、场景、运动、空间、镜头)
- 关联元数据
2. eval_caption_generation_test.json
描述生成任务的格式化数据:
- 输入:视频 + 任务指令
- 输出:最终描述(post-caption)
3. eval_critique_generation_test.json
评论生成任务的格式化数据:
- 输入:视频 + 任务指令 + 待评论的描述
- 输出:评论
- 对于评分低于5的预描述,生成两条训练样本:
- 预描述 + 人工评论
- 最终描述 + “完美描述”哨兵评论
4. eval_caption_yes_or_no_test.json
奖励建模任务的格式化数据:
- 输入:视频 + 任务指令 + 候选描述
- 输出:“是”或“否”
- 对于评分低于5的预描述,生成两条样本:
- 最终描述为正例(“是”)
- 预描述为负例(“否”)
技术细节
- 描述规范:涵盖主体、场景、运动、空间布局和镜头动态五个维度
- 视觉原型:基于数百个与专业电影制作人合作开发的视觉原型
- 模型训练:支持通过SFT、DPO和推理时扩展技术,在Qwen3-VL等开源VLM上提升性能
引用信息
bibtex @inproceedings{chai2026, title = {Building a Precise Video Language with Human--AI Oversight}, author = {Zhiqiu Lin and Chancharik Mitra and Siyuan Cen and Isaac Li and Yuhan Huang and Yu Tong Tiffany Ling and Hewei Wang and Irene Pi and Shihang Zhu and Ryan Rao and George Liu and Jiaxi Li and Ruojin Li and Yili Han and Yilun Du and Deva Ramanan}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2026} }
联系方式
- Zhiqiu Lin:zhiqiulin98@gmail.com
- Chancharik Mitra:cmitra@andrew.cmu.edu
- 也可通过GitHub Issue联系
资助信息
该工作受美国国家科学基金会研究生研究奖学金计划支持(Grant No. DGE2140739)。




