qualcomm-interactive-cooking-dataset-counterfactual-mistakes
收藏数据集概述:Qualcomm Interactive Cooking Dataset: Counterfactual Mistakes
该数据集是一个用于交互式烹饪指导的合成数据集,包含错误干预注释。每条记录对应一个视频片段,并配有指令/反馈文本对及其时间戳。
基本信息
- 许可证:研究目的专用,需遵守 Qualcomm Interactive Cooking Dataset 的许可条款(具体见 LICENSE 文件)。
- 语言:英语
- 任务类别:文本生成
- 标签:流式处理、视频、文本、多模态、烹饪
- 注释创建者:机器生成
- 多语言性:单语
- 来源数据集:原始数据
- 数据规模:10,000 < 样本数 < 100,000
数据集组成
- 总行数:25,087
- 唯一视频数(数据集 + video_id):1,110
- 按来源数据集划分:
CaptainCook4D:4,969 行Ego4D:13,847 行Ego-Exo4D:6,271 行
数据收集过程
数据集使用 Qwen3-VL-32B-Instruct 和 Gemini-2.5-Pro 模型生成。
数据格式
数据文件为 annotations.json,每条记录的结构如下:
json { "dataset": "Ego4D", "video_id": "39d087b0-afc2-47d8-ba91-b70dd8fab90e", "start_time": 1191.26881, "end_time": 1204.66377, "mistake_type": "preparation_error", "texts": [ "Microwave the water until boiling.", "For this step, please boil the water in the microwave instead of on the stovetop." ], "text_timestamps": [1191.26881, 1196.26881], "text_types": ["Instruction", "Feedback"] }
- 字段说明:
dataset:来源数据集名称video_id:视频唯一标识符start_time/end_time:视频片段的起止时间(秒)mistake_type:错误类型(如preparation_error)texts:文本列表,通常包含指令和反馈text_timestamps:每条文本对应的时间戳(秒)text_types:每条文本的类型(如"Instruction","Feedback")
数据配置
- 配置名称:
default - 划分:仅包含
train拆分,共 25,087 个样本 - 特征:
dataset(字符串)video_id(字符串)start_time(浮点数)end_time(浮点数)mistake_type(字符串)texts(字符串序列)text_timestamps(浮点数序列)text_types(字符串序列)
使用示例
python from datasets import load_dataset
ds = load_dataset("qualcomm/qualcomm-interactive-cooking-dataset-counterfactual-mistakes", split="train")
row = ds[0] source_dataset = row["dataset"] video_id = row["video_id"] texts = row["texts"] text_types = row["text_types"] text_timestamps = row["text_timestamps"]
引用
若使用该数据集,请引用以下论文:
bibtex @inproceedings{interactivecooking, title = {Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?}, author = {Apratim Bhattacharyya and Bicheng Xu and Sanjay Haresh and Reza Pourreza and Litian Liu and Sunny Panchal and Leonid Sigal and Roland Memisevic}, booktitle = {NeurIPS}, year = {2025} }




