qualcomm-interactive-cooking-dataset-ego-mistake-corrections
收藏数据集概述
数据集名称: Qualcomm Interactive Cooking Dataset: Ego Mistake Corrections Benchmark
数据集地址: https://huggingface.co/datasets/qualcomm/qualcomm-interactive-cooking-dataset-ego-mistake-corrections
数据集语言: 英语
任务类型: 视频-文本到文本(video-text-to-text)
标签: streaming, video, text, multimodal, cooking
注释来源: 专家生成
多语言性: 单语言
来源数据集: 原创
数据集规模: 1K < n < 10K
数据集内容
- 包含烹饪视频,每个视频带有时间戳的指令和反馈,用于任务指导。
- 每一行对应一个视频,提供对齐的文本列表、文本类型列表和时间戳列表。
数据集统计
- 总视频数:40
- 总注释数:1,597
- 文本类型分布:
- Instruction:562
- Success:560
- Feedback:397
- Instruction-Clarification:26
- User-Question:22
- User-Comment:30
数据格式
annotations.json 中的每一行具有以下 JSON 结构:
json { "video_id": "GX010021", "texts": [ "Lets first preheat the oven to 350 degrees Fahrenheit.", "Great Job!" ], "text_types": [ "Instruction", "Success" ], "text_timestamps": [ 4.418, 15.982 ] }
video_id:视频标识符texts:文本列表text_types:文本类型列表text_timestamps:文本对应的时间戳(浮点数,秒)
视频文件路径约定:videos/<video_id>.MP4
数据集分割
- 仅有一个分割:test
- test 分割包含 40 个样本
数据集配置
- 配置名称:
default - 数据文件:
annotations/annotations.json - 特征:
video_id:字符串texts:字符串序列text_types:字符串序列text_timestamps:浮点数序列
使用示例
python from datasets import load_dataset
ds = load_dataset("qualcomm/qualcomm-interactive-cooking-dataset-ego-mistake-corrections", split="test")
row = ds[0] video_id = row["video_id"] texts = row["texts"] text_types = row["text_types"] text_timestamps = row["text_timestamps"]
Video path convention:
f"videos/{video_id}.MP4"
数据集许可
- 仅用于研究目的。
- 使用需遵守 Qualcomm Interactive Cooking Dataset 的许可条款,详见
LICENSE.pdf。
引用信息
bibtex @inproceedings{streamcooking, title = {Streaming Interventions: Can Video LLMs Correct Mistakes as They Occur?}, author = {Apratim Bhattacharyya and Shweta Mahajan and Sanjay Haresh and Risheek Garrepalli and Rajeev Yasarla and Litian Liu and Reza Pourreza and Roland Memisevic}, booktitle = {arXiv}, year = {2026} }




