qijimrc/CoMDataset
收藏Hugging Face2024-06-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/qijimrc/CoMDataset
下载链接
链接失效反馈官方服务:
资源简介:
我们开源了**自动合成的CoM数据**和**手动注释的CoM-Math数据**,以促进潜在的研究。自动合成的CoM数据(即`com.jsonl`)包含84K个正向推理链,这些数据是通过一个自动化数据生成管道生成的,该管道使用了基于GPT-4的语言模型生成语言解决步骤,并基于VFMs(如GroundingDINO和PaddleOCR)进行视觉证据补偿。我们在TextVQA的验证集上运行了相同的管道,构建了一个包含8K推理链的证据推理基准(即`com_test.jsonl`),以验证推理路径的正确性。我们进一步手动注释了7K个高质量的几何问题样本(即`com_math.jsonl`),并提供了证据推理过程,以推动视觉语言模型在解决复杂数学问题方面的研究。这些数据集的parquet格式副本已放置在*data/*文件夹中,便于使用HuggingFace的*load_dataset()*函数加载。
我们开源了**自动合成的CoM数据**和**手动注释的CoM-Math数据**,以促进潜在的研究。自动合成的CoM数据(即`com.jsonl`)包含84K个正向推理链,这些数据是通过一个自动化数据生成管道生成的,该管道使用了基于GPT-4的语言模型生成语言解决步骤,并基于VFMs(如GroundingDINO和PaddleOCR)进行视觉证据补偿。我们在TextVQA的验证集上运行了相同的管道,构建了一个包含8K推理链的证据推理基准(即`com_test.jsonl`),以验证推理路径的正确性。我们进一步手动注释了7K个高质量的几何问题样本(即`com_math.jsonl`),并提供了证据推理过程,以推动视觉语言模型在解决复杂数学问题方面的研究。这些数据集的parquet格式副本已放置在*data/*文件夹中,便于使用HuggingFace的*load_dataset()*函数加载。
提供机构:
qijimrc
原始信息汇总
数据集概述
基本信息
- 数据集名称: CoM
- 语言: 英语
- 许可证: CC BY-SA 4.0
- 多语言性: 单语种
- 数据集大小: 7K<n<100K
- 源数据集: 原始数据
- 任务类别: 视觉问答 (Visual Question Answering)
- 任务ID: 视觉问答 (Visual Question Answering)
- 标签: 视觉推理, 操作链, 视觉问答, 多模态问答, 几何推理, 科学, 合成视觉问答数据
数据集配置
- 默认配置:
- 数据文件:
com:data/com.parquetcom_test:data/com_test.parquetcom_math:data/com_math.parquet
- 数据文件:
数据集信息
- 特征:
pid: 问题ID (int64)image_path: 图像路径 (string)decoded_image: 解码图像 (image)question: 问题 (string序列)answer: 答案 (string)com_founds: 找到的金答案的树节点 (string序列)final_com: 最终的操作链 (string)
- 分割:
com: 15207834 字节, 80827 样本com_test: 1304599 字节, 4518 样本com_math: 268245404 字节, 6998 样本
- 下载大小: 9646018515 字节
- 数据集大小: 284757837 字节
数据集描述
- 自动合成CoM数据: 包含84K正向推理链,由自动化数据生成管道产生,基于LLM(GPT-4)的语言解决步骤生成和VFMs(GroundingDINO, PaddleOCR)的视觉证据补偿。
- 手动注释CoM-Math数据: 包含7K高质量几何问题样本,带有证据推理过程。
数据示例
- 自动合成数据: 包含80827个问题,产生84K推理链。
- 自动合成测试数据: 包含4518个问题,产生8K推理链。
- 手动注释数学数据: 包含6998个问题,产生7K推理链。
数据格式
- 每个样本包含:
pid: 问题IDimage_path: 图像路径question: 问题文本answer: 正确答案com_founds: 找到金答案的树节点final_com: 当前操作链的详细信息cropped: 是否使用CropZoomIn操作
数据来源
- CoM和CoM-test: 源自ST-VQA, TextVQA, TDIUC数据集。
- CoM-Math: 源自MathVista数据集,并进一步手动注释。
许可证
- 新贡献: 遵循CC BY-SA 4.0许可证。
- 版权: 图像、问题和答案的版权归原作者所有。
- 用途: 主要用于训练集和测试集。
- 商业用途: 可用于商业目的的训练集和测试集。
引用
-
BibTeX:
@article{qi2024cogcom, title={CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations}, author={Qi, Ji and Ding, Ming and Wang, Weihan and Bai, Yushi and Lv, Qingsong and Hong, Wenyi and Xu, Bin and Hou, Lei and Li, Juanzi and Dong, Yuxiao and Tang, Jie}, journal={arXiv preprint arXiv:2402.04236}, year={2024} }



