qijimrc/CoMDataset

Name: qijimrc/CoMDataset
Creator: qijimrc
Published: 2024-06-15 09:21:13
License: 暂无描述

Hugging Face2024-06-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/qijimrc/CoMDataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们开源了**自动合成的CoM数据**和**手动注释的CoM-Math数据**，以促进潜在的研究。自动合成的CoM数据（即`com.jsonl`）包含84K个正向推理链，这些数据是通过一个自动化数据生成管道生成的，该管道使用了基于GPT-4的语言模型生成语言解决步骤，并基于VFMs（如GroundingDINO和PaddleOCR）进行视觉证据补偿。我们在TextVQA的验证集上运行了相同的管道，构建了一个包含8K推理链的证据推理基准（即`com_test.jsonl`），以验证推理路径的正确性。我们进一步手动注释了7K个高质量的几何问题样本（即`com_math.jsonl`），并提供了证据推理过程，以推动视觉语言模型在解决复杂数学问题方面的研究。这些数据集的parquet格式副本已放置在*data/*文件夹中，便于使用HuggingFace的*load_dataset()*函数加载。

提供机构：

qijimrc

原始信息汇总

数据集概述

基本信息

数据集名称: CoM
语言: 英语
许可证: CC BY-SA 4.0
多语言性: 单语种
数据集大小: 7K<n<100K
源数据集: 原始数据
任务类别: 视觉问答 (Visual Question Answering)
任务ID: 视觉问答 (Visual Question Answering)
标签: 视觉推理, 操作链, 视觉问答, 多模态问答, 几何推理, 科学, 合成视觉问答数据

数据集配置

默认配置:
- 数据文件:
  - com: data/com.parquet
  - com_test: data/com_test.parquet
  - com_math: data/com_math.parquet

数据集信息

特征:
- pid: 问题ID (int64)
- image_path: 图像路径 (string)
- decoded_image: 解码图像 (image)
- question: 问题 (string序列)
- answer: 答案 (string)
- com_founds: 找到的金答案的树节点 (string序列)
- final_com: 最终的操作链 (string)
分割:
- com: 15207834 字节, 80827 样本
- com_test: 1304599 字节, 4518 样本
- com_math: 268245404 字节, 6998 样本
下载大小: 9646018515 字节
数据集大小: 284757837 字节

数据集描述

自动合成CoM数据: 包含84K正向推理链，由自动化数据生成管道产生，基于LLM（GPT-4）的语言解决步骤生成和VFMs（GroundingDINO, PaddleOCR）的视觉证据补偿。
手动注释CoM-Math数据: 包含7K高质量几何问题样本，带有证据推理过程。

数据示例

自动合成数据: 包含80827个问题，产生84K推理链。
自动合成测试数据: 包含4518个问题，产生8K推理链。
手动注释数学数据: 包含6998个问题，产生7K推理链。

数据格式

每个样本包含:
- pid: 问题ID
- image_path: 图像路径
- question: 问题文本
- answer: 正确答案
- com_founds: 找到金答案的树节点
- final_com: 当前操作链的详细信息
- cropped: 是否使用CropZoomIn操作

数据来源

CoM和CoM-test: 源自ST-VQA, TextVQA, TDIUC数据集。
CoM-Math: 源自MathVista数据集，并进一步手动注释。

许可证

新贡献: 遵循CC BY-SA 4.0许可证。
版权: 图像、问题和答案的版权归原作者所有。
用途: 主要用于训练集和测试集。
商业用途: 可用于商业目的的训练集和测试集。

引用

BibTeX:

@article{qi2024cogcom, title={CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations}, author={Qi, Ji and Ding, Ming and Wang, Weihan and Bai, Yushi and Lv, Qingsong and Hong, Wenyi and Xu, Bin and Hou, Lei and Li, Juanzi and Dong, Yuxiao and Tang, Jie}, journal={arXiv preprint arXiv:2402.04236}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集