five

qijimrc/CoMDataset

收藏
Hugging Face2024-06-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/qijimrc/CoMDataset
下载链接
链接失效反馈
官方服务:
资源简介:
我们开源了**自动合成的CoM数据**和**手动注释的CoM-Math数据**,以促进潜在的研究。自动合成的CoM数据(即`com.jsonl`)包含84K个正向推理链,这些数据是通过一个自动化数据生成管道生成的,该管道使用了基于GPT-4的语言模型生成语言解决步骤,并基于VFMs(如GroundingDINO和PaddleOCR)进行视觉证据补偿。我们在TextVQA的验证集上运行了相同的管道,构建了一个包含8K推理链的证据推理基准(即`com_test.jsonl`),以验证推理路径的正确性。我们进一步手动注释了7K个高质量的几何问题样本(即`com_math.jsonl`),并提供了证据推理过程,以推动视觉语言模型在解决复杂数学问题方面的研究。这些数据集的parquet格式副本已放置在*data/*文件夹中,便于使用HuggingFace的*load_dataset()*函数加载。

我们开源了**自动合成的CoM数据**和**手动注释的CoM-Math数据**,以促进潜在的研究。自动合成的CoM数据(即`com.jsonl`)包含84K个正向推理链,这些数据是通过一个自动化数据生成管道生成的,该管道使用了基于GPT-4的语言模型生成语言解决步骤,并基于VFMs(如GroundingDINO和PaddleOCR)进行视觉证据补偿。我们在TextVQA的验证集上运行了相同的管道,构建了一个包含8K推理链的证据推理基准(即`com_test.jsonl`),以验证推理路径的正确性。我们进一步手动注释了7K个高质量的几何问题样本(即`com_math.jsonl`),并提供了证据推理过程,以推动视觉语言模型在解决复杂数学问题方面的研究。这些数据集的parquet格式副本已放置在*data/*文件夹中,便于使用HuggingFace的*load_dataset()*函数加载。
提供机构:
qijimrc
原始信息汇总

数据集概述

基本信息

  • 数据集名称: CoM
  • 语言: 英语
  • 许可证: CC BY-SA 4.0
  • 多语言性: 单语种
  • 数据集大小: 7K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 视觉问答 (Visual Question Answering)
  • 任务ID: 视觉问答 (Visual Question Answering)
  • 标签: 视觉推理, 操作链, 视觉问答, 多模态问答, 几何推理, 科学, 合成视觉问答数据

数据集配置

  • 默认配置:
    • 数据文件:
      • com: data/com.parquet
      • com_test: data/com_test.parquet
      • com_math: data/com_math.parquet

数据集信息

  • 特征:
    • pid: 问题ID (int64)
    • image_path: 图像路径 (string)
    • decoded_image: 解码图像 (image)
    • question: 问题 (string序列)
    • answer: 答案 (string)
    • com_founds: 找到的金答案的树节点 (string序列)
    • final_com: 最终的操作链 (string)
  • 分割:
    • com: 15207834 字节, 80827 样本
    • com_test: 1304599 字节, 4518 样本
    • com_math: 268245404 字节, 6998 样本
  • 下载大小: 9646018515 字节
  • 数据集大小: 284757837 字节

数据集描述

  • 自动合成CoM数据: 包含84K正向推理链,由自动化数据生成管道产生,基于LLM(GPT-4)的语言解决步骤生成和VFMs(GroundingDINO, PaddleOCR)的视觉证据补偿。
  • 手动注释CoM-Math数据: 包含7K高质量几何问题样本,带有证据推理过程。

数据示例

  • 自动合成数据: 包含80827个问题,产生84K推理链。
  • 自动合成测试数据: 包含4518个问题,产生8K推理链。
  • 手动注释数学数据: 包含6998个问题,产生7K推理链。

数据格式

  • 每个样本包含:
    • pid: 问题ID
    • image_path: 图像路径
    • question: 问题文本
    • answer: 正确答案
    • com_founds: 找到金答案的树节点
    • final_com: 当前操作链的详细信息
    • cropped: 是否使用CropZoomIn操作

数据来源

  • CoM和CoM-test: 源自ST-VQA, TextVQA, TDIUC数据集。
  • CoM-Math: 源自MathVista数据集,并进一步手动注释。

许可证

  • 新贡献: 遵循CC BY-SA 4.0许可证。
  • 版权: 图像、问题和答案的版权归原作者所有。
  • 用途: 主要用于训练集和测试集。
  • 商业用途: 可用于商业目的的训练集和测试集。

引用

  • BibTeX:

    @article{qi2024cogcom, title={CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations}, author={Qi, Ji and Ding, Ming and Wang, Weihan and Bai, Yushi and Lv, Qingsong and Hong, Wenyi and Xu, Bin and Hou, Lei and Li, Juanzi and Dong, Yuxiao and Tang, Jie}, journal={arXiv preprint arXiv:2402.04236}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作