DynaMath_Sample

Hugging Face2024-11-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/DynaMath/DynaMath_Sample

下载链接

链接失效反馈

官方服务：

资源简介：

DynaMath 是一个动态基准数据集，旨在评估视觉语言模型（VLMs）的数学推理鲁棒性。该数据集包含501个种子问题，每个问题都以Python程序的形式表示，能够生成大量具有多样视觉和文本变化的实际问题。数据集包含10个样本变体，每个变体包含501个问题，这些变体由种子问题生成。问题涵盖了包括解析几何、统计学、算术、谜题、立体几何、图论和高级推理等多个主题。该数据集旨在测试VLMs在不同问题条件下的泛化能力。

创建时间：

2024-10-27

原始信息汇总

DynaMath 数据集概述

数据集详情

语言

英语 (en)

规模

数据集大小：1K < n < 10K

任务类别

多选题 (multiple-choice)
视觉问答 (visual-question-answering)
文本生成 (text-generation)

配置

配置名称：default
- 数据文件路径：
  - sample_variant1: data/sample1-*
  - sample_variant2: data/sample2-*
  - sample_variant3: data/sample3-*
  - sample_variant4: data/sample4-*
  - sample_variant5: data/sample5-*
  - sample_variant6: data/sample6-*
  - sample_variant7: data/sample7-*
  - sample_variant8: data/sample8-*
  - sample_variant9: data/sample9-*
  - sample_variant10: data/sample10-*

数据集信息

配置名称：default
- 特征：
  - id: string
  - question: string
  - image: string
  - decoded_image: image
  - ground_truth: string
  - answer_type: string
  - subject: string
  - knowledge_level: string

数据集分割

sample_variant1
- 字节数：18317120
- 样本数：501
- 下载大小：18317120
- 数据集大小：183231230
sample_variant2
- 字节数：18346173
- 样本数：501
- 下载大小：18346173
- 数据集大小：183231230
sample_variant3
- 字节数：18443285
- 样本数：501
- 下载大小：18443285
- 数据集大小：183231230
sample_variant4
- 字节数：18264466
- 样本数：501
- 下载大小：18264466
- 数据集大小：183231230
sample_variant5
- 字节数：18208335
- 样本数：501
- 下载大小：18208335
- 数据集大小：183231230
sample_variant6
- 字节数：18408086
- 样本数：501
- 下载大小：18408086
- 数据集大小：183231230
sample_variant7
- 字节数：18234696
- 样本数：501
- 下载大小：18234696
- 数据集大小：183231230
sample_variant8
- 字节数：18381180
- 样本数：501
- 下载大小：18381180
- 数据集大小：183231230
sample_variant9
- 字节数：18343570
- 样本数：501
- 下载大小：18343570
- 数据集大小：183231230
sample_variant10
- 字节数：18284319
- 样本数：501
- 下载大小：18284319
- 数据集大小：183231230

许可证

Apache 2.0

数据集使用

数据集为动态基准，包含501个种子问题的10个变体样本。
鼓励用户使用GitHub上的数据集生成器生成随机数据集。

引用

@misc{zou2024dynamathdynamicvisualbenchmark, title={DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models}, author={Chengke Zou and Xingang Guo and Rui Yang and Junyu Zhang and Bin Hu and Huan Zhang}, year={2024}, eprint={2411.00836}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.00836}, }

搜集汇总

数据集介绍

构建方式

DynaMath_Sample数据集的构建过程分为两个主要阶段：种子问题收集与基于程序的问题生成。在种子问题收集阶段，研究团队从现有的视觉数学数据集和公开资源中精心挑选了501个高质量的多主题种子问题，涵盖了解析几何、统计学、算术、图论等多个领域。在基于程序的问题生成阶段，每个种子问题被转化为一个精心设计的Python程序，通过这些程序能够自动生成具有多样化视觉和文本变体的具体问题，从而形成一个动态的视觉数学基准。

特点

DynaMath_Sample数据集的特点在于其动态性和多样性。该数据集包含501个种子问题，每个种子问题生成了10个变体，共计5,010个具体问题。这些变体通过Python程序自动生成，确保了问题在视觉和文本上的多样性。数据集涵盖了广泛的数学主题，并提供了丰富的视觉上下文，能够全面评估视觉语言模型在数学推理任务中的鲁棒性和泛化能力。

使用方法

DynaMath_Sample数据集的使用方法灵活多样。用户可以通过Hugging Face的`datasets`库加载整个数据集或特定的变体。加载后，数据集的结构包含`id`、`question`、`image`、`decoded_image`、`ground_truth`、`answer_type`、`subject`和`knowledge_level`等字段，便于用户进行进一步的分析和模型评估。此外，研究团队鼓励用户使用其GitHub站点上的数据集生成器，生成随机数据集以进行更广泛的测试。

背景与挑战

背景概述

DynaMath_Sample数据集由Chengke Zou等研究人员于2024年提出，旨在评估视觉语言模型（VLMs）在数学推理任务中的鲁棒性。该数据集的核心研究问题在于解决现有视觉数学基准在评估模型对问题条件变化的适应能力方面的不足。DynaMath通过引入501个高质量的多主题种子问题，每个问题以Python程序的形式呈现，能够自动生成大量具有多样视觉和文本变体的具体问题，从而为VLMs的泛化能力提供了全面的测试平台。该数据集的创建标志着在视觉语言模型数学推理评估领域的重要进展，为相关研究提供了新的视角和工具。

当前挑战

DynaMath_Sample数据集在构建和应用过程中面临多重挑战。首先，数据集旨在解决视觉语言模型在数学推理任务中的鲁棒性问题，然而，现有模型在处理问题条件变化时表现出的不一致性仍然是一个显著的挑战。其次，在数据集的构建过程中，研究人员需要从多个现有视觉数学数据集中筛选和整合种子问题，并确保这些问题的复杂性和多样性适合程序化生成。此外，将每个种子问题转化为Python程序以实现动态生成，需要高度的技术精确性和对数学问题的深刻理解。这些挑战共同构成了DynaMath_Sample数据集在推动视觉语言模型数学推理能力评估方面的重要障碍。

常用场景

经典使用场景

DynaMath_Sample数据集在视觉语言模型（VLMs）的数学推理能力评估中具有重要应用。该数据集通过动态生成多样化的数学问题，涵盖了从基础算术到高级几何的多个主题，为研究者提供了一个全面的测试平台。其经典使用场景包括评估模型在不同视觉和文本条件下的推理一致性，以及模型在面对问题变体时的泛化能力。

衍生相关工作

DynaMath_Sample数据集衍生了一系列相关研究，特别是在视觉语言模型的数学推理能力评估方面。基于该数据集的研究工作包括开发新的评估指标、设计更高效的训练方法以及探索模型在不同数学主题上的表现。这些研究进一步推动了视觉语言模型在数学推理领域的发展，并为未来的研究提供了丰富的参考。

数据集最近研究