ERRORRADAR

Name: ERRORRADAR
Creator: 松鼠AI、香港科技大学(广州)、香港科技大学、密歇根州立大学、中国科学院大学、伊利诺伊大学芝加哥分校
Published: 2024-10-08 14:03:46
License: 暂无描述

arXiv2024-10-08 更新2024-10-12 收录

下载链接：

http://arxiv.org/abs/2410.04509v2

下载链接

链接失效反馈

官方服务：

资源简介：

ERRORRADAR数据集由松鼠AI和香港科技大学等机构联合创建，旨在评估多模态大语言模型在复杂数学推理中的错误检测能力。该数据集包含2500个高质量的多模态K-12数学问题，来源于真实的学生互动数据，经过严格的手动标注和丰富的元数据注释。数据集的创建过程包括从教育组织中收集问题，并通过专业注释者进行详细标注。ERRORRADAR主要应用于教育领域，旨在解决多模态数学推理中的错误检测问题，提升模型的复杂推理能力。

The ERRORRADAR dataset was jointly created by institutions including Squirrel AI and The Hong Kong University of Science and Technology, aiming to evaluate the error detection capabilities of multimodal large language models in complex mathematical reasoning. This dataset contains 2,500 high-quality multimodal K-12 mathematics problems sourced from real student interaction data, with rigorous manual annotations and rich metadata. The dataset construction process includes collecting problems from educational organizations and performing detailed annotations by professional annotators. ERRORRADAR is mainly applied in the education field, aiming to address the error detection challenge in multimodal mathematical reasoning and enhance the complex reasoning capabilities of models.

提供机构：

松鼠AI、香港科技大学(广州)、香港科技大学、密歇根州立大学、中国科学院大学、伊利诺伊大学芝加哥分校

创建时间：

2024-10-06

搜集汇总

数据集介绍

构建方式

ERRORRADAR数据集通过从教育组织中收集的2500个高质量多模态K-12数学问题构建而成。这些问题源自真实的学生互动，经过严格的手动标注，确保了数据的质量。数据集不仅包含问题的文本和图像表示，还详细记录了学生的错误解答及其推理步骤，以及正确的解答过程。此外，数据集还提供了丰富的元数据，如问题类型和错误类别，以全面评估多模态大语言模型在复杂数学推理任务中的能力。

特点

ERRORRADAR数据集的主要特点在于其真实性和复杂性。数据集中的问题和解答均来自实际教学场景，确保了数据的实用性和代表性。此外，数据集通过详细的错误步骤和分类标注，提供了对学生错误解答的深入分析，这有助于模型理解和纠正这些错误。数据集的多样性体现在问题类型的广泛覆盖，包括平面几何、立体几何、图表、代数和数学常识等，以及错误类别的细致划分，如视觉感知错误、计算错误、推理错误、知识错误和问题误解等。

使用方法

ERRORRADAR数据集主要用于评估和提升多模态大语言模型在数学错误检测任务中的表现。研究者和开发者可以使用该数据集进行模型的训练和测试，通过识别和分类错误步骤，来提高模型在复杂数学问题中的推理能力。数据集的详细标注和丰富的元数据为模型的微调和优化提供了坚实的基础。此外，数据集还可以用于开发新的错误检测算法和教学辅助工具，以帮助学生更好地理解和纠正数学问题中的错误。

背景与挑战

背景概述

随着多模态大型语言模型（MLLMs）领域的不断发展，其在解决数学推理任务方面的潜力尤为显著。当前的数学基准主要集中在评估MLLMs的问题解决能力，但在处理更复杂的场景，如错误检测方面存在重要空白。为了填补这一空白，我们正式提出了多模态错误检测这一新任务，并引入了ERRORRADAR，这是首个旨在评估MLLMs在这一任务中能力的基准。ERRORRADAR通过评估错误步骤识别和错误分类两个子任务，提供了一个全面的框架来评估MLLMs的复杂数学推理能力。该基准包含2500个高质量的多模态K-12数学问题，这些问题收集自教育组织中的真实学生互动，并经过严格的标注和丰富的元数据，如问题类型和错误类别。

当前挑战

ERRORRADAR数据集在构建过程中面临多项挑战。首先，解决领域问题的挑战在于如何准确识别和分类数学推理中的错误，这需要对数学概念和认知过程有深入的理解。其次，构建过程中的挑战包括从真实学生互动中收集高质量数据，确保数据的多样性和代表性，以及进行严格的手动标注以保证数据质量。此外，评估MLLMs在错误检测任务中的表现时，发现即使是表现最佳的模型GPT-4o，其准确率仍比人类评估低约10%，这表明在复杂数学推理能力方面仍有显著提升空间。

常用场景

经典使用场景

ERRORRADAR数据集的经典使用场景主要集中在评估多模态大语言模型（MLLMs）在复杂数学推理任务中的错误检测能力。通过提供2500个高质量的多模态K-12数学问题，该数据集能够全面评估MLLMs在错误步骤识别和错误分类两个子任务中的表现。这种评估不仅限于问题解决的准确性，更关注于在复杂场景中增强推理能力的错误检测，填补了现有数学基准的空白。

解决学术问题

ERRORRADAR数据集解决了当前多模态大语言模型在复杂数学推理任务中错误检测的学术研究问题。传统的数学基准主要评估MLLMs的问题解决能力，而忽视了更复杂的错误检测任务。ERRORRADAR通过引入错误步骤识别和错误分类两个子任务，提供了一个全面的框架来评估MLLMs的复杂数学推理能力，从而推动了该领域的发展，并为未来的研究提供了新的方向。

衍生相关工作

ERRORRADAR数据集的引入催生了一系列相关的经典工作。首先，它推动了对多模态大语言模型在数学推理中错误检测能力的深入研究，促进了相关算法的改进和优化。其次，该数据集激发了新的基准测试和评估方法的发展，为多模态模型的性能评估提供了更为全面和细致的标准。此外，ERRORRADAR还促进了跨学科的研究合作，特别是在教育技术和人工智能领域，推动了智能教育系统的创新和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集