five

ERRORRADAR|数学推理数据集|错误检测数据集

收藏
arXiv2024-10-08 更新2024-10-12 收录
数学推理
错误检测
下载链接:
http://arxiv.org/abs/2410.04509v2
下载链接
链接失效反馈
资源简介:
ERRORRADAR数据集由松鼠AI和香港科技大学等机构联合创建,旨在评估多模态大语言模型在复杂数学推理中的错误检测能力。该数据集包含2500个高质量的多模态K-12数学问题,来源于真实的学生互动数据,经过严格的手动标注和丰富的元数据注释。数据集的创建过程包括从教育组织中收集问题,并通过专业注释者进行详细标注。ERRORRADAR主要应用于教育领域,旨在解决多模态数学推理中的错误检测问题,提升模型的复杂推理能力。
提供机构:
松鼠AI、香港科技大学(广州)、香港科技大学、密歇根州立大学、中国科学院大学、伊利诺伊大学芝加哥分校
创建时间:
2024-10-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
ERRORRADAR数据集通过从教育组织中收集的2500个高质量多模态K-12数学问题构建而成。这些问题源自真实的学生互动,经过严格的手动标注,确保了数据的质量。数据集不仅包含问题的文本和图像表示,还详细记录了学生的错误解答及其推理步骤,以及正确的解答过程。此外,数据集还提供了丰富的元数据,如问题类型和错误类别,以全面评估多模态大语言模型在复杂数学推理任务中的能力。
特点
ERRORRADAR数据集的主要特点在于其真实性和复杂性。数据集中的问题和解答均来自实际教学场景,确保了数据的实用性和代表性。此外,数据集通过详细的错误步骤和分类标注,提供了对学生错误解答的深入分析,这有助于模型理解和纠正这些错误。数据集的多样性体现在问题类型的广泛覆盖,包括平面几何、立体几何、图表、代数和数学常识等,以及错误类别的细致划分,如视觉感知错误、计算错误、推理错误、知识错误和问题误解等。
使用方法
ERRORRADAR数据集主要用于评估和提升多模态大语言模型在数学错误检测任务中的表现。研究者和开发者可以使用该数据集进行模型的训练和测试,通过识别和分类错误步骤,来提高模型在复杂数学问题中的推理能力。数据集的详细标注和丰富的元数据为模型的微调和优化提供了坚实的基础。此外,数据集还可以用于开发新的错误检测算法和教学辅助工具,以帮助学生更好地理解和纠正数学问题中的错误。
背景与挑战
背景概述
随着多模态大型语言模型(MLLMs)领域的不断发展,其在解决数学推理任务方面的潜力尤为显著。当前的数学基准主要集中在评估MLLMs的问题解决能力,但在处理更复杂的场景,如错误检测方面存在重要空白。为了填补这一空白,我们正式提出了多模态错误检测这一新任务,并引入了ERRORRADAR,这是首个旨在评估MLLMs在这一任务中能力的基准。ERRORRADAR通过评估错误步骤识别和错误分类两个子任务,提供了一个全面的框架来评估MLLMs的复杂数学推理能力。该基准包含2500个高质量的多模态K-12数学问题,这些问题收集自教育组织中的真实学生互动,并经过严格的标注和丰富的元数据,如问题类型和错误类别。
当前挑战
ERRORRADAR数据集在构建过程中面临多项挑战。首先,解决领域问题的挑战在于如何准确识别和分类数学推理中的错误,这需要对数学概念和认知过程有深入的理解。其次,构建过程中的挑战包括从真实学生互动中收集高质量数据,确保数据的多样性和代表性,以及进行严格的手动标注以保证数据质量。此外,评估MLLMs在错误检测任务中的表现时,发现即使是表现最佳的模型GPT-4o,其准确率仍比人类评估低约10%,这表明在复杂数学推理能力方面仍有显著提升空间。
常用场景
经典使用场景
ERRORRADAR数据集的经典使用场景主要集中在评估多模态大语言模型(MLLMs)在复杂数学推理任务中的错误检测能力。通过提供2500个高质量的多模态K-12数学问题,该数据集能够全面评估MLLMs在错误步骤识别和错误分类两个子任务中的表现。这种评估不仅限于问题解决的准确性,更关注于在复杂场景中增强推理能力的错误检测,填补了现有数学基准的空白。
解决学术问题
ERRORRADAR数据集解决了当前多模态大语言模型在复杂数学推理任务中错误检测的学术研究问题。传统的数学基准主要评估MLLMs的问题解决能力,而忽视了更复杂的错误检测任务。ERRORRADAR通过引入错误步骤识别和错误分类两个子任务,提供了一个全面的框架来评估MLLMs的复杂数学推理能力,从而推动了该领域的发展,并为未来的研究提供了新的方向。
衍生相关工作
ERRORRADAR数据集的引入催生了一系列相关的经典工作。首先,它推动了对多模态大语言模型在数学推理中错误检测能力的深入研究,促进了相关算法的改进和优化。其次,该数据集激发了新的基准测试和评估方法的发展,为多模态模型的性能评估提供了更为全面和细致的标准。此外,ERRORRADAR还促进了跨学科的研究合作,特别是在教育技术和人工智能领域,推动了智能教育系统的创新和应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

BTCV

BTCV(Beyond the Cranial Vault)数据集是一个用于医学图像分割的公开数据集,主要包含30个病例的CT扫描图像,涵盖了13个不同的器官和组织。该数据集旨在促进医学图像分割算法的发展和评估。

www.synapse.org 收录