five

GeoQA

收藏
arXiv2022-01-11 更新2024-06-21 收录
下载链接:
https://github.com/chenjudge/GeoQA
下载链接
链接失效反馈
官方服务:
资源简介:
GeoQA是一个大规模的几何问题解答数据集,由中山大学创建,包含4998个来自中国中学数学考试的几何问题。每个问题都配有详细的程序注释,描述了解题过程。数据集旨在推动多模态数值推理的研究,特别是在解决需要文本理解和视觉图形的几何问题方面。GeoQA不仅规模大,而且多样性高,为智能教育等领域的应用提供了丰富的资源。

GeoQA is a large-scale geometric problem-solving dataset created by Sun Yat-sen University, which contains 4998 geometric problems from Chinese middle school mathematics examinations. Each problem is accompanied by detailed procedural annotations that describe the problem-solving process. The dataset aims to promote research on multimodal numerical reasoning, particularly in solving geometric problems that require both text comprehension and visual graphics understanding. Furthermore, GeoQA boasts both large scale and high diversity, providing abundant resources for applications in fields such as intelligent education.
提供机构:
中山大学
创建时间:
2021-05-30
搜集汇总
数据集介绍
main_image_url
构建方式
GeoQA数据集是通过收集中国中学生数学考试中的几何问题构建而成的,其中包含了4,998个带有注释程序的多选题。这些程序详细描述了每个问题的解答过程。为了确保数据集的质量和一致性,收集工作由多名受过专业训练的大学生完成,并对每个注释程序进行了双重检查。此外,数据集还包含了自然语言描述的问题解答说明、问题类型、相关知识点等信息。
特点
GeoQA数据集的特点在于其规模庞大、多样化,并且提供了额外的程序注释。相较于现有的GeoS数据集,GeoQA规模更大,多样性更高,并且提供了额外的程序注释,这使得它成为了一个非常有前景的多模态数值推理基准,有助于提高模型的泛化能力和可解释性。
使用方法
使用GeoQA数据集时,首先需要对问题文本和图进行编码,然后通过联合推理模块进行跨模态信息的融合和对齐,最后通过程序解码器生成可解释的程序。此外,还可以利用数据集提供的注释程序来检验模型的解答过程,以及通过辅助任务来提升模型对文本和图的理解能力。
背景与挑战
背景概述
在自动解决数学问题这一长期的人工智能挑战中,几何问题的解决尤为重要。几何问题通常涉及对文本描述、视觉图表和定理知识的综合理解,这对机器学习系统来说是一个巨大的挑战。为了解决这一挑战,中山大学、中山大学深圳校区、暗物质人工智能公司以及穆罕默德·本·扎耶德人工智能大学的陈嘉琪、唐建恒、秦静辉、梁晓丹、刘凌波、辛格·埃里克·P·兴和林良等人提出了一个名为GeoQA的大规模几何问题问答数据集。该数据集包含4,998个几何问题及其对应的标注程序,这些程序详细说明了给定问题的解决过程。与另一个公开的GeoS数据集相比,GeoQA规模大25倍,其程序标注为未来研究显式和可解释的数值推理提供了一个实用的测试平台。
当前挑战
尽管GeoQA数据集为几何问题的解决提供了一个有价值的基准,但仍然存在一些挑战。首先,几何问题通常涉及对文本和图表的联合推理,这要求模型能够同时理解文本和图表的语义。其次,许多几何问题需要额外的定理知识,如勾股定理和圆面积计算公式等,这增加了问题解决的复杂性。此外,现有的方法高度依赖于手工规则,并且在小型数据集上进行了评估,这使得它们难以推广到更复杂和现实世界的案例中。因此,开发能够理解并解决几何问题的机器学习系统仍然是一个具有挑战性的任务。
常用场景
经典使用场景
GeoQA数据集的经典使用场景在于解决几何问题,特别是在中学数学教育中,自动解答几何问题的需求日益增长。GeoQA提供了包含4,998个几何问题的数据集,这些问题来自中国中学生的真实数学考试,并附带相应的解题过程注释程序。这使得GeoQA成为了一个理想的基准,用于评估和提升多模态数值推理能力,尤其是在解决涉及文本描述和几何图形的问题时。研究者可以利用GeoQA来训练和测试他们的模型,以提高模型在理解和解决几何问题方面的能力。
解决学术问题
GeoQA数据集解决了现有几何问题解决方法高度依赖手工规则和在小规模数据集上评估的问题。通过提供大量标注的几何问题和解题过程注释程序,GeoQA为研究多模态数值推理提供了一个实践测试平台。此外,GeoQA还促进了研究者在几何问题解决方面的研究,通过引入领域特定的语言来精确地操作程序,这些可执行的程序代表了几何问题的数值推理步骤,从而为未来的研究提供了有意义的基准。GeoQA的出现填补了现有数据集在规模和多样性上的不足,为智能教育领域的研究和应用提供了新的可能性。
衍生相关工作
GeoQA数据集的提出催生了多个相关的研究工作。其中一个重要的衍生工作是Neural Geometric Solver (NGS),这是一个基于深度学习的几何问题解决方法,它通过联合理解文本和图形,生成可解释的程序来解决问题。NGS采用了协同注意力机制来融合文本和图形的表示,并通过生成可执行的程序来预测答案。此外,GeoQA还启发了多个自监督辅助任务的设计,如拼图位置预测、几何元素预测和知识点预测,这些任务有助于增强文本和图形的语义表示。这些衍生工作不仅提高了模型在几何问题解决方面的性能,还推动了多模态数值推理研究的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作