five

theblackcat102/IMO-geometry

收藏
Hugging Face2024-01-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/theblackcat102/IMO-geometry
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从2000年到2021年的32个国际数学奥林匹克(IMO)几何问题,这些问题通过类别IMO进行筛选。此外,还包括来自其他地区奥林匹克竞赛的55个问题以及13个由GPT-4生成的问题。数据集仅提供原始问题,若用于Alpha Geometry,还需要进行翻译步骤。数据集的特征包括来源、问题和类别,且仅包含测试集,测试集有87个例子,文件大小为33953字节。数据集的许可证为MIT,语言为英语,标签包括IMO、几何和数学。

该数据集包含从2000年到2021年的32个国际数学奥林匹克(IMO)几何问题,这些问题通过类别IMO进行筛选。此外,还包括来自其他地区奥林匹克竞赛的55个问题以及13个由GPT-4生成的问题。数据集仅提供原始问题,若用于Alpha Geometry,还需要进行翻译步骤。数据集的特征包括来源、问题和类别,且仅包含测试集,测试集有87个例子,文件大小为33953字节。数据集的许可证为MIT,语言为英语,标签包括IMO、几何和数学。
提供机构:
theblackcat102
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • source: 字符串类型
    • question: 字符串类型
    • category: 字符串类型
  • 分割:
    • test: 33953字节,包含87个样本
  • 下载大小: 18740字节
  • 数据集大小: 33953字节
  • 配置:
    • default: 包含测试数据文件路径 data/test-*
  • 许可证: MIT
  • 语言: 英语
  • 标签:
    • IMO
    • geometry
    • math

数据集内容

  • 包含32个来自2000至2021年IMO(国际数学奥林匹克)的几何问题。
  • 还包括55个来自其他地区奥林匹克竞赛的问题以及13个由GPT-4生成的问题。
  • 数据集仅包含原始问题,如需用于Alpha Geometry,还需进行翻译步骤。

示例问题

  • 问题:

    设ABC是一个锐角三角形,且AB ≠ AC。 以BC为直径的圆与边AB和AC分别交于M和N。 记BC的中点为O。角∠BAC和∠MON的平分线交于R。 证明三角形BMR和CNR的外接圆有一个公共点位于边BC上。

  • 翻译:

    前提 A B C O M N R P : 点 mid_point(O,B,C) [--] same_line(B,M,A) [00] OM=OB [01] same_line(N,C,A) [02] ON=OB [03] ∠BAR=∠RAC [04] ∠MOR=∠RON [05] circle(B,M,R,P) [06] circle(C,N,R,P) [07] 目标 same_line(P, B, C)

搜集汇总
数据集介绍
main_image_url
构建方式
在数学奥林匹克竞赛领域,几何问题因其严谨的逻辑与空间想象力而备受关注。IMO-geometry数据集精心筛选了2000年至2021年间国际数学奥林匹克竞赛中的32道几何试题,并补充了55道来自其他区域竞赛的题目以及13道由GPT-4生成的几何问题。所有原始题目均源自AoPS(Art of Problem Solving)平台的官方分类页面,确保了数据来源的权威性与时效性。数据集的构建过程侧重于保留问题的原始表述,未进行形式化转换,为后续研究提供了纯净的文本素材。
特点
该数据集的核心特点在于其专注于高难度竞赛几何问题,涵盖了锐角三角形、圆与切线、角度平分线等经典几何主题。每道题目均标注了来源与类别,便于研究者按竞赛层级或知识领域进行筛选。值得注意的是,数据集中包含部分由大型语言模型生成的题目,这为探索合成数据在几何推理中的应用提供了独特视角。然而,数据集仅提供自然语言描述的问题陈述,未包含形式化的逻辑表示或解答步骤,这要求使用者额外进行符号转换以适应自动推理系统的需求。
使用方法
使用本数据集时,研究者可将其作为基准测试集,用于评估几何定理自动证明系统的性能。由于题目以英文自然语言呈现,直接应用于如Alpha Geometry等系统前需经过翻译步骤,将其转化为形式化的前提与目标语句。建议使用者参考数据集示例中提供的转换格式,建立自然语言与几何逻辑之间的映射规则。此外,数据集中的生成式题目可用于探究语言模型在构造几何问题方面的能力,或作为数据增强的素材,以提升机器学习模型的泛化性能。
背景与挑战
背景概述
国际数学奥林匹克竞赛几何问题数据集IMO-geometry由theblackcat102于近年构建,聚焦于高难度几何证明领域。该数据集整合了2000年至2021年间32道IMO几何真题,并补充了55道区域竞赛题及13道GPT-4生成题,旨在为几何自动推理系统提供基准测试资源。其核心研究问题在于推动机器对复杂几何关系的符号化理解与证明生成能力,为Alpha Geometry等前沿研究提供了关键数据支撑,显著促进了形式化数学与人工智能的交叉领域发展。
当前挑战
该数据集首要挑战在于解决奥林匹克几何问题特有的高阶推理难题,其涉及非欧几里得构造、动态几何关系与多层逻辑嵌套,对机器的符号演算与空间想象能力提出极限要求。构建过程中面临原始问题格式异构性挑战,需从自然语言描述向形式化逻辑语句进行精准转换,同时需克服竞赛题目版权分散与标注标准缺失的困难,这些因素共同制约了数据集的规模化扩展与跨模型泛化应用。
常用场景
经典使用场景
在几何推理与自动定理证明领域,IMO-geometry数据集作为国际数学奥林匹克几何问题的精选集合,为研究人员提供了评估和开发高级几何推理模型的基准平台。该数据集通过涵盖从2000年至2021年的32道IMO几何题目,以及来自其他区域竞赛和GPT-4生成的额外问题,构建了一个具有挑战性的测试环境。经典使用场景聚焦于几何定理的自动推导与证明,例如在Alpha Geometry等系统中,模型需将自然语言描述的几何问题转化为形式化逻辑表述,进而执行精确的符号推理,以验证几何命题的正确性。
衍生相关工作
围绕IMO-geometry数据集,一系列经典研究工作相继涌现,显著推动了几何人工智能的发展。Alpha Geometry作为代表性成果,首次实现了对IMO几何问题的端到端自动证明,融合了神经语言模型与符号推理引擎。后续研究如GeoLogic、Graph Geometry Transformer等,进一步探索了几何图形的图表示学习与定理生成技术。这些工作不仅扩展了几何问题的求解范围,还促进了多模态推理框架的创新,为数学定理的机器发现奠定了理论基础。
数据集最近研究
最新研究方向
在几何推理与人工智能交叉领域,IMO几何数据集正推动前沿探索,聚焦于自动定理证明与符号推理的深度融合。近期研究热点围绕AlphaGeometry等模型展开,通过神经符号方法解析复杂几何问题,模拟人类奥林匹克竞赛的解题逻辑。这一方向不仅提升了机器在形式化数学中的泛化能力,还促进了教育智能与竞赛辅助系统的发展,为几何知识的自动化处理开辟了新路径,强化了AI在结构化推理任务中的实际应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作