five

Omni-MATH|数学推理数据集|大型语言模型评估数据集

收藏
arXiv2024-10-10 更新2024-10-12 收录
数学推理
大型语言模型评估
下载链接:
https://omni-math.github.io
下载链接
链接失效反馈
资源简介:
Omni-MATH是由北京大学等机构创建的一个专为评估大型语言模型(LLMs)在奥林匹克级别数学推理能力上的综合性基准数据集。该数据集包含4428个竞赛级别的数学问题,这些问题被精心分类为超过33个子领域和10个不同的难度级别。数据集的创建过程包括从全球数学竞赛中收集数据,并通过人工注释进行验证,确保数据的高质量和多样性。Omni-MATH旨在为LLMs在复杂数学问题解决和推理能力上提供一个具有挑战性的评估平台,特别是在奥林匹克级别的数学问题上。
提供机构:
北京大学
创建时间:
2024-10-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
Omni-MATH数据集的构建基于全球范围内的数学竞赛,涵盖了从入门级到国际奥林匹克级别的4428道竞赛题目。这些题目经过严格的人工标注,并被细分为超过33个子领域和10个不同的难度级别。数据集的构建过程包括从官方网站和知名论坛如AoPS Wiki和AoPS Forum中爬取问题和解答,随后通过MathPix工具将PDF文档转换为LaTeX格式。为了确保数据质量,专业标注团队对解答进行了验证,并对数据进行了初步筛选和人工检查。
特点
Omni-MATH数据集的显著特点在于其广泛性和挑战性。它不仅包含了多样化的数学领域,还覆盖了从基础到高难度的多个层次,使得模型在奥林匹克级别的数学推理能力上得到全面评估。此外,数据集提供了基于GPT-4o的模型评估和开源验证工具Omni-Judge,确保评估的可靠性和一致性。
使用方法
使用Omni-MATH数据集时,研究者可以通过提供的分类和难度标签对模型进行细粒度的评估。数据集支持模型在不同数学领域和难度级别上的性能分析,帮助识别模型在特定领域的优势和不足。此外,研究者可以利用Omni-Judge工具进行快速且有效的模型输出验证,确保评估结果的准确性。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在数学推理能力方面取得了显著突破。然而,现有的基准测试如GSM8K或MATH已被高精度解决(例如,OpenAI o1在MATH数据集上达到94.8%的准确率),表明这些基准已不足以真正挑战这些模型。为了填补这一空白,我们提出了一个全面且具有挑战性的基准测试,专门用于评估LLMs在奥林匹克级别的数学推理能力。与现有的奥林匹克相关基准不同,我们的数据集专注于纯数学问题,包含4428个竞赛级别的问题,并经过严格的人工注释。这些问题被精心分类为超过33个子领域,并跨越10个不同的难度级别,从而能够全面评估模型在奥林匹克数学推理中的表现。此外,我们基于此基准进行了深入分析,实验结果显示,即使是目前最先进的模型,如OpenAI o1-mini和OpenAI o1-preview,在高度挑战性的奥林匹克级别问题上仍面临显著挑战,准确率分别为60.54%和52.55%,突显了奥林匹克级别数学推理的重大挑战。
当前挑战
Omni-MATH数据集面临的挑战主要集中在两个方面:一是解决领域问题,即如何构建一个能够真正挑战当前最先进模型的数学推理基准;二是在构建过程中遇到的挑战,包括数据收集、注释和分类的复杂性。数据收集涉及从全球数学竞赛中爬取问题和解决方案,并确保其准确性和一致性。注释过程需要专业人员手动验证解决方案的正确性,确保数据集的高质量。分类则需要将问题细分为多个子领域和难度级别,以便进行细致的模型性能评估。此外,评估模型在奥林匹克级别问题上的表现也是一个重大挑战,因为这些问题的复杂性和多样性使得传统的评估方法不再适用,需要开发新的评估工具和方法。
常用场景
经典使用场景
Omni-MATH数据集在评估大型语言模型(LLMs)的数学推理能力方面具有经典应用场景。该数据集包含4428个高难度的奥林匹克级别数学问题,这些问题被精心分类为超过33个子领域和10个不同的难度级别。通过使用Omni-MATH,研究人员能够全面评估模型在奥林匹克数学推理中的表现,特别是在高难度问题上的推理能力。
实际应用
在实际应用中,Omni-MATH数据集可用于开发和测试专门针对高难度数学问题的AI系统。例如,教育科技公司可以利用该数据集来评估和改进其数学辅导软件的智能水平,确保其能够处理和解释复杂的数学问题。此外,该数据集还可用于培训和验证金融、工程等领域的专业模型,以提高其在复杂计算和推理任务中的表现。
衍生相关工作
Omni-MATH数据集的发布催生了一系列相关研究工作。例如,研究人员基于该数据集开发了新的数学推理模型,如OpenAI o1-mini和OpenAI o1-preview,这些模型在处理高难度数学问题时表现出色。此外,Omni-MATH还启发了对模型在不同数学领域(如代数、离散数学和几何)中表现的深入分析,以及对测试时间缩放技术的进一步研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

全国景区数据

  中华人民共和国旅游景区质量等级共分为五级,从高到低依次为AAAAA、AAAA、AAA、AA、A级五级。5A级景区代表着中国的世界级精品旅游风景区等级。  CnOpenData汇总整理了全国31个省份及直辖市的景区信息,涵盖了景区名称、省份、景区级别、地址、经纬度、简介等字段,为相关研究助力!

CnOpenData 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录