five

Omni-MATH|数学推理数据集|大型语言模型评估数据集

收藏
arXiv2024-10-10 更新2024-10-12 收录
数学推理
大型语言模型评估
下载链接:
https://omni-math.github.io
下载链接
链接失效反馈
资源简介:
Omni-MATH是由北京大学等机构创建的一个专为评估大型语言模型(LLMs)在奥林匹克级别数学推理能力上的综合性基准数据集。该数据集包含4428个竞赛级别的数学问题,这些问题被精心分类为超过33个子领域和10个不同的难度级别。数据集的创建过程包括从全球数学竞赛中收集数据,并通过人工注释进行验证,确保数据的高质量和多样性。Omni-MATH旨在为LLMs在复杂数学问题解决和推理能力上提供一个具有挑战性的评估平台,特别是在奥林匹克级别的数学问题上。
提供机构:
北京大学
创建时间:
2024-10-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
Omni-MATH数据集的构建基于全球范围内的数学竞赛,涵盖了从入门级到国际奥林匹克级别的4428道竞赛题目。这些题目经过严格的人工标注,并被细分为超过33个子领域和10个不同的难度级别。数据集的构建过程包括从官方网站和知名论坛如AoPS Wiki和AoPS Forum中爬取问题和解答,随后通过MathPix工具将PDF文档转换为LaTeX格式。为了确保数据质量,专业标注团队对解答进行了验证,并对数据进行了初步筛选和人工检查。
特点
Omni-MATH数据集的显著特点在于其广泛性和挑战性。它不仅包含了多样化的数学领域,还覆盖了从基础到高难度的多个层次,使得模型在奥林匹克级别的数学推理能力上得到全面评估。此外,数据集提供了基于GPT-4o的模型评估和开源验证工具Omni-Judge,确保评估的可靠性和一致性。
使用方法
使用Omni-MATH数据集时,研究者可以通过提供的分类和难度标签对模型进行细粒度的评估。数据集支持模型在不同数学领域和难度级别上的性能分析,帮助识别模型在特定领域的优势和不足。此外,研究者可以利用Omni-Judge工具进行快速且有效的模型输出验证,确保评估结果的准确性。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在数学推理能力方面取得了显著突破。然而,现有的基准测试如GSM8K或MATH已被高精度解决(例如,OpenAI o1在MATH数据集上达到94.8%的准确率),表明这些基准已不足以真正挑战这些模型。为了填补这一空白,我们提出了一个全面且具有挑战性的基准测试,专门用于评估LLMs在奥林匹克级别的数学推理能力。与现有的奥林匹克相关基准不同,我们的数据集专注于纯数学问题,包含4428个竞赛级别的问题,并经过严格的人工注释。这些问题被精心分类为超过33个子领域,并跨越10个不同的难度级别,从而能够全面评估模型在奥林匹克数学推理中的表现。此外,我们基于此基准进行了深入分析,实验结果显示,即使是目前最先进的模型,如OpenAI o1-mini和OpenAI o1-preview,在高度挑战性的奥林匹克级别问题上仍面临显著挑战,准确率分别为60.54%和52.55%,突显了奥林匹克级别数学推理的重大挑战。
当前挑战
Omni-MATH数据集面临的挑战主要集中在两个方面:一是解决领域问题,即如何构建一个能够真正挑战当前最先进模型的数学推理基准;二是在构建过程中遇到的挑战,包括数据收集、注释和分类的复杂性。数据收集涉及从全球数学竞赛中爬取问题和解决方案,并确保其准确性和一致性。注释过程需要专业人员手动验证解决方案的正确性,确保数据集的高质量。分类则需要将问题细分为多个子领域和难度级别,以便进行细致的模型性能评估。此外,评估模型在奥林匹克级别问题上的表现也是一个重大挑战,因为这些问题的复杂性和多样性使得传统的评估方法不再适用,需要开发新的评估工具和方法。
常用场景
经典使用场景
Omni-MATH数据集在评估大型语言模型(LLMs)的数学推理能力方面具有经典应用场景。该数据集包含4428个高难度的奥林匹克级别数学问题,这些问题被精心分类为超过33个子领域和10个不同的难度级别。通过使用Omni-MATH,研究人员能够全面评估模型在奥林匹克数学推理中的表现,特别是在高难度问题上的推理能力。
实际应用
在实际应用中,Omni-MATH数据集可用于开发和测试专门针对高难度数学问题的AI系统。例如,教育科技公司可以利用该数据集来评估和改进其数学辅导软件的智能水平,确保其能够处理和解释复杂的数学问题。此外,该数据集还可用于培训和验证金融、工程等领域的专业模型,以提高其在复杂计算和推理任务中的表现。
衍生相关工作
Omni-MATH数据集的发布催生了一系列相关研究工作。例如,研究人员基于该数据集开发了新的数学推理模型,如OpenAI o1-mini和OpenAI o1-preview,这些模型在处理高难度数学问题时表现出色。此外,Omni-MATH还启发了对模型在不同数学领域(如代数、离散数学和几何)中表现的深入分析,以及对测试时间缩放技术的进一步研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

波士顿房价数据集

波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。

阿里云天池 收录

ner_training_stanza

该数据集包含文本数据及其相应的命名实体识别信息。文本被分词,并且命名实体识别信息既包括词级别也包括字符级别。数据集分为训练集、验证集和测试集,适用于进一步的自然语言处理任务。

huggingface 收录