five

CHAMP

收藏
arXiv2024-01-13 更新2024-06-21 收录
下载链接:
https://yujunmao1.github.io/CHAMP/
下载链接
链接失效反馈
官方服务:
资源简介:
CHAMP数据集由麻省理工学院计算机科学与人工智能实验室创建,包含270个高中数学竞赛题目,每个题目均附有概念和提示。数据集旨在评估大型语言模型在解决复杂数学问题时的推理能力,特别是如何利用额外的概念和提示信息。数据集中的问题涉及多个数学领域,如数论、多项式、序列、不等式和组合数学。通过此数据集,研究者可以探索模型如何处理和应用问题特定的提示,以及这些提示如何影响最终的解题结果。

The CHAMP dataset was developed by the Computer Science and Artificial Intelligence Laboratory (CSAIL) at the Massachusetts Institute of Technology (MIT). It contains 270 high school mathematics competition problems, each accompanied by corresponding conceptual explanations and hints. This dataset is designed to evaluate the reasoning capabilities of large language models (LLMs) when solving complex mathematical problems, specifically their capacity to leverage additional conceptual knowledge and hint information. The problems in the dataset span multiple mathematical domains, including number theory, polynomials, sequences, inequalities, and combinatorics. Using this dataset, researchers can investigate how models process and apply problem-specific prompts, as well as how these prompts affect the final problem-solving results.
提供机构:
麻省理工学院计算机科学与人工智能实验室
创建时间:
2024-01-13
搜集汇总
数据集介绍
main_image_url
构建方式
在数学推理能力评估领域,CHAMP数据集通过精心筛选与标注,构建了一套具有挑战性的高中竞赛数学问题库。该数据集从经典竞赛教材《Problem-Solving Strategies》中选取了270道题目,涵盖数论、多项式、数列、不等式和组合数学五大类别。为确保问题质量与评估的严谨性,作者团队对每道题目进行了人工改写,将证明类问题转化为具有可验证答案的形式,并撰写了详细的自然语言分步解答。此外,每道题目均标注了相关的数学概念(即通用数学定理或公式)与提示(即针对特定问题的解题技巧),这些标注与解答步骤逐一关联,形成了结构化的知识支持体系。
特点
CHAMP数据集的显著特点在于其精细的注释体系与多维度评估能力。数据集不仅提供问题陈述与标准解答,还为每道题目标注了平均1.4个概念与1.7个提示,这些注释通过分类、命名与层级关联进行了系统化组织。其独特之处在于包含了对大语言模型生成解答的首次错误步骤标注,涵盖了540条由不同模型生成的解答,并人工标识了推理过程中的首个客观错误。这一设计使得数据集能够支持对模型使用外部信息能力、抗误导性以及解答验证能力的深入分析,突破了传统数学数据集仅关注最终答案准确性的局限。
使用方法
CHAMP数据集支持多种实验设置,以系统评估大语言模型的数学推理能力。研究者可通过设计不同的提示策略,探究模型在标准零样本、少样本及提供部分解答情况下的表现。数据集的核心应用在于分析模型如何利用标注的概念与提示信息:通过对比提供或不提供相关概念、提示以及误导性概念的条件,评估模型对外部信息的理解与运用能力。此外,利用首次错误步骤标注,可进行解答验证任务的评估,即检验模型能否识别给定解答中的推理错误。数据集还支持对模型生成解答的完整正确性分析,区分最终答案准确性与全步骤正确性,为模型能力提供更精细的度量。
背景与挑战
背景概述
在大型语言模型(LLM)数学推理能力快速发展的背景下,现有基准往往局限于问题陈述与答案的简单配对,难以深入评估模型对辅助信息的利用与多步推理的严谨性。为此,独立研究员毛宇君与麻省理工学院CSAIL的Yoon Kim、Yilun Zhou等人于2024年共同创建了CHAMP(概念与提示标注数学问题)数据集。该数据集精心选取了270道高中数学竞赛级别题目,覆盖数论、多项式、序列、不等式和组合数学五大类别,并创新性地为每道题目标注了相关的数学概念(通用公式或定理)与提示(问题特定技巧)。CHAMP的核心研究目标是系统探究LLM在解决复杂数学问题时,如何理解并利用外部提供的概念与提示信息,以及模型生成解决方案的逻辑正确性。这一数据集的建立,为深入分析LLM的上下文推理、解决方案验证等高级能力提供了前所未有的细粒度评估基准,推动了数学推理评估从单纯答案匹配向过程与逻辑深度分析的范式转变。
当前挑战
CHAMP数据集所针对的核心领域挑战在于,如何准确评估大型语言模型在解决需要创造性策略和深层数学知识的竞赛级问题时的真实推理能力,而非其记忆或猜测答案的倾向。具体而言,该领域面临模型可能通过错误推理步骤偶然得出正确答案,从而高估其性能的普遍问题。在数据集构建过程中,主要挑战体现在两方面:一是高质量标注的复杂性,竞赛数学问题涉及专业领域知识,要求标注者具备深厚的数学功底,以确保概念、提示及完整解决方案的准确性与教育意义;二是评估框架的设计难度,需要开发能够区分最终答案正确性与完整解决方案逻辑正确性的评估方法,并建立可靠的自动评分机制以处理答案表达的多样性,同时避免因依赖模型自身(如GPT-4作为评分器)而引入的评估偏差。
常用场景
经典使用场景
在数学推理研究领域,CHAMP数据集以其精细的概念与提示标注,为评估大型语言模型在复杂数学问题上的推理能力提供了独特平台。该数据集最经典的使用场景在于系统探究外部信息(如相关数学概念和问题特定提示)对模型解题过程的影响。研究者通过设计多样化提示策略,能够深入分析模型如何理解、整合并应用这些辅助信息,从而揭示模型在竞争级别数学问题上的真实推理机制。
解决学术问题
CHAMP数据集有效解决了数学推理评估中缺乏细粒度分析工具的学术难题。它通过标注概念与提示,使得研究者能够量化评估模型利用外部知识的能力,而非仅仅依赖最终答案的正确性。该数据集的意义在于揭示了当前模型在复杂推理任务中的关键局限,例如模型可能通过错误步骤得出正确答案,或无法有效利用有益提示。这些发现推动了评估范式从粗放的结果导向转向精细的过程分析,为提升模型的可靠推理能力指明了方向。
衍生相关工作
围绕CHAMP数据集,已衍生出多个探索模型推理与验证能力的经典研究方向。例如,基于其“第一步错误”标注,研究者深入分析了模型的解决方案验证能力,发现多数模型难以准确识别自身或他人解答中的逻辑错误。该数据集也启发了对模型上下文理解敏感性的研究,例如模型如何应对误导性概念或非常规提示。这些工作共同推动了对大型语言模型数学推理本质的更深层次理解,促进了迭代提示、自我修正等后续方法的改进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作