CHASE-Math
收藏Hugging Face2025-02-22 更新2025-02-23 收录
下载链接:
https://huggingface.co/datasets/McGill-NLP/CHASE-Math
下载链接
链接失效反馈官方服务:
资源简介:
CHASE是一个合成生成挑战性问题的统一框架,用于评估大型语言模型的能力,覆盖了文档问答、代码补全和数学推理三个领域。该框架通过无需人类参与的合成方法,生成具有挑战性的问题,以评估最先进的LLMs的性能。
提供机构:
McGill NLP Group
创建时间:
2025-02-20
搜集汇总
数据集介绍

构建方式
CHASE-Math数据集的构建,采取了一种无需人工参与、利用大型语言模型(LLMs)合成难题的统一框架。该框架以底层向上的方式,将简单组件逐步构建成难度较高的问题,并通过将生成过程分解为可独立验证的子任务,确保了高水平和正确性的质量。
特点
该数据集的特点在于,它能够生成具有挑战性的数学问题,这些问题对于当前最先进的大型语言模型而言,准确率仅能达到40-60%。这表明数据集在生成具有挑战性的评价标准方面具有显著的有效性。CHASE-Math的构建方式使其在数学推理领域的评估中尤为有用。
使用方法
使用CHASE-Math数据集,首先需要在本地环境安装必要的依赖,并通过Python脚本生成数学问题。生成的问题存储在`problems.tsv`文件中。解决问题时,用户可以采用类似的方法,利用大型语言模型对生成的问题进行求解,并将结果存储在指定的输出目录中。
背景与挑战
背景概述
CHASE-Math数据集,作为CHASE项目的一部分,由McGill大学自然语言处理团队于2025年开发。该数据集旨在应对大型语言模型(LLMs)评估的挑战,通过合成生成的方式,构建出高质量、具有挑战性的数学问题,以推动数学推理领域的人工智能模型评估技术的发展。CHASE-Math的核心研究问题是如何在无需人类参与的情况下,利用LLMs生成具有挑战性的数学问题。该数据集的推出对数学推理领域产生了重要影响,为研究者提供了一个新的评价大型语言模型性能的基准。
当前挑战
CHASE-Math数据集面临的挑战主要体现在两个方面:一是生成具有挑战性数学问题的复杂性,这要求框架能够将问题分解为可独立验证的子任务,以确保问题的质量和正确性;二是构建过程中的挑战,包括如何确保合成问题的多样性、难度和准确性,以及如何处理生成过程中的计算资源消耗和效率问题。此外,该数据集在生成过程中还需克服如何平衡问题的难度与模型性能之间的关系,以提供有效的评价标准。
常用场景
经典使用场景
CHASE-Math数据集,作为合成评价挑战的统一框架,其经典使用场景在于为大型语言模型(LLMs)提供数学推理领域的基准测试。该数据集通过无需人工参与的方式,利用LLMs生成底层问题组件,进而构建出高难度的问题,以此来评估LLMs在数学问题解决方面的性能。
解决学术问题
该数据集解决了传统人工标注生成高质量、高挑战性问题所面临的复杂性和成本问题。通过合成方法生成的问题,不仅提高了评估的效率,而且确保了问题的质量和正确性,为学术研究提供了新的评估框架和基准。
衍生相关工作
基于CHASE-Math数据集的研究衍生出了多个相关工作,包括但不限于在文档问答、代码补全和数学推理等领域的应用研究,这些工作进一步推动了人工智能技术在复杂任务处理能力上的发展。
以上内容由遇见数据集搜集并总结生成



