CHASE
收藏github2025-02-21 更新2025-02-24 收录
下载链接:
https://github.com/McGill-NLP/CHASE
下载链接
链接失效反馈官方服务:
资源简介:
CHASE是一个统一框架,用于合成生成无需人工参与即可挑战大型语言模型的问题。该框架以底层方式构建难题,并将其分解为可独立验证的子任务,确保高质量和正确性。CHASE被实施用于创建三个不同领域的评估基准:基于文档的问答、仓库级别的代码补全和数学推理。
CHASE is a unified framework for synthetically generating questions that challenge Large Language Models (LLMs) without human intervention. The framework constructs challenging problems in a bottom-up fashion, decomposes them into independently verifiable subtasks, and thus guarantees high quality and correctness. CHASE has been implemented to create evaluation benchmarks across three distinct domains: document-based question answering, warehouse-scale code completion, and mathematical reasoning.
创建时间:
2025-02-18
原始信息汇总
CHASE数据集概述
数据集简介
- 名称: CHASE (Challenging AI with Synthetic Evaluations)
- 目的: 通过合成生成具有挑战性的问题来评估大型语言模型(LLMs)的性能
- 特点: 无需人工参与,通过自底向上的方式从简单组件构建复杂问题
数据集构成
- 包含三个领域:
- 基于文档的问答 (CHASE-QA)
- 仓库级代码补全 (CHASE-Code)
- 数学推理 (CHASE-Math)
技术特点
- 生成方法: 将生成过程分解为可独立验证的子任务
- 验证机制: 确保生成问题的高质量和正确性
- 模型表现: 当前最先进LLM在这些合成基准上的准确率在40-60%之间
使用要求
- Python版本: 兼容Python 3
- 依赖项: 可通过requirements.txt安装
- 推荐环境: CUDA 12.5
获取方式
- 代码仓库: https://github.com/McGill-NLP/CHASE
- 论文链接: https://arxiv.org/pdf/2502.14678
引用格式
bibtex @misc{patel2025llmgeneratechallengingproblems, title={How to Get Your LLM to Generate Challenging Problems for Evaluation}, author={Arkil Patel and Siva Reddy and Dzmitry Bahdanau}, year={2025}, eprint={2502.14678}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.14678}, }
联系方式
- 联系人: Arkil Patel
- 个人网站: http://arkilpatel.github.io/
搜集汇总
数据集介绍

构建方式
CHASE数据集的构建,采用了一种无需人类参与,利用大型语言模型(LLMs)合成生成挑战性问题的方式。该框架通过自底向上的方法,从简单组件构建困难问题,并将生成过程分解为可独立验证的子任务,确保了高质量和正确性。
特点
该数据集的特点在于其创新性地利用LLMs生成评价基准,覆盖了文档基础上的问题回答、代码补全和数学推理三个不同的领域。在生成的合成基准上,最先进的LLMs的表现准确率仅在40-60%之间,这表明了数据集在生成具有挑战性问题方面的有效性。
使用方法
使用CHASE数据集首先需要创建和激活虚拟环境,并根据要求安装所需的依赖。具体的使用方法分为三个部分:CHASE-QA、CHASE-Code和CHASE-Math,每部分都有详细的安装和使用说明。
背景与挑战
背景概述
CHASE数据集,全称为Challenging AI with Synthetic Evaluations,是由McGill大学自然语言处理团队(McGill-NLP)开发的一种创新性评估框架。该数据集的创建旨在应对大型语言模型(LLMs)快速演变带来的评估挑战。由于传统的人工标注方法在生成高质量、具有挑战性的问题上变得越来越不切实际,因此研究人员提出了CHASE框架,以无人工干预的方式合成挑战性问题。该框架采用自下而上的方法,从简单组件构建困难问题,并确保生成的每个子任务都是独立可验证的,以保障高质量和正确性。自2025年起,CHASE已经在文档问答、代码补全和数学推理三个不同领域创建了评估基准,其表现显示出该框架在生成挑战性问题方面的有效性。
当前挑战
在数据集构建过程中,研究人员面临的主要挑战包括如何确保合成问题的质量和难度,以及如何使这些问题能够有效评估LLMs的泛化能力。此外,CHASE数据集在构建过程中还必须克服技术挑战,如兼容性问题、依赖库的安装难度,以及确保数据集在多种机器环境下的可运行性。在研究领域问题上,CHASE所面临的挑战是如何准确量化LLMs在不同任务上的表现,尤其是在面对新颖解释时的泛化能力,从而为LLMs的进一步研究和优化提供可靠依据。
常用场景
经典使用场景
在当前大型语言模型(LLMs)迅速演化的背景下,CHASE数据集提供了一个创新的评估框架,该框架通过合成问题来挑战LLMs的即时学习能力和泛化能力。经典的使用场景包括文档基础的问题回答、代码补全以及数学推理任务,这些场景均需模型在无需人类干预的情况下构建复杂问题,从而评估其性能。
解决学术问题
CHASE数据集解决了高质量、具有挑战性的问题生成中传统人工标注不切实际的问题。通过将问题生成过程分解为可独立验证的子任务,该数据集确保了高水平的质量和正确性,为学术研究提供了一种有效的评估LLMs性能的新方法。
衍生相关工作
基于CHASE数据集,学术界已经衍生出一系列相关工作,包括但不限于对LLMs在不同领域的泛化能力的研究,以及利用CHASE框架进行模型性能评估的方法学研究,这些工作进一步扩展了该数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成



