CHASE

github2025-02-21 更新2025-02-24 收录

下载链接：

https://github.com/McGill-NLP/CHASE

下载链接

链接失效反馈

官方服务：

资源简介：

CHASE是一个统一框架，用于合成生成无需人工参与即可挑战大型语言模型的问题。该框架以底层方式构建难题，并将其分解为可独立验证的子任务，确保高质量和正确性。CHASE被实施用于创建三个不同领域的评估基准：基于文档的问答、仓库级别的代码补全和数学推理。

CHASE is a unified framework for synthetically generating questions that challenge Large Language Models (LLMs) without human intervention. The framework constructs challenging problems in a bottom-up fashion, decomposes them into independently verifiable subtasks, and thus guarantees high quality and correctness. CHASE has been implemented to create evaluation benchmarks across three distinct domains: document-based question answering, warehouse-scale code completion, and mathematical reasoning.

创建时间：

2025-02-18

原始信息汇总

CHASE数据集概述

数据集简介

名称: CHASE (Challenging AI with Synthetic Evaluations)
目的: 通过合成生成具有挑战性的问题来评估大型语言模型(LLMs)的性能
特点: 无需人工参与，通过自底向上的方式从简单组件构建复杂问题

数据集构成

包含三个领域:
1. 基于文档的问答 (CHASE-QA)
2. 仓库级代码补全 (CHASE-Code)
3. 数学推理 (CHASE-Math)

技术特点

生成方法: 将生成过程分解为可独立验证的子任务
验证机制: 确保生成问题的高质量和正确性
模型表现: 当前最先进LLM在这些合成基准上的准确率在40-60%之间

使用要求

Python版本: 兼容Python 3
依赖项: 可通过requirements.txt安装
推荐环境: CUDA 12.5

获取方式

代码仓库: https://github.com/McGill-NLP/CHASE
论文链接: https://arxiv.org/pdf/2502.14678

引用格式

bibtex @misc{patel2025llmgeneratechallengingproblems, title={How to Get Your LLM to Generate Challenging Problems for Evaluation}, author={Arkil Patel and Siva Reddy and Dzmitry Bahdanau}, year={2025}, eprint={2502.14678}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.14678}, }

联系方式

联系人: Arkil Patel
个人网站: http://arkilpatel.github.io/

搜集汇总

数据集介绍

构建方式

CHASE数据集的构建，采用了一种无需人类参与，利用大型语言模型（LLMs）合成生成挑战性问题的方式。该框架通过自底向上的方法，从简单组件构建困难问题，并将生成过程分解为可独立验证的子任务，确保了高质量和正确性。

特点

该数据集的特点在于其创新性地利用LLMs生成评价基准，覆盖了文档基础上的问题回答、代码补全和数学推理三个不同的领域。在生成的合成基准上，最先进的LLMs的表现准确率仅在40-60%之间，这表明了数据集在生成具有挑战性问题方面的有效性。

使用方法

使用CHASE数据集首先需要创建和激活虚拟环境，并根据要求安装所需的依赖。具体的使用方法分为三个部分：CHASE-QA、CHASE-Code和CHASE-Math，每部分都有详细的安装和使用说明。

背景与挑战

背景概述

CHASE数据集，全称为Challenging AI with Synthetic Evaluations，是由McGill大学自然语言处理团队（McGill-NLP）开发的一种创新性评估框架。该数据集的创建旨在应对大型语言模型（LLMs）快速演变带来的评估挑战。由于传统的人工标注方法在生成高质量、具有挑战性的问题上变得越来越不切实际，因此研究人员提出了CHASE框架，以无人工干预的方式合成挑战性问题。该框架采用自下而上的方法，从简单组件构建困难问题，并确保生成的每个子任务都是独立可验证的，以保障高质量和正确性。自2025年起，CHASE已经在文档问答、代码补全和数学推理三个不同领域创建了评估基准，其表现显示出该框架在生成挑战性问题方面的有效性。

当前挑战

在数据集构建过程中，研究人员面临的主要挑战包括如何确保合成问题的质量和难度，以及如何使这些问题能够有效评估LLMs的泛化能力。此外，CHASE数据集在构建过程中还必须克服技术挑战，如兼容性问题、依赖库的安装难度，以及确保数据集在多种机器环境下的可运行性。在研究领域问题上，CHASE所面临的挑战是如何准确量化LLMs在不同任务上的表现，尤其是在面对新颖解释时的泛化能力，从而为LLMs的进一步研究和优化提供可靠依据。

常用场景

经典使用场景

在当前大型语言模型（LLMs）迅速演化的背景下，CHASE数据集提供了一个创新的评估框架，该框架通过合成问题来挑战LLMs的即时学习能力和泛化能力。经典的使用场景包括文档基础的问题回答、代码补全以及数学推理任务，这些场景均需模型在无需人类干预的情况下构建复杂问题，从而评估其性能。

解决学术问题

CHASE数据集解决了高质量、具有挑战性的问题生成中传统人工标注不切实际的问题。通过将问题生成过程分解为可独立验证的子任务，该数据集确保了高水平的质量和正确性，为学术研究提供了一种有效的评估LLMs性能的新方法。

衍生相关工作

基于CHASE数据集，学术界已经衍生出一系列相关工作，包括但不限于对LLMs在不同领域的泛化能力的研究，以及利用CHASE框架进行模型性能评估的方法学研究，这些工作进一步扩展了该数据集的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集