CELLO

github2023-09-01 更新2025-02-07 收录

下载链接：

https://github.com/Abbey4799/CELLO

下载链接

链接失效反馈

资源简介：

CELLO数据集包含523条英语指令，这些指令均来源于真实场景中人工整理的数据。其主要目标是衡量大型语言模型（LLMs）对复杂指令的理解能力。评估内容涵盖十个子任务，涉及复杂任务描述和复杂输入相关方面。评估方法采用代码评估。

The CELLO dataset encompasses 523 English instructions, meticulously curated from real-world scenarios. Its primary objective is to evaluate the ability of Large Language Models (LLMs) to understand complex instructions. The evaluation encompasses ten subtasks, covering aspects of complex task descriptions and complex inputs. The assessment method employed is code-based evaluation.

提供机构：

复旦大学

创建时间：

2023-09-01

原始信息汇总

CELLO数据集概述

数据集简介

CELLO是一个用于系统评估大语言模型复杂指令理解能力的基准测试工具（AAAI 2024）。
主要特点：
- 设计了8个复杂指令特征
- 从真实场景构建综合评估数据集
- 建立了4个评估标准并开发了相应指标
- 比较了中英文导向模型在复杂指令理解上的表现

数据内容

数据位置：data/
所有样本均已匿名化处理

评估系统

评估脚本：eval.sh
模型实现位置：code/evaluators/
评估结果位置：results/

评分系统

评分脚本：score.sh
评分器实现位置：code/scorers/
评分结果位置：scores/

引用格式

bibtex @inproceedings{he2024can, title={Can Large Language Models Understand Real-World Complex Instructions?}, author={He, Qianyu and Zeng, Jie and Huang, Wenhao and Chen, Lina and Xiao, Jin and He, Qianxi and Zhou, Xunzhe and Liang, Jiaqing and Xiao, Yanghua}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, volume={38}, number={16}, pages={18188--18196}, year={2024} }

搜集汇总

数据集介绍

构建方式

CELLO数据集的构建基于对复杂指令理解能力的系统性评估需求，设计者从现实场景中提取了八种复杂指令特征，构建了一个全面的评估数据集。该数据集通过精心设计的四种评估标准和相应度量方法，弥补了现有评估方法的不足，确保了评估的全面性和精确性。

使用方法

CELLO数据集的使用方法包括环境配置、模型评估和评分系统。用户首先需通过conda创建虚拟环境并安装依赖库，随后可通过提供的脚本对指定模型进行评估。评估结果和评分结果分别存储在特定文件夹中，用户可根据需求进一步分析和比较不同模型的表现。

背景与挑战

背景概述

CELLO数据集是由Qianyu He等研究人员于2024年提出的，旨在系统评估大语言模型（LLMs）在理解复杂指令方面的能力。该数据集的设计基于现实场景，涵盖了八种复杂指令特征，并构建了全面的评估体系。通过引入四项评估标准和相应的度量方法，CELLO弥补了现有评估方法的不足，如偏差过大或粒度过于粗糙等问题。该数据集在AAAI 2024会议上发布，对推动大语言模型在复杂指令理解领域的研究具有重要意义。

当前挑战

CELLO数据集面临的挑战主要体现在两个方面。首先，复杂指令的理解本身具有高度多样性和模糊性，如何设计能够全面覆盖这些特征的评估标准是一个关键难题。其次，在数据集的构建过程中，如何从真实场景中提取具有代表性的复杂指令样本，并确保数据的多样性和平衡性，也是一项艰巨的任务。此外，现有的评估方法往往存在偏差或过于严格的问题，CELLO需要开发新的度量标准以更准确地反映模型的性能。这些挑战共同构成了CELLO数据集在推动大语言模型研究中的重要障碍。

常用场景

经典使用场景

CELLO数据集主要用于评估大型语言模型在处理复杂指令时的理解能力。通过设计八种复杂指令特征，并从真实场景中构建全面的评估数据集，CELLO为研究者提供了一个系统化的工具，用于测试和比较不同语言模型在复杂指令理解上的表现。

解决学术问题

CELLO数据集解决了当前评估指标在复杂指令理解任务中存在的不足、偏见或过于严格的问题。通过建立四个评估标准并开发相应的度量方法，CELLO为学术界提供了一个更为精确和细粒度的评估框架，帮助研究者更好地理解和改进语言模型在复杂指令理解上的能力。

实际应用

在实际应用中，CELLO数据集可以用于优化和提升智能助手、聊天机器人等自然语言处理系统的性能。通过评估和改进模型在复杂指令理解上的表现，这些系统能够更好地满足用户需求，提供更为精准和高效的服务。

数据集最近研究