YuxinJiang/FollowBench

Name: YuxinJiang/FollowBench
Creator: YuxinJiang
Published: 2024-01-11 03:11:07
License: 暂无描述

Hugging Face2024-01-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/YuxinJiang/FollowBench

下载链接

链接失效反馈

官方服务：

资源简介：

FollowBench是一个多层级细粒度约束跟随基准，用于系统且精确地评估大语言模型（LLMs）的指令跟随能力。该数据集包括五种不同类型的细粒度约束（内容、情境、风格、格式和示例），并通过多层级机制逐步增加单个约束来评估LLMs在不同难度下的表现。数据集支持中英文，并提供了评估方法和代码。

FollowBench is a multi-level, fine-grained constraint-following benchmark designed to systematically and accurately evaluate the instruction-following capabilities of Large Language Models (LLMs). This dataset covers five distinct types of fine-grained constraints, namely content, scenario, style, format, and example constraints, and adopts a multi-level mechanism that incrementally adds individual constraints to assess LLMs' performance across varying difficulty levels. The dataset supports both Chinese and English, and provides complete evaluation methods and supporting code.

提供机构：

YuxinJiang

原始信息汇总

FollowBench 数据集概述

基本信息

许可证: Apache-2.0
任务类别:
- 文本生成
- 问答
语言:
- 英语
- 中文
数据集名称: instruction following
数据规模: 1K<n<10K

数据集描述

名称: FollowBench
类型: 多层次细粒度约束遵循基准
目的: 系统性和精确地评估大型语言模型（LLMs）的指令遵循能力
特点:
- 包含五种不同类型的细粒度约束（内容、情境、风格、格式和示例）
- 引入多层次机制，逐步增加单个约束以增加难度
- 使用约束演化路径提示强LLMs处理开放式指令
评估模型: 14个闭源和开源的流行LLMs

更新记录

2023/12/20: 在FollowBench上评估了Qwen-Chat-72B/14B/7B
2023/12/15: 发布了中文版本的FollowBench
2023/11/14: 发布了第二版本的论文
2022/11/10: 发布了FollowBench的数据和代码
2023/10/31: 发布了第一版本的论文

数据集内容

数据文件: 可在data/目录下找到
中文版本: 可在data_zh/目录下找到

评估方法

安装依赖: bash conda create -n followbench python=3.10 conda activate followbench conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install -r requirements.txt
模型推理: bash cd FollowBench/ python code/model_inference.py --model_path <model_name_or_path>
基于LLM的评估: bash cd FollowBench/ python code/llm_eval.py --model_path <model_name_or_path> --api_key <your_own_gpt4_api_key>
合并评估结果并保存: bash cd FollowBench/ python code/eval.py --model_paths <a_list_of_evaluated_models>

最终结果将保存在名为evaluation_result的文件夹中。

引用

@misc{jiang2023followbench, title={FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models}, author={Yuxin Jiang and Yufei Wang and Xingshan Zeng and Wanjun Zhong and Liangyou Li and Fei Mi and Lifeng Shang and Xin Jiang and Qun Liu and Wei Wang}, year={2023}, eprint={2310.20410}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

FollowBench数据集的构建，旨在系统而精确地评估大型语言模型（LLMs）的指令遵循能力。该数据集涵盖了内容、情境、风格、格式和示例等五种不同类型的细粒度约束，采用多级机制，逐级增加单个约束，以适应不同难度的精确约束遵循估计。通过引导强LLMs沿着约束演变路径处理具有挑战性的开放式指令，评估模型是否满足每个单独的约束。

使用方法

使用FollowBench进行评估，首先需要安装相关依赖，接着执行模型推断和LLM基评估脚本。最后，通过合并基于规则的评估结果和LLM基评估结果，并将最终结果保存至指定文件夹。该过程涉及到的脚本和命令均在数据集的官方文档中有详细说明，便于用户遵循和操作。

背景与挑战

背景概述

FollowBench数据集，由Yuxin Jiang等研究人员于2023年提出，旨在系统而精确地评估大型语言模型（LLMs）的指令遵循能力。该数据集涵盖了内容、情境、风格、格式和示例五种不同类型的细粒度约束，采用多层次机制，逐级增加单个约束，以评估模型在不同难度级别上的约束遵循效果。FollowBench的创建，为评估LLMs在指令遵循方面的性能提供了新的基准，对自然语言处理领域产生了显著影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何精确地定义和分类细粒度约束，以及如何有效地衡量LLMs在满足这些约束方面的表现。此外，数据集还必须解决如何平衡不同类型和难度级别的约束，以确保评估结果的全面性和公正性。在实际应用中，FollowBench也揭示了LLMs在指令遵循方面的不足，为未来的研究和改进指明了方向。

常用场景

经典使用场景

在自然语言处理领域，尤其是对大型语言模型的评估，FollowBench数据集提供了一个多级别细粒度约束遵循的基准，旨在系统而精确地评价LLMs的指令遵循能力。该数据集通过设置内容、情境、风格、格式和示例等不同类型的约束，以及逐级增加单个约束的难度，为研究者和工程师提供了一种精确的约束遵循评估方法。

解决学术问题

FollowBench解决了传统评估方法中难以全面、细致地评价模型对复杂指令的理解和执行能力的问题。通过引入细粒度约束和多级评估机制，该数据集揭示了当前LLMs在指令遵循方面的弱点，为未来的模型优化和研究提供了方向。

实际应用

在实际应用中，FollowBench可用于指导大型语言模型的设计与优化，帮助模型更好地理解和执行用户的复杂指令，从而提升自然语言交互系统的智能水平和用户满意度。此外，该数据集的评估结果也为模型的选择和部署提供了重要依据。

数据集最近研究