YuxinJiang/FollowBench
收藏FollowBench 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别:
- 文本生成
- 问答
- 语言:
- 英语
- 中文
- 数据集名称: instruction following
- 数据规模: 1K<n<10K
数据集描述
- 名称: FollowBench
- 类型: 多层次细粒度约束遵循基准
- 目的: 系统性和精确地评估大型语言模型(LLMs)的指令遵循能力
- 特点:
- 包含五种不同类型的细粒度约束(内容、情境、风格、格式和示例)
- 引入多层次机制,逐步增加单个约束以增加难度
- 使用约束演化路径提示强LLMs处理开放式指令
- 评估模型: 14个闭源和开源的流行LLMs
更新记录
- 2023/12/20: 在FollowBench上评估了Qwen-Chat-72B/14B/7B
- 2023/12/15: 发布了中文版本的FollowBench
- 2023/11/14: 发布了第二版本的论文
- 2022/11/10: 发布了FollowBench的数据和代码
- 2023/10/31: 发布了第一版本的论文
数据集内容
评估方法
-
安装依赖: bash conda create -n followbench python=3.10 conda activate followbench conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install -r requirements.txt
-
模型推理: bash cd FollowBench/ python code/model_inference.py --model_path <model_name_or_path>
-
基于LLM的评估: bash cd FollowBench/ python code/llm_eval.py --model_path <model_name_or_path> --api_key <your_own_gpt4_api_key>
-
合并评估结果并保存: bash cd FollowBench/ python code/eval.py --model_paths <a_list_of_evaluated_models>
最终结果将保存在名为
evaluation_result的文件夹中。
引用
@misc{jiang2023followbench, title={FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models}, author={Yuxin Jiang and Yufei Wang and Xingshan Zeng and Wanjun Zhong and Liangyou Li and Fei Mi and Lifeng Shang and Xin Jiang and Qun Liu and Wei Wang}, year={2023}, eprint={2310.20410}, archivePrefix={arXiv}, primaryClass={cs.CL} }




