YuxinJiang/FollowBench|大型语言模型评估数据集|多语言数据集
收藏FollowBench 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别:
- 文本生成
- 问答
- 语言:
- 英语
- 中文
- 数据集名称: instruction following
- 数据规模: 1K<n<10K
数据集描述
- 名称: FollowBench
- 类型: 多层次细粒度约束遵循基准
- 目的: 系统性和精确地评估大型语言模型(LLMs)的指令遵循能力
- 特点:
- 包含五种不同类型的细粒度约束(内容、情境、风格、格式和示例)
- 引入多层次机制,逐步增加单个约束以增加难度
- 使用约束演化路径提示强LLMs处理开放式指令
- 评估模型: 14个闭源和开源的流行LLMs
更新记录
- 2023/12/20: 在FollowBench上评估了Qwen-Chat-72B/14B/7B
- 2023/12/15: 发布了中文版本的FollowBench
- 2023/11/14: 发布了第二版本的论文
- 2022/11/10: 发布了FollowBench的数据和代码
- 2023/10/31: 发布了第一版本的论文
数据集内容
评估方法
-
安装依赖: bash conda create -n followbench python=3.10 conda activate followbench conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install -r requirements.txt
-
模型推理: bash cd FollowBench/ python code/model_inference.py --model_path <model_name_or_path>
-
基于LLM的评估: bash cd FollowBench/ python code/llm_eval.py --model_path <model_name_or_path> --api_key <your_own_gpt4_api_key>
-
合并评估结果并保存: bash cd FollowBench/ python code/eval.py --model_paths <a_list_of_evaluated_models>
最终结果将保存在名为
evaluation_result
的文件夹中。
引用
@misc{jiang2023followbench, title={FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models}, author={Yuxin Jiang and Yufei Wang and Xingshan Zeng and Wanjun Zhong and Liangyou Li and Fei Mi and Lifeng Shang and Xin Jiang and Qun Liu and Wei Wang}, year={2023}, eprint={2310.20410}, archivePrefix={arXiv}, primaryClass={cs.CL} }

GAOKAO-Bench
GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。
arXiv 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Plants of the World Online (POWO)
Plants of the World Online (POWO) 是一个全球植物数据库,提供了关于植物物种的详细信息,包括分类学、分布、生态学和保护状态等。该数据库旨在为植物学家、生态学家和公众提供一个全面的植物信息资源。
powo.science.kew.org 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录