five

YuxinJiang/FollowBench|大型语言模型评估数据集|多语言数据集

收藏
hugging_face2024-01-11 更新2024-03-04 收录
大型语言模型评估
多语言
下载链接:
https://hf-mirror.com/datasets/YuxinJiang/FollowBench
下载链接
链接失效反馈
资源简介:
FollowBench是一个多层级细粒度约束跟随基准,用于系统且精确地评估大语言模型(LLMs)的指令跟随能力。该数据集包括五种不同类型的细粒度约束(内容、情境、风格、格式和示例),并通过多层级机制逐步增加单个约束来评估LLMs在不同难度下的表现。数据集支持中英文,并提供了评估方法和代码。
提供机构:
YuxinJiang
原始信息汇总

FollowBench 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别:
    • 文本生成
    • 问答
  • 语言:
    • 英语
    • 中文
  • 数据集名称: instruction following
  • 数据规模: 1K<n<10K

数据集描述

  • 名称: FollowBench
  • 类型: 多层次细粒度约束遵循基准
  • 目的: 系统性和精确地评估大型语言模型(LLMs)的指令遵循能力
  • 特点:
    • 包含五种不同类型的细粒度约束(内容、情境、风格、格式和示例)
    • 引入多层次机制,逐步增加单个约束以增加难度
    • 使用约束演化路径提示强LLMs处理开放式指令
  • 评估模型: 14个闭源和开源的流行LLMs

更新记录

  • 2023/12/20: 在FollowBench上评估了Qwen-Chat-72B/14B/7B
  • 2023/12/15: 发布了中文版本的FollowBench
  • 2023/11/14: 发布了第二版本的论文
  • 2022/11/10: 发布了FollowBench的数据和代码
  • 2023/10/31: 发布了第一版本的论文

数据集内容

  • 数据文件: 可在data/目录下找到
  • 中文版本: 可在data_zh/目录下找到

评估方法

  • 安装依赖: bash conda create -n followbench python=3.10 conda activate followbench conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install -r requirements.txt

  • 模型推理: bash cd FollowBench/ python code/model_inference.py --model_path <model_name_or_path>

  • 基于LLM的评估: bash cd FollowBench/ python code/llm_eval.py --model_path <model_name_or_path> --api_key <your_own_gpt4_api_key>

  • 合并评估结果并保存: bash cd FollowBench/ python code/eval.py --model_paths <a_list_of_evaluated_models>

    最终结果将保存在名为evaluation_result的文件夹中。

引用

@misc{jiang2023followbench, title={FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models}, author={Yuxin Jiang and Yufei Wang and Xingshan Zeng and Wanjun Zhong and Liangyou Li and Fei Mi and Lifeng Shang and Xin Jiang and Qun Liu and Wei Wang}, year={2023}, eprint={2310.20410}, archivePrefix={arXiv}, primaryClass={cs.CL} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
FollowBench数据集的构建,旨在系统而精确地评估大型语言模型(LLMs)的指令遵循能力。该数据集涵盖了内容、情境、风格、格式和示例等五种不同类型的细粒度约束,采用多级机制,逐级增加单个约束,以适应不同难度的精确约束遵循估计。通过引导强LLMs沿着约束演变路径处理具有挑战性的开放式指令,评估模型是否满足每个单独的约束。
使用方法
使用FollowBench进行评估,首先需要安装相关依赖,接着执行模型推断和LLM基评估脚本。最后,通过合并基于规则的评估结果和LLM基评估结果,并将最终结果保存至指定文件夹。该过程涉及到的脚本和命令均在数据集的官方文档中有详细说明,便于用户遵循和操作。
背景与挑战
背景概述
FollowBench数据集,由Yuxin Jiang等研究人员于2023年提出,旨在系统而精确地评估大型语言模型(LLMs)的指令遵循能力。该数据集涵盖了内容、情境、风格、格式和示例五种不同类型的细粒度约束,采用多层次机制,逐级增加单个约束,以评估模型在不同难度级别上的约束遵循效果。FollowBench的创建,为评估LLMs在指令遵循方面的性能提供了新的基准,对自然语言处理领域产生了显著影响。
当前挑战
该数据集在构建过程中面临的挑战主要包括:如何精确地定义和分类细粒度约束,以及如何有效地衡量LLMs在满足这些约束方面的表现。此外,数据集还必须解决如何平衡不同类型和难度级别的约束,以确保评估结果的全面性和公正性。在实际应用中,FollowBench也揭示了LLMs在指令遵循方面的不足,为未来的研究和改进指明了方向。
常用场景
经典使用场景
在自然语言处理领域,尤其是对大型语言模型的评估,FollowBench数据集提供了一个多级别细粒度约束遵循的基准,旨在系统而精确地评价LLMs的指令遵循能力。该数据集通过设置内容、情境、风格、格式和示例等不同类型的约束,以及逐级增加单个约束的难度,为研究者和工程师提供了一种精确的约束遵循评估方法。
解决学术问题
FollowBench解决了传统评估方法中难以全面、细致地评价模型对复杂指令的理解和执行能力的问题。通过引入细粒度约束和多级评估机制,该数据集揭示了当前LLMs在指令遵循方面的弱点,为未来的模型优化和研究提供了方向。
实际应用
在实际应用中,FollowBench可用于指导大型语言模型的设计与优化,帮助模型更好地理解和执行用户的复杂指令,从而提升自然语言交互系统的智能水平和用户满意度。此外,该数据集的评估结果也为模型的选择和部署提供了重要依据。
数据集最近研究
最新研究方向
近期,针对大型语言模型在遵循指令方面的能力评估,YuxinJiang等研究者提出了FollowBench数据集。该数据集通过多级别细粒度约束的方式,系统而精确地评估LLMs的指令遵循能力。研究显示,FollowBench综合涵盖了内容、情境、风格、格式和示例五种不同类型的细粒度约束,为评估模型在不同难度级别上的约束遵循提供了精确的量化手段。此外,该研究通过引导强LLMs处理具有挑战性的开放式指令,进一步揭示了LLMs在指令遵循方面的弱点,为未来的研究提供了方向。此数据集的推出,不仅为大型语言模型的研究和评估提供了新的视角,也为相关领域的研究者提供了宝贵的数据资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GAOKAO-Bench

GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。

arXiv 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Plants of the World Online (POWO)

Plants of the World Online (POWO) 是一个全球植物数据库,提供了关于植物物种的详细信息,包括分类学、分布、生态学和保护状态等。该数据库旨在为植物学家、生态学家和公众提供一个全面的植物信息资源。

powo.science.kew.org 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录