five

YuxinJiang/FollowBench|大型语言模型评估数据集|多语言数据集

收藏
hugging_face2024-01-11 更新2024-03-04 收录
大型语言模型评估
多语言
下载链接:
https://hf-mirror.com/datasets/YuxinJiang/FollowBench
下载链接
链接失效反馈
资源简介:
FollowBench是一个多层级细粒度约束跟随基准,用于系统且精确地评估大语言模型(LLMs)的指令跟随能力。该数据集包括五种不同类型的细粒度约束(内容、情境、风格、格式和示例),并通过多层级机制逐步增加单个约束来评估LLMs在不同难度下的表现。数据集支持中英文,并提供了评估方法和代码。
提供机构:
YuxinJiang
原始信息汇总

FollowBench 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别:
    • 文本生成
    • 问答
  • 语言:
    • 英语
    • 中文
  • 数据集名称: instruction following
  • 数据规模: 1K<n<10K

数据集描述

  • 名称: FollowBench
  • 类型: 多层次细粒度约束遵循基准
  • 目的: 系统性和精确地评估大型语言模型(LLMs)的指令遵循能力
  • 特点:
    • 包含五种不同类型的细粒度约束(内容、情境、风格、格式和示例)
    • 引入多层次机制,逐步增加单个约束以增加难度
    • 使用约束演化路径提示强LLMs处理开放式指令
  • 评估模型: 14个闭源和开源的流行LLMs

更新记录

  • 2023/12/20: 在FollowBench上评估了Qwen-Chat-72B/14B/7B
  • 2023/12/15: 发布了中文版本的FollowBench
  • 2023/11/14: 发布了第二版本的论文
  • 2022/11/10: 发布了FollowBench的数据和代码
  • 2023/10/31: 发布了第一版本的论文

数据集内容

  • 数据文件: 可在data/目录下找到
  • 中文版本: 可在data_zh/目录下找到

评估方法

  • 安装依赖: bash conda create -n followbench python=3.10 conda activate followbench conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install -r requirements.txt

  • 模型推理: bash cd FollowBench/ python code/model_inference.py --model_path <model_name_or_path>

  • 基于LLM的评估: bash cd FollowBench/ python code/llm_eval.py --model_path <model_name_or_path> --api_key <your_own_gpt4_api_key>

  • 合并评估结果并保存: bash cd FollowBench/ python code/eval.py --model_paths <a_list_of_evaluated_models>

    最终结果将保存在名为evaluation_result的文件夹中。

引用

@misc{jiang2023followbench, title={FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models}, author={Yuxin Jiang and Yufei Wang and Xingshan Zeng and Wanjun Zhong and Liangyou Li and Fei Mi and Lifeng Shang and Xin Jiang and Qun Liu and Wei Wang}, year={2023}, eprint={2310.20410}, archivePrefix={arXiv}, primaryClass={cs.CL} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
FollowBench数据集的构建,旨在系统而精确地评估大型语言模型(LLMs)的指令遵循能力。该数据集涵盖了内容、情境、风格、格式和示例等五种不同类型的细粒度约束,采用多级机制,逐级增加单个约束,以适应不同难度的精确约束遵循估计。通过引导强LLMs沿着约束演变路径处理具有挑战性的开放式指令,评估模型是否满足每个单独的约束。
使用方法
使用FollowBench进行评估,首先需要安装相关依赖,接着执行模型推断和LLM基评估脚本。最后,通过合并基于规则的评估结果和LLM基评估结果,并将最终结果保存至指定文件夹。该过程涉及到的脚本和命令均在数据集的官方文档中有详细说明,便于用户遵循和操作。
背景与挑战
背景概述
FollowBench数据集,由Yuxin Jiang等研究人员于2023年提出,旨在系统而精确地评估大型语言模型(LLMs)的指令遵循能力。该数据集涵盖了内容、情境、风格、格式和示例五种不同类型的细粒度约束,采用多层次机制,逐级增加单个约束,以评估模型在不同难度级别上的约束遵循效果。FollowBench的创建,为评估LLMs在指令遵循方面的性能提供了新的基准,对自然语言处理领域产生了显著影响。
当前挑战
该数据集在构建过程中面临的挑战主要包括:如何精确地定义和分类细粒度约束,以及如何有效地衡量LLMs在满足这些约束方面的表现。此外,数据集还必须解决如何平衡不同类型和难度级别的约束,以确保评估结果的全面性和公正性。在实际应用中,FollowBench也揭示了LLMs在指令遵循方面的不足,为未来的研究和改进指明了方向。
常用场景
经典使用场景
在自然语言处理领域,尤其是对大型语言模型的评估,FollowBench数据集提供了一个多级别细粒度约束遵循的基准,旨在系统而精确地评价LLMs的指令遵循能力。该数据集通过设置内容、情境、风格、格式和示例等不同类型的约束,以及逐级增加单个约束的难度,为研究者和工程师提供了一种精确的约束遵循评估方法。
解决学术问题
FollowBench解决了传统评估方法中难以全面、细致地评价模型对复杂指令的理解和执行能力的问题。通过引入细粒度约束和多级评估机制,该数据集揭示了当前LLMs在指令遵循方面的弱点,为未来的模型优化和研究提供了方向。
实际应用
在实际应用中,FollowBench可用于指导大型语言模型的设计与优化,帮助模型更好地理解和执行用户的复杂指令,从而提升自然语言交互系统的智能水平和用户满意度。此外,该数据集的评估结果也为模型的选择和部署提供了重要依据。
数据集最近研究
最新研究方向
近期,针对大型语言模型在遵循指令方面的能力评估,YuxinJiang等研究者提出了FollowBench数据集。该数据集通过多级别细粒度约束的方式,系统而精确地评估LLMs的指令遵循能力。研究显示,FollowBench综合涵盖了内容、情境、风格、格式和示例五种不同类型的细粒度约束,为评估模型在不同难度级别上的约束遵循提供了精确的量化手段。此外,该研究通过引导强LLMs处理具有挑战性的开放式指令,进一步揭示了LLMs在指令遵循方面的弱点,为未来的研究提供了方向。此数据集的推出,不仅为大型语言模型的研究和评估提供了新的视角,也为相关领域的研究者提供了宝贵的数据资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

52,435条上海方言发音词典【数据堂】

上海方言发音词典包含5万多条词条,所有词语及发音均由上海话语言学专家制作,包含410个国际音标音素和74个上海话音素,上海话拼音共包含5个单字调,分别为阴平,阴去,阳去,阴入,阳入,标音准确。适用于上海话识别技术研发

OpenDataLab 收录