YuxinJiang/FollowBench|大型语言模型评估数据集|多语言数据集
收藏FollowBench 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别:
- 文本生成
- 问答
- 语言:
- 英语
- 中文
- 数据集名称: instruction following
- 数据规模: 1K<n<10K
数据集描述
- 名称: FollowBench
- 类型: 多层次细粒度约束遵循基准
- 目的: 系统性和精确地评估大型语言模型(LLMs)的指令遵循能力
- 特点:
- 包含五种不同类型的细粒度约束(内容、情境、风格、格式和示例)
- 引入多层次机制,逐步增加单个约束以增加难度
- 使用约束演化路径提示强LLMs处理开放式指令
- 评估模型: 14个闭源和开源的流行LLMs
更新记录
- 2023/12/20: 在FollowBench上评估了Qwen-Chat-72B/14B/7B
- 2023/12/15: 发布了中文版本的FollowBench
- 2023/11/14: 发布了第二版本的论文
- 2022/11/10: 发布了FollowBench的数据和代码
- 2023/10/31: 发布了第一版本的论文
数据集内容
评估方法
-
安装依赖: bash conda create -n followbench python=3.10 conda activate followbench conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia pip install -r requirements.txt
-
模型推理: bash cd FollowBench/ python code/model_inference.py --model_path <model_name_or_path>
-
基于LLM的评估: bash cd FollowBench/ python code/llm_eval.py --model_path <model_name_or_path> --api_key <your_own_gpt4_api_key>
-
合并评估结果并保存: bash cd FollowBench/ python code/eval.py --model_paths <a_list_of_evaluated_models>
最终结果将保存在名为
evaluation_result
的文件夹中。
引用
@misc{jiang2023followbench, title={FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models}, author={Yuxin Jiang and Yufei Wang and Xingshan Zeng and Wanjun Zhong and Liangyou Li and Fei Mi and Lifeng Shang and Xin Jiang and Qun Liu and Wei Wang}, year={2023}, eprint={2310.20410}, archivePrefix={arXiv}, primaryClass={cs.CL} }

YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
52,435条上海方言发音词典【数据堂】
上海方言发音词典包含5万多条词条,所有词语及发音均由上海话语言学专家制作,包含410个国际音标音素和74个上海话音素,上海话拼音共包含5个单字调,分别为阴平,阴去,阳去,阴入,阳入,标音准确。适用于上海话识别技术研发
OpenDataLab 收录