five

PandaLM测试数据集|语言模型评估数据集|人工标注数据集

收藏
arXiv2024-05-24 更新2024-07-30 收录
语言模型评估
人工标注
下载链接:
https://github.com/WeOpenML/PandaLM
下载链接
链接失效反馈
资源简介:
一个多样的人工标注测试数据集,所有上下文由人类生成,标签与人类偏好对齐,用于评估大型语言模型的性能。
创建时间:
2023-06-08
原始信息汇总

PandaLM: ReProducible and Automated Language Model Assessment

概述

PandaLM 是一个旨在提供可重复和自动化的大型语言模型(LLM)比较评估的工具。通过给定相同的上下文,PandaLM 可以比较不同 LLM 的响应并提供决策理由和参考答案。目标用户包括拥有保密数据且寻求可重复性的组织和研究实验室。PandaLM 允许这些组织在不损害数据安全或产生高成本的情况下进行评估,并获得可重复的结果。

数据集

训练数据

训练数据旨在使模型不仅能够评估给定上下文的不同响应,还能生成参考响应。每个实例包含一个输入元组(指令、输入、响应1、响应2)和一个输出元组(评估结果、评估理由、参考响应)。输入元组的指令和输入来自 Alpaca 52K 数据,响应对由 LLaMA-7B、Bloom-7B、Cerebras-GPT-6.7B、OPT-7B 和 Pythia-6.9B 提供。输出元组包括评估结果、简要解释和参考响应。训练数据包含 300K 样本,原始未过滤数据有 1M 样本。

测试数据

测试数据是一个人工标注的数据集,用于验证 PandaLM 的评估能力。每个实例包含一个指令和输入,两个由不同指令调整的 LLM 生成的响应。任务是比较两个响应的质量。测试数据从 self-instruct 的人类评估数据中生成和采样,包含多样化的任务和内容。标注由三个不同的人类评估者独立完成。测试数据包含 1K 样本,原始未过滤数据有 2.5K 样本。

实验结果

PandaLM-7B 在测试数据集上的 F1 分数达到了 GPT-3.5 的 93.75% 和 GPT-4 的 88.28%。

贡献

欢迎对 PandaLM 进行贡献。请遵循以下步骤:

  1. 分叉仓库。
  2. 创建一个包含您更改的新分支。
  3. 提交一个包含清晰描述的更改的拉取请求。

引用

Plain @article{pandalm2024, title={PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization}, author={Wang, Yidong and Yu, Zhuohao and Zeng, Zhengran and Yang, Linyi and Wang, Cunxiang and Chen, Hao and Jiang, Chaoya and Xie, Rui and Wang, Jindong and Xie, Xing and Ye, Wei and Zhang, Shikun and Zhang, Yue}, booktitle={International Conference on Learning Representations (ICLR)}, year={2024} }

许可证

PandaLM 的模型权重遵循 LLaMA 许可证。训练数据许可证将在上传训练数据时添加。其余部分遵循 Apache License 2.0。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

QM9

QM9数据集包含134k个有机小分子化合物的量子化学计算结果,涵盖了12个量子化学性质,如分子能量、电离能、电子亲和能等。

quantum-machine.org 收录

NuminaMath-CoT

数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。

huggingface 收录