PandaLM测试数据集

arXiv2024-05-24 更新2024-07-30 收录

下载链接：

https://github.com/WeOpenML/PandaLM

下载链接

链接失效反馈

资源简介：

一个多样的人工标注测试数据集，所有上下文由人类生成，标签与人类偏好对齐，用于评估大型语言模型的性能。

创建时间：

2023-06-08

原始信息汇总

PandaLM: ReProducible and Automated Language Model Assessment

概述

PandaLM 是一个旨在提供可重复和自动化的大型语言模型（LLM）比较评估的工具。通过给定相同的上下文，PandaLM 可以比较不同 LLM 的响应并提供决策理由和参考答案。目标用户包括拥有保密数据且寻求可重复性的组织和研究实验室。PandaLM 允许这些组织在不损害数据安全或产生高成本的情况下进行评估，并获得可重复的结果。

数据集

训练数据

训练数据旨在使模型不仅能够评估给定上下文的不同响应，还能生成参考响应。每个实例包含一个输入元组（指令、输入、响应1、响应2）和一个输出元组（评估结果、评估理由、参考响应）。输入元组的指令和输入来自 Alpaca 52K 数据，响应对由 LLaMA-7B、Bloom-7B、Cerebras-GPT-6.7B、OPT-7B 和 Pythia-6.9B 提供。输出元组包括评估结果、简要解释和参考响应。训练数据包含 300K 样本，原始未过滤数据有 1M 样本。

测试数据

测试数据是一个人工标注的数据集，用于验证 PandaLM 的评估能力。每个实例包含一个指令和输入，两个由不同指令调整的 LLM 生成的响应。任务是比较两个响应的质量。测试数据从 self-instruct 的人类评估数据中生成和采样，包含多样化的任务和内容。标注由三个不同的人类评估者独立完成。测试数据包含 1K 样本，原始未过滤数据有 2.5K 样本。

实验结果

PandaLM-7B 在测试数据集上的 F1 分数达到了 GPT-3.5 的 93.75% 和 GPT-4 的 88.28%。

贡献

欢迎对 PandaLM 进行贡献。请遵循以下步骤：

分叉仓库。
创建一个包含您更改的新分支。
提交一个包含清晰描述的更改的拉取请求。

引用

Plain @article{pandalm2024, title={PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization}, author={Wang, Yidong and Yu, Zhuohao and Zeng, Zhengran and Yang, Linyi and Wang, Cunxiang and Chen, Hao and Jiang, Chaoya and Xie, Rui and Wang, Jindong and Xie, Xing and Ye, Wei and Zhang, Shikun and Zhang, Yue}, booktitle={International Conference on Learning Representations (ICLR)}, year={2024} }

许可证

PandaLM 的模型权重遵循 LLaMA 许可证。训练数据许可证将在上传训练数据时添加。其余部分遵循 Apache License 2.0。

搜集汇总

数据集介绍

构建方式

在大型语言模型指令调优领域，评估基准的构建面临主观性与隐私保护的双重挑战。PandaLM测试数据集的构建采用了严谨的人工标注流程，其指令与输入均源自人类评估数据集，确保了语境的多样性与真实性。研究团队从多个同规模基础模型中生成配对响应，并邀请三位独立的人类评估员进行标注，重点关注相对简洁性、清晰度、指令遵循度、全面性与正式性等主观维度。通过排除标注分歧显著的样本，并确保评估者间一致性高于0.85，最终构建了一个包含1000个高质量样本的测试集，为评估模型的可靠性提供了坚实的数据基础。

特点

该数据集的核心特征在于其高度对齐人类偏好与多维度评估框架。不同于传统评估数据集仅关注客观正确性，PandaLM测试集深度融合了语言生成质量的主观评判标准，能够全面衡量模型在复杂语境下的综合表现。数据集覆盖了广泛的任务类型与内容领域，包括法律与生物医学等专业场景，体现了良好的领域适应性。此外，所有样本均经过严格的一致性筛选与噪声过滤，确保了标注结果的高信度与可复现性，为大型语言模型的自动化评估提供了兼具深度与广度的基准测试工具。

使用方法

该数据集主要用于验证与比较不同评估模型的性能，特别是其与人类判断的一致性。研究人员可将待评估的指令调优模型在数据集上生成响应，并利用PandaLM等评判模型或人类评估员进行对比分析，计算准确率、精确率、召回率与F1分数等指标。在实际应用中，该数据集能够支持超参数优化流程，通过系统化比较不同配置下模型的输出质量，识别最优训练策略。此外，数据集也可用于探究模型在分布外场景下的稳健性，为跨领域语言理解与生成研究提供重要的评估依据。

背景与挑战

背景概述

PandaLM测试数据集诞生于2024年，由北京大学、西湖大学与微软研究院的联合研究团队构建，旨在解决大语言模型指令微调中面临的超参数优化难题。随着Alpaca等项目引领指令微调范式的发展，研究者们普遍依赖固定超参数配置，缺乏针对不同模型架构与数据分布的自动化评估机制。该数据集作为PandaLM评估框架的核心验证基准，通过精心设计的人类标注流程，涵盖了从语法修正到专业领域问答的多样化任务场景，其构建严格遵循人类偏好对齐原则，标注者间一致性系数高达0.85以上，为指令微调模型的性能评估提供了可靠的人类标准参照。

当前挑战

该数据集需应对双重挑战：在领域问题层面，传统评估方法如BERTScore等仅关注文本相似度，难以衡量生成内容的指令遵循度、逻辑严谨性及表述清晰度等主观质量维度；而基于众包或商业API的评估则存在成本高昂、隐私泄露风险及结果不一致等问题。在构建过程中，研究团队面临标注质量控制的复杂性：需设计涵盖相对简洁性、形式规范性与上下文相关性等多维度的评估准则，并通过三轮独立标注与严格的一致性筛选确保数据可靠性。同时，为规避GPT-3.5蒸馏数据中的位置偏差与噪声干扰，开发了响应顺序交换验证与启发式过滤策略，最终在2500个原始样本中提炼出1000个高一致性样本，实现了评估维度从客观正确性到综合语言质量的范式突破。

常用场景

经典使用场景

在大型语言模型指令调优的优化过程中，PandaLM测试数据集作为评估基准，其经典使用场景在于自动化地比较不同超参数配置下模型的输出质量。该数据集通过人类标注的测试样本，覆盖了多样化的任务和语境，为模型评估提供了可靠的标准。研究人员利用该数据集对指令调优后的模型进行成对比较，从而识别出在主观评价维度上表现更优的模型配置。

解决学术问题

PandaLM测试数据集主要解决了指令调优中缺乏可靠、自动化评估方法的学术难题。传统评估往往依赖人工标注或基于API的评测，存在成本高、一致性差以及隐私泄露风险。该数据集通过构建与人类偏好对齐的标注数据，使模型能够综合考虑回答的简洁性、清晰度、指令遵循度、全面性和正式性等主观维度，从而为超参数优化提供了科学、可复现的评估依据。

衍生相关工作

基于PandaLM测试数据集，衍生出了一系列专注于语言模型自动评估与优化的相关研究。例如，后续工作探索了将类似评估框架扩展至特定领域（如法律、生物医学）的适应性，以及结合低秩适应等参数高效调优方法的集成应用。这些研究进一步推动了自动化、可解释且隐私保护的模型评估工具的发展，丰富了指令调优生态系统的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集