lmsys/mt_bench_human_judgments

Hugging Face2023-07-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lmsys/mt_bench_human_judgments

下载链接

链接失效反馈

资源简介：

--- dataset_info: features: - name: question_id dtype: int64 - name: model_a dtype: string - name: model_b dtype: string - name: winner dtype: string - name: judge dtype: string - name: conversation_a list: - name: content dtype: string - name: role dtype: string - name: conversation_b list: - name: content dtype: string - name: role dtype: string - name: turn dtype: int64 splits: - name: human num_bytes: 15003469 num_examples: 3355 - name: gpt4_pair num_bytes: 10679650 num_examples: 2400 download_size: 1388888 dataset_size: 25683119 license: cc-by-4.0 task_categories: - conversational - question-answering language: - en size_categories: - 1K<n<10K --- ## Content This dataset contains 3.3K expert-level pairwise human preferences for model responses generated by 6 models in response to 80 MT-bench questions. The 6 models are GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B, and LLaMA-13B. The annotators are mostly graduate students with expertise in the topic areas of each of the questions. The details of data collection can be found in our [paper](https://arxiv.org/abs/2306.05685). ## Agreement Calculation This Colab [notebook](https://colab.research.google.com/drive/1ctgygDRJhVGUJTQy8-bRZCl1WNcT8De6?usp=sharing) shows how to compute the agreement between humans and GPT-4 judge with the dataset. Our results show that humans and GPT-4 judge achieve over 80\% agreement, the same level of agreement between humans. ## Citation ``` @misc{zheng2023judging, title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena}, author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica}, year={2023}, eprint={2306.05685}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```

提供机构：

lmsys

原始信息汇总

数据集概述

数据集信息

特征（Features）:
- question_id: 数据类型为 int64
- model_a: 数据类型为 string
- model_b: 数据类型为 string
- winner: 数据类型为 string
- judge: 数据类型为 string
- conversation_a: 包含两个子特征
  - content: 数据类型为 string
  - role: 数据类型为 string
- conversation_b: 包含两个子特征
  - content: 数据类型为 string
  - role: 数据类型为 string
- turn: 数据类型为 int64
数据分割（Splits）:
- human: 大小为 15003469 字节，包含 3355 个样本
- gpt4_pair: 大小为 10679650 字节，包含 2400 个样本
下载大小（Download Size）: 1388888 字节
数据集大小（Dataset Size）: 25683119 字节
许可证（License）: cc-by-4.0
任务类别（Task Categories）:
- 对话（conversational）
- 问答（question-answering）
语言（Language）: 英语（en）
大小类别（Size Categories）: 1K<n<10K

数据集内容

包含 3.3K 专家级的人类偏好数据，用于评估 6 个模型对 80 个 MT-bench 问题的响应。
涉及的模型包括 GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B, 和 LLaMA-13B。
注释者主要是具有相关问题领域专业知识的研究生。

数据集用途

用于计算人类与 GPT-4 判断者之间的协议，显示两者之间的协议度超过 80%。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型生成内容的质量常依赖于人类专家的主观判断。本数据集通过精心设计的流程构建，首先选取了涵盖多领域的80个MT-bench问题，并邀请六种前沿模型生成回答，包括GPT-4、GPT-3.5等。随后，招募具备相关学科背景的研究生作为标注者，对模型生成的成对回答进行偏好标注，最终收集了超过3300条专家级的人类偏好数据，确保了评估的专业性和可靠性。

特点

该数据集的核心特点在于其高质量的人类标注与广泛的模型覆盖。数据集中包含了六种不同架构与规模的模型生成内容，涵盖了从通用对话到专业问答的多样场景。每个数据点均记录了标注者的选择及其依据，提供了丰富的元信息，如对话轮次与角色分配。此外，数据集还附带了基于GPT-4的自动评估结果，便于研究者对比人类与机器判断的一致性，为模型评估研究提供了多维度的参考基准。

使用方法

研究者可利用本数据集进行大型语言模型的性能评估与比较分析。典型应用包括计算不同模型在人类偏好上的胜率，或分析标注者与自动评估工具之间的一致性。数据集中的对话记录可直接用于训练或微调评估模型，提升其与人类判断的吻合度。同时，附带的代码示例展示了如何计算人类与GPT-4评估者之间的协议水平，为复现研究结果提供了便利，推动对话系统评估方法的标准化进程。

背景与挑战

背景概述

随着大规模语言模型的迅猛发展，如何客观评估其对话能力成为自然语言处理领域的关键议题。2023年，由LMSYS组织的研究团队发布了mt_bench_human_judgments数据集，旨在通过专家级的人类偏好标注，系统比较包括GPT-4、Claude-v1、Vicuna等在内的六种前沿模型的响应质量。该数据集围绕80个多轮对话问题构建，收录了超过3300条精细的成对偏好判断，为对话系统的评估提供了宝贵的基准数据，推动了基于人类反馈的模型优化研究。

当前挑战

该数据集致力于解决对话系统评估中主观性强、标准模糊的核心挑战，其构建需确保人类标注者具备足够的领域专业知识以做出可靠判断。在数据收集过程中，协调多位标注者达成一致偏好面临显著困难，涉及标注指南设计、个体偏差控制以及计算标注者间一致性等复杂环节。此外，将人类偏好与自动化评估方法（如GPT-4作为评判者）进行对齐，同样对评估框架的稳健性与泛化能力提出了严格要求。

常用场景

经典使用场景

在大型语言模型评估领域，lmsys/mt_bench_human_judgments数据集为研究者提供了一个基准平台，用于系统性地比较不同模型在开放域对话任务中的表现。该数据集通过收集专家级的人工偏好判断，涵盖了GPT-4、GPT-3.5、Claude-v1等六种前沿模型对80个多轮问题的响应，从而支持对模型回答质量进行精细化的横向对比分析。

实际应用

在实际应用中，该数据集被广泛用于指导模型选型和部署决策。企业及研究机构可依据其标注结果，筛选在特定对话场景下表现更优的模型，从而提升智能客服、教育辅助或内容生成等系统的用户体验。同时，它也为自动化评估工具的开发提供了训练数据，助力构建更高效、低成本的模型评估流程。

衍生相关工作

基于该数据集衍生的经典工作包括自动化评估框架的构建，如利用GPT-4作为评判员模拟人类偏好的研究，验证了AI评判与人类标注的高一致性。此外，该数据支撑了多篇关于模型对齐、偏好学习及评估方法优化的学术论文，为后续如Chatbot Arena等大规模评估平台的演进奠定了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集