AlignBench

arXiv2023-12-06 更新2024-07-30 收录

下载链接：

https://github.com/THUDM/AlignBench

下载链接

链接失效反馈

官方服务：

资源简介：

一个全面的多维度基准，用于评估大型语言模型在汉语中的对齐情况。配备有人机交互的数据收集流程，使用规则校准的多维度LLM-as-Judge与思维链来生成解释和最终评级作为评估，确保高可靠性和可解释性。

A comprehensive multidimensional benchmark for evaluating the alignment of large language models in Chinese. Equipped with a data collection process that involves human-computer interaction, it utilizes a multidimensional LLM-as-Judge with a reasoning chain for generating explanations and final ratings as the evaluation criteria, ensuring high reliability and interpretability.

创建时间：

2023-12-01

原始信息汇总

AlignBench: 多维度中文对齐评测基准

数据集信息

AlignBench 是一个用于评估中文大语言模型对齐性能的全面、多维度的评测基准。数据集包含 683 个高质量评测数据，主要来自 ChatGLM 在线服务中真实用户的问题和研究人员构造的挑战性问题。

分类体系

数据集根据用户指令构建了一个全面的大语言模型能力分类体系，分为 8 个主要类别：

类别	中文名	样本数量
Fundamental Language Ability	基本任务	68
Advanced Chinese Understanding	中文理解	58
Open-ended Questions	综合问答	38
Writing Ability	文本写作	75
Logical Reasoning	逻辑推理	92
Mathematics	数学计算	112
Task-oriented Role Play	角色扮演	116
Professional Knowledge	专业能力	124

数据格式

每个样本包含以下字段：

question_id (整数)：问题的唯一标识符。
category (字符串)：问题所属的主要类别。
subcategory (字符串)：用于进一步分类的次要类别。
question (字符串)：实际用户查询。
reference (字符串)：对问题的参考或标准答案。
evidences (列表)：参考信息的来源网页和引用的信息。

示例

json { "question_id": 8, "category": "专业能力", "subcategory": "历史", "question": "麦哲伦航队在全球旅行时使用了六分仪测量经纬度么？", "reference": "不，麦哲伦航队在全球旅行时没有使用六分仪来测量经纬度。麦哲伦环球航行的时间是1519年—1522年，六分仪的原理由伊萨克·牛顿提出，而牛顿的出生时间是1643年1月4日，所以再麦哲伦航行的时间六分仪尚未被发明，使用六分仪是不可能的。", "evidences": [ { "url": "https://baike.baidu.com/item/%E6%96%90%E8%BF%AA%E5%8D%97%C2%B7%E9%BA%A6%E5%93%B2%E4%BC%A6/7397066#SnippetTab

", "quote": "1519年，率领船队开始环球航行。1521年4月27日夜间，麦哲伦在菲律宾死于部落冲突。船队在他死后继续向西航行，回到欧洲，并完成了人类首次环球航行。

" }, { "url": "https://baike.baidu.com/item/%E5%85%AD%E5%88%86%E4%BB%AA/749782?fr=ge_ala#3", "quote": "六分仪的原理由伊萨克·牛顿提出，1732年，英国海军开始将原始仪器安装在船艇上，因为当时最大测量角度是90度，因此被称为八分仪。1757年，约翰·坎贝尔船长将八分仪的测量夹角提高到120度，发展成为六分仪。其后六分仪的测量夹角虽然逐渐提升到144度，但是其名称却一直保持不变。" } ] }

搜集汇总

数据集介绍

构建方式

AlignBench 数据集通过一个半自动化的数据采集流程构建，结合了真实用户场景和人工校验。该流程首先从 ChatGLM 在线服务中提取真实用户查询，然后通过人工校验和修正确保查询的质量和多样性。数据集涵盖了8个主要类别，包括基本语言能力、高级中文理解、开放式问题、写作能力、逻辑推理、数学、任务导向的角色扮演和专业知识，共计683个样本。每个样本包含一个任务导向的查询、一个高质量的参考答案以及相应的类别标签。

特点

AlignBench 数据集的特点在于其多维度和多层次的评估框架，能够全面覆盖大语言模型在实际应用中的多种能力。数据集不仅包括传统的语言理解和处理任务，还特别强调了中文理解和专业知识的能力。此外，数据集采用了规则校准的多维度大模型评估方法，通过 Chain-of-Thought 生成解释和最终评分，确保评估的高可靠性和可解释性。

使用方法

使用 AlignBench 数据集时，研究人员可以通过提供的 API 接口使用 CritiqueLLM 模型对大语言模型的中文对齐能力进行评估。数据集的评估方法包括多维度的规则校准评分，涵盖事实正确性、用户满意度、逻辑连贯性等多个维度。通过这些评估，研究人员可以获得大语言模型在不同任务和领域中的表现，并据此进行模型优化和改进。

背景与挑战

背景概述

AlignBench是由清华大学知识工程组（KEG）和智谱AI合作开发的多维度基准测试数据集，旨在评估大型语言模型（LLMs）在中文对齐方面的表现。该数据集由Xiao Liu、Xuanyu Lei等研究人员于2023年创建，其核心研究问题是如何有效地评估新兴中文LLMs的对齐能力。AlignBench通过一个包含人类参与的数据采集流程，采用规则校准的多维度LLM-as-Judge方法，生成解释和最终评分，确保评估的高可靠性和可解释性。该数据集的引入填补了中文LLMs对齐评估的空白，对推动相关领域的发展具有重要影响力。

当前挑战

AlignBench在构建过程中面临多重挑战。首先，设计一个全面且可靠的LLM对齐基准测试需要满足多个重要要求，包括真实用户场景、开放式问题、挑战性任务和自动评判。其次，构建过程中需要处理数据采集的多样性和真实性，确保查询形式和主题的广泛性。此外，自动评判系统的开发和校准也是一个技术难点，需要确保评判模型能够生成客观和公平的评估。最后，如何在不依赖大量人工反馈的情况下，实现对LLMs对齐能力的有效评估，是该数据集面临的主要挑战之一。

常用场景

经典使用场景

AlignBench 数据集的经典使用场景在于评估大型语言模型（LLMs）在中文环境下的对齐能力。通过提供多样化的真实用户场景查询，该数据集能够全面评估LLMs在处理中文任务时的表现，包括基本语言能力、高级中文理解、开放式问题回答、写作能力、逻辑推理、数学计算、任务导向的角色扮演以及专业知识等多个维度。

实际应用

在实际应用中，AlignBench 数据集为开发者和研究者提供了一个强大的工具，用于测试和优化中文LLMs的对齐能力。通过该数据集，开发者可以识别模型在不同任务和场景中的弱点，并进行针对性的改进。此外，AlignBench还提供了公开的API，使得研究人员能够方便地在其研究中使用该数据集进行模型评估和比较。

衍生相关工作

基于 AlignBench 数据集，许多相关工作得以展开，包括但不限于改进LLMs在中文任务中的表现、开发新的评估方法以及探索LLMs在多语言环境下的对齐能力。例如，CritiqueLLM 作为一个专门的中文评估LLM，通过恢复GPT-4的评估能力，进一步提升了AlignBench的评估效果。此外，还有研究致力于通过该数据集发现和解决LLMs在中文处理中的特定问题，推动了中文自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集