AlignBench|语言模型评估数据集|测评数据集数据集

arXiv2023-12-06 更新2024-07-30 收录

语言模型评估

测评数据集

下载链接：

https://github.com/THUDM/AlignBench

下载链接

链接失效反馈

资源简介：

一个全面的多维度基准，用于评估大型语言模型在汉语中的对齐情况。配备有人机交互的数据收集流程，使用规则校准的多维度LLM-as-Judge与思维链来生成解释和最终评级作为评估，确保高可靠性和可解释性。

A comprehensive multidimensional benchmark for evaluating the alignment of large language models in Chinese. Equipped with a data collection process that involves human-computer interaction, it utilizes a multidimensional LLM-as-Judge with a reasoning chain for generating explanations and final ratings as the evaluation criteria, ensuring high reliability and interpretability.

创建时间：

2023-12-01

原始信息汇总

AlignBench: 多维度中文对齐评测基准

数据集信息

AlignBench 是一个用于评估中文大语言模型对齐性能的全面、多维度的评测基准。数据集包含 683 个高质量评测数据，主要来自 ChatGLM 在线服务中真实用户的问题和研究人员构造的挑战性问题。

分类体系

数据集根据用户指令构建了一个全面的大语言模型能力分类体系，分为 8 个主要类别：

类别	中文名	样本数量
Fundamental Language Ability	基本任务	68
Advanced Chinese Understanding	中文理解	58
Open-ended Questions	综合问答	38
Writing Ability	文本写作	75
Logical Reasoning	逻辑推理	92
Mathematics	数学计算	112
Task-oriented Role Play	角色扮演	116
Professional Knowledge	专业能力	124

数据格式

每个样本包含以下字段：

question_id (整数)：问题的唯一标识符。
category (字符串)：问题所属的主要类别。
subcategory (字符串)：用于进一步分类的次要类别。
question (字符串)：实际用户查询。
reference (字符串)：对问题的参考或标准答案。
evidences (列表)：参考信息的来源网页和引用的信息。

示例

json { "question_id": 8, "category": "专业能力", "subcategory": "历史", "question": "麦哲伦航队在全球旅行时使用了六分仪测量经纬度么？", "reference": "不，麦哲伦航队在全球旅行时没有使用六分仪来测量经纬度。麦哲伦环球航行的时间是1519年—1522年，六分仪的原理由伊萨克·牛顿提出，而牛顿的出生时间是1643年1月4日，所以再麦哲伦航行的时间六分仪尚未被发明，使用六分仪是不可能的。", "evidences": [ { "url": "https://baike.baidu.com/item/%E6%96%90%E8%BF%AA%E5%8D%97%C2%B7%E9%BA%A6%E5%93%B2%E4%BC%A6/7397066#SnippetTab

", "quote": "1519年，率领船队开始环球航行。1521年4月27日夜间，麦哲伦在菲律宾死于部落冲突。船队在他死后继续向西航行，回到欧洲，并完成了人类首次环球航行。

" }, { "url": "https://baike.baidu.com/item/%E5%85%AD%E5%88%86%E4%BB%AA/749782?fr=ge_ala#3", "quote": "六分仪的原理由伊萨克·牛顿提出，1732年，英国海军开始将原始仪器安装在船艇上，因为当时最大测量角度是90度，因此被称为八分仪。1757年，约翰·坎贝尔船长将八分仪的测量夹角提高到120度，发展成为六分仪。其后六分仪的测量夹角虽然逐渐提升到144度，但是其名称却一直保持不变。" } ] }

AI搜集汇总

数据集介绍

构建方式

AlignBench 数据集通过一个半自动化的数据采集流程构建，结合了真实用户场景和人工校验。该流程首先从 ChatGLM 在线服务中提取真实用户查询，然后通过人工校验和修正确保查询的质量和多样性。数据集涵盖了8个主要类别，包括基本语言能力、高级中文理解、开放式问题、写作能力、逻辑推理、数学、任务导向的角色扮演和专业知识，共计683个样本。每个样本包含一个任务导向的查询、一个高质量的参考答案以及相应的类别标签。

特点

AlignBench 数据集的特点在于其多维度和多层次的评估框架，能够全面覆盖大语言模型在实际应用中的多种能力。数据集不仅包括传统的语言理解和处理任务，还特别强调了中文理解和专业知识的能力。此外，数据集采用了规则校准的多维度大模型评估方法，通过 Chain-of-Thought 生成解释和最终评分，确保评估的高可靠性和可解释性。

使用方法

使用 AlignBench 数据集时，研究人员可以通过提供的 API 接口使用 CritiqueLLM 模型对大语言模型的中文对齐能力进行评估。数据集的评估方法包括多维度的规则校准评分，涵盖事实正确性、用户满意度、逻辑连贯性等多个维度。通过这些评估，研究人员可以获得大语言模型在不同任务和领域中的表现，并据此进行模型优化和改进。

背景与挑战

背景概述

AlignBench是由清华大学知识工程组（KEG）和智谱AI合作开发的多维度基准测试数据集，旨在评估大型语言模型（LLMs）在中文对齐方面的表现。该数据集由Xiao Liu、Xuanyu Lei等研究人员于2023年创建，其核心研究问题是如何有效地评估新兴中文LLMs的对齐能力。AlignBench通过一个包含人类参与的数据采集流程，采用规则校准的多维度LLM-as-Judge方法，生成解释和最终评分，确保评估的高可靠性和可解释性。该数据集的引入填补了中文LLMs对齐评估的空白，对推动相关领域的发展具有重要影响力。

当前挑战

AlignBench在构建过程中面临多重挑战。首先，设计一个全面且可靠的LLM对齐基准测试需要满足多个重要要求，包括真实用户场景、开放式问题、挑战性任务和自动评判。其次，构建过程中需要处理数据采集的多样性和真实性，确保查询形式和主题的广泛性。此外，自动评判系统的开发和校准也是一个技术难点，需要确保评判模型能够生成客观和公平的评估。最后，如何在不依赖大量人工反馈的情况下，实现对LLMs对齐能力的有效评估，是该数据集面临的主要挑战之一。

常用场景

经典使用场景

AlignBench 数据集的经典使用场景在于评估大型语言模型（LLMs）在中文环境下的对齐能力。通过提供多样化的真实用户场景查询，该数据集能够全面评估LLMs在处理中文任务时的表现，包括基本语言能力、高级中文理解、开放式问题回答、写作能力、逻辑推理、数学计算、任务导向的角色扮演以及专业知识等多个维度。

实际应用

在实际应用中，AlignBench 数据集为开发者和研究者提供了一个强大的工具，用于测试和优化中文LLMs的对齐能力。通过该数据集，开发者可以识别模型在不同任务和场景中的弱点，并进行针对性的改进。此外，AlignBench还提供了公开的API，使得研究人员能够方便地在其研究中使用该数据集进行模型评估和比较。

衍生相关工作

基于 AlignBench 数据集，许多相关工作得以展开，包括但不限于改进LLMs在中文任务中的表现、开发新的评估方法以及探索LLMs在多语言环境下的对齐能力。例如，CritiqueLLM 作为一个专门的中文评估LLM，通过恢复GPT-4的评估能力，进一步提升了AlignBench的评估效果。此外，还有研究致力于通过该数据集发现和解决LLMs在中文处理中的特定问题，推动了中文自然语言处理领域的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Amazon Reviews 2023

该数据集包含用户评论，如评分、评论文本、有用投票等，以及商品元数据，如产品描述、定价、图片等。数据集比以前的版本大245.2%，包含571.54M条评论，并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录