Xiezhi

arXiv2024-03-11 更新2024-07-30 收录

下载链接：

https://github.com/MikeGu721/XiezhiBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Xiezhi是一个全面评估套件，设计用于评估整体领域知识，包含516个不同学科的多项选择题，涵盖13个不同主题，共有249,587个问题，以及Xiezhi-Specialty和Xiezhi-Interdiscipline两个子集，各含15,000个问题。

Xiezhi is a comprehensive evaluation suite designed to assess holistic domain knowledge. It consists of multiple-choice questions from 516 distinct disciplines across 13 different topics, with a total of 249,587 questions. Additionally, it includes two subsets: Xiezhi-Specialty and Xiezhi-Interdiscipline, each containing 15,000 questions.

创建时间：

2023-06-09

原始信息汇总

数据集概述

Xiezhi（獬豸）是一个用于评估语言模型（LMs）的综合评估套件。它包含249587道多选题，涵盖516个不同学科和四个难度级别。

数据集详情

题目设置

所有测试的语言模型需要从50个选项中选择最佳答案。
每个问题除了正确答案外，还设置了3个迷惑选项，另外46个选项是从Xiezhi所有问题中的所有选项随机抽取的。

评估指标

使用Mean Reciprocal Rank（MRR）作为评估指标，计算正确答案的倒数排名。

数据示例

提供了Xiezhi专业领域和跨学科领域的题目示例。
展示了少样本学习设置的示例。

使用方法

测试可以在包含C-Eval、M3KE、MMLU、Xiezhi-Inter和Xiezhi-Spec的模型集合上进行，这些模型包含在./Tester/model_test.py文件中。
任何人都可以通过运行./Tester/test.sh来进行评估。
对于自定义数据，需要重写./Tester/model_test.py中的_get_data函数。

许可证

该工作基于MIT许可证。
Xiezhi数据集基于Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

引用

请在使用数据集时引用以下论文：

@article{gu2023xiezhi, title={Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation}, author={Zhouhong, Gu and Xiaoxuan, Zhu and Haoning, Ye and Lin, Zhang and Jianchen, Wang and Sihang, Jiang and Zhuozhi, Xiong and Zihan, Li and Qianyu, He and Rui, Xu and Wenhao, Huang and Weiguo, Zheng and Hongwei, Feng and Yanghua, Xiao} journal={arXiv:2304.11679}, year={2023} }

搜集汇总

数据集介绍

构建方式

Xiezhi数据集的构建过程涵盖了从多个来源收集数据、自动生成问题以及手动标注等多个步骤。首先，数据集从中国的各类考试中收集了近170,000道选择题，并通过自动生成方法从学术调查中产生了80,000道选择题。随后，研究人员从中国研究生入学考试中手动筛选了20,124道问题，形成了Xiezhi-Meta数据集，用于训练一个标注模型。该模型能够自动为问题分配学科标签，并进一步标注了170,000道来自不同考试的选择题和80,000道自动生成的问题。为了确保数据集的多样性和平衡性，Xiezhi还包含了XiezhiSpecialty和Xiezhi-Interdiscipline两个子集，分别包含14,041和10,746道问题，涵盖了单一学科和跨学科的知识。

特点

Xiezhi数据集的特点在于其广泛的学科覆盖和大量的题目数量。该数据集涵盖了516个学科，涉及13个主要学科类别，包含249,587道问题。XiezhiSpecialty和Xiezhi-Interdiscipline子集分别专注于单一学科和跨学科的问题，确保了数据集的多样性和深度。此外，Xiezhi采用了50个选项的多选题形式，显著降低了随机猜测的准确性，从而更好地揭示了模型的真实能力。数据集还提供了中英双语版本，进一步扩展了其适用性。

使用方法

Xiezhi数据集的使用方法包括对47种前沿大语言模型（LLMs）的评估。评估过程采用了0-shot、1-shot和3-shot的少样本学习设置，通过生成概率对每个选项进行排序，避免了传统多选题评估中的偏差。评估指标包括平均倒数排名（MRR）和Hit@k，能够更精确地衡量模型的表现。Xiezhi的广泛学科覆盖和大量题目使其成为评估不同能力模型的理想基准，尤其适用于分析模型在多个知识领域中的表现差异。

背景与挑战

背景概述

Xiezhi数据集由复旦大学知识工场研究实验室于2023年创建，旨在全面评估大型语言模型（LLMs）在跨学科知识理解方面的能力。该数据集涵盖了516个学科，包含249,587道选择题，涵盖了13个主要学科类别，如哲学、经济学、法学、教育学、文学、历史、自然科学、工程学、农学、医学、军事科学、管理学和艺术学。Xiezhi的创建是为了填补现有基准测试在任务覆盖范围、数据新鲜度和评估方法上的不足，特别是在面对快速发展的LLMs时，现有的基准测试如MMLU、BIG-bench等已无法满足需求。Xiezhi的命名源自中国神话中的神兽獬豸，象征着公平与判断，体现了该数据集在公平、全面评估LLMs能力方面的目标。

当前挑战

Xiezhi数据集在构建和应用过程中面临多重挑战。首先，随着LLMs的规模和复杂性不断增加，现有的基准测试往往在发布后不久就被纳入模型的训练数据中，导致其评估意义迅速减弱。Xiezhi通过自动更新机制确保数据的新鲜性，但仍需解决如何持续生成高质量、多样化的跨学科问题。其次，Xiezhi采用了50个选项的多选题形式，显著降低了随机猜测的准确性，但也增加了模型评估的计算复杂性和难度。此外，Xiezhi在构建过程中需要处理大量来自不同考试和学术文献的原始数据，如何确保问题的准确性、合理性和公平性，尤其是在跨文化和跨语言背景下，是一个巨大的挑战。最后，Xiezhi在评估LLMs时采用了生成概率排名的方法，虽然提高了评估的准确性，但也增加了计算成本和复杂性。

常用场景

经典使用场景

Xiezhi数据集广泛应用于评估大型语言模型（LLMs）在跨学科知识理解方面的能力。其经典使用场景包括对模型在科学、工程、农学、医学等领域的知识掌握情况进行全面测试。通过涵盖516个学科的249,587道选择题，Xiezhi能够有效评估模型在不同学科中的表现，尤其是在多学科交叉问题上的解决能力。

衍生相关工作

Xiezhi数据集的推出催生了一系列相关研究工作。首先，基于Xiezhi的评估结果，研究人员可以进一步优化LLMs的训练策略，提升模型在特定学科中的表现。其次，Xiezhi的自动更新机制为其他基准测试的设计提供了新的思路，推动了评估方法的创新。此外，Xiezhi的多学科分类体系也为其他领域的数据集构建提供了参考，促进了跨学科知识评估的标准化和系统化。

数据集最近研究