five

Xiezhi|知识评估数据集|学科交叉数据集

收藏
arXiv2024-03-11 更新2024-07-30 收录
知识评估
学科交叉
下载链接:
https://github.com/MikeGu721/XiezhiBenchmark
下载链接
链接失效反馈
资源简介:
Xiezhi是一个全面评估套件,设计用于评估整体领域知识,包含516个不同学科的多项选择题,涵盖13个不同主题,共有249,587个问题,以及Xiezhi-Specialty和Xiezhi-Interdiscipline两个子集,各含15,000个问题。
创建时间:
2023-06-09
原始信息汇总

数据集概述

Xiezhi(獬豸)是一个用于评估语言模型(LMs)的综合评估套件。它包含249587道多选题,涵盖516个不同学科和四个难度级别。

数据集详情

题目设置

  • 所有测试的语言模型需要从50个选项中选择最佳答案。
  • 每个问题除了正确答案外,还设置了3个迷惑选项,另外46个选项是从Xiezhi所有问题中的所有选项随机抽取的。

评估指标

  • 使用Mean Reciprocal Rank(MRR)作为评估指标,计算正确答案的倒数排名。

数据示例

  • 提供了Xiezhi专业领域和跨学科领域的题目示例。
  • 展示了少样本学习设置的示例。

使用方法

  • 测试可以在包含C-Eval、M3KE、MMLU、Xiezhi-Inter和Xiezhi-Spec的模型集合上进行,这些模型包含在./Tester/model_test.py文件中。
  • 任何人都可以通过运行./Tester/test.sh来进行评估。
  • 对于自定义数据,需要重写./Tester/model_test.py中的_get_data函数。

许可证

  • 该工作基于MIT许可证。
  • Xiezhi数据集基于Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

引用

请在使用数据集时引用以下论文:

@article{gu2023xiezhi, title={Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation}, author={Zhouhong, Gu and Xiaoxuan, Zhu and Haoning, Ye and Lin, Zhang and Jianchen, Wang and Sihang, Jiang and Zhuozhi, Xiong and Zihan, Li and Qianyu, He and Rui, Xu and Wenhao, Huang and Weiguo, Zheng and Hongwei, Feng and Yanghua, Xiao} journal={arXiv:2304.11679}, year={2023} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Xiezhi数据集的构建过程涵盖了从多个来源收集数据、自动生成问题以及手动标注等多个步骤。首先,数据集从中国的各类考试中收集了近170,000道选择题,并通过自动生成方法从学术调查中产生了80,000道选择题。随后,研究人员从中国研究生入学考试中手动筛选了20,124道问题,形成了Xiezhi-Meta数据集,用于训练一个标注模型。该模型能够自动为问题分配学科标签,并进一步标注了170,000道来自不同考试的选择题和80,000道自动生成的问题。为了确保数据集的多样性和平衡性,Xiezhi还包含了XiezhiSpecialty和Xiezhi-Interdiscipline两个子集,分别包含14,041和10,746道问题,涵盖了单一学科和跨学科的知识。
特点
Xiezhi数据集的特点在于其广泛的学科覆盖和大量的题目数量。该数据集涵盖了516个学科,涉及13个主要学科类别,包含249,587道问题。XiezhiSpecialty和Xiezhi-Interdiscipline子集分别专注于单一学科和跨学科的问题,确保了数据集的多样性和深度。此外,Xiezhi采用了50个选项的多选题形式,显著降低了随机猜测的准确性,从而更好地揭示了模型的真实能力。数据集还提供了中英双语版本,进一步扩展了其适用性。
使用方法
Xiezhi数据集的使用方法包括对47种前沿大语言模型(LLMs)的评估。评估过程采用了0-shot、1-shot和3-shot的少样本学习设置,通过生成概率对每个选项进行排序,避免了传统多选题评估中的偏差。评估指标包括平均倒数排名(MRR)和Hit@k,能够更精确地衡量模型的表现。Xiezhi的广泛学科覆盖和大量题目使其成为评估不同能力模型的理想基准,尤其适用于分析模型在多个知识领域中的表现差异。
背景与挑战
背景概述
Xiezhi数据集由复旦大学知识工场研究实验室于2023年创建,旨在全面评估大型语言模型(LLMs)在跨学科知识理解方面的能力。该数据集涵盖了516个学科,包含249,587道选择题,涵盖了13个主要学科类别,如哲学、经济学、法学、教育学、文学、历史、自然科学、工程学、农学、医学、军事科学、管理学和艺术学。Xiezhi的创建是为了填补现有基准测试在任务覆盖范围、数据新鲜度和评估方法上的不足,特别是在面对快速发展的LLMs时,现有的基准测试如MMLU、BIG-bench等已无法满足需求。Xiezhi的命名源自中国神话中的神兽獬豸,象征着公平与判断,体现了该数据集在公平、全面评估LLMs能力方面的目标。
当前挑战
Xiezhi数据集在构建和应用过程中面临多重挑战。首先,随着LLMs的规模和复杂性不断增加,现有的基准测试往往在发布后不久就被纳入模型的训练数据中,导致其评估意义迅速减弱。Xiezhi通过自动更新机制确保数据的新鲜性,但仍需解决如何持续生成高质量、多样化的跨学科问题。其次,Xiezhi采用了50个选项的多选题形式,显著降低了随机猜测的准确性,但也增加了模型评估的计算复杂性和难度。此外,Xiezhi在构建过程中需要处理大量来自不同考试和学术文献的原始数据,如何确保问题的准确性、合理性和公平性,尤其是在跨文化和跨语言背景下,是一个巨大的挑战。最后,Xiezhi在评估LLMs时采用了生成概率排名的方法,虽然提高了评估的准确性,但也增加了计算成本和复杂性。
常用场景
经典使用场景
Xiezhi数据集广泛应用于评估大型语言模型(LLMs)在跨学科知识理解方面的能力。其经典使用场景包括对模型在科学、工程、农学、医学等领域的知识掌握情况进行全面测试。通过涵盖516个学科的249,587道选择题,Xiezhi能够有效评估模型在不同学科中的表现,尤其是在多学科交叉问题上的解决能力。
衍生相关工作
Xiezhi数据集的推出催生了一系列相关研究工作。首先,基于Xiezhi的评估结果,研究人员可以进一步优化LLMs的训练策略,提升模型在特定学科中的表现。其次,Xiezhi的自动更新机制为其他基准测试的设计提供了新的思路,推动了评估方法的创新。此外,Xiezhi的多学科分类体系也为其他领域的数据集构建提供了参考,促进了跨学科知识评估的标准化和系统化。
数据集最近研究
最新研究方向
随着大语言模型(LLMs)的快速发展,Xiezhi数据集作为领域知识评估的综合性基准,正在推动LLMs在跨学科知识理解与推理能力方面的研究。Xiezhi涵盖了516个学科领域,包含249,587道选择题,旨在评估模型在科学、工程、农学、医学等领域的表现。最新研究表明,尽管LLMs在科学、工程等领域已超越人类平均水平,但在经济学、法学、教育学等领域的表现仍显不足。Xiezhi的独特之处在于其自动更新机制和细粒度的评估维度,能够有效捕捉模型在不同知识领域的细微差异。此外,Xiezhi还引入了XiezhiSpecialty和Xiezhi-Interdiscipline两个子集,分别评估单一领域和跨领域的知识整合能力。这些研究为LLMs的领域知识评估提供了新的视角,并为未来模型优化和跨学科应用奠定了基础。
相关研究论文
  • 1
    Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录