five

XiezhiBenchmark

收藏
github2023-06-01 更新2025-02-08 收录
下载链接:
https://github.com/mikegu721/xiezhibenchmark
下载链接
链接失效反馈
资源简介:
“獬豸基准”数据集包含了249,587道双语多项选择题,涵盖13个类别下的516个学科领域。这些题目主要来源于两个渠道:约17万道题目来自六种不同的考试,另外约8万道题目是通过自动更新框架自动生成的。该数据集的评估方法采用代码驱动的评估方式。

The 'Xiezhi Benchmark' dataset encompasses 249,587 bilingual multiple-choice questions, spanning 516 academic fields across 13 categories. The questions are primarily sourced from two channels: approximately 170,000 questions come from six different examinations, while an additional 80,000 questions are automatically generated through an automated update framework. The evaluation method for this dataset employs a code-driven approach.
提供机构:
复旦大学
创建时间:
2023-06-01
原始信息汇总

Xiezhi (獬豸) 数据集概述

数据集简介

  • 目的:用于全面评估语言模型(LMs)的性能。
  • 规模:包含249,587个多选题,涵盖516个不同学科和四个难度级别。
  • 特点:旨在帮助开发者跟踪语言模型的进展并分析其重要优势/不足。

数据详情

  • 问题类型:多选题,每个问题有50个选项。
  • 选项设置
    • 每个问题包含1个正确答案和3个混淆选项。
    • 其余46个选项随机从所有问题的选项中抽取。
  • 示例
    • 专业领域问题示例:参见resources/question_spec.png
    • 跨学科问题示例:参见resources/question_inter.png
    • 少样本学习设置示例:参见resources/question-3shot.png

实验设置

  • 评估指标:平均倒数排名(MRR),用于衡量模型将正确答案排在前列的能力。
  • 模型评估
    • 评估了45个开源模型和两个API模型(ChatGPT和GPT-4)。
    • 结果展示了零样本学习中的模型排名。

使用方式

  • 测试脚本:通过运行./Tester/test.sh进行评估。
  • 自定义数据:需重写./Tester/model_test.py中的_get_data函数。

许可证

  • 代码:MIT许可证。
  • 数据集:知识共享署名-非商业性使用-相同方式共享4.0国际许可证(CC BY-NC-SA 4.0)。

引用

如需使用该数据集,请引用以下论文: bibtex @article{gu2023xiezhi, title={Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation}, author={Zhouhong, Gu and Xiaoxuan, Zhu and Haoning, Ye and Lin, Zhang and Jianchen, Wang and Sihang, Jiang and Zhuozhi, Xiong and Zihan, Li and Qianyu, He and Rui, Xu and Wenhao, Huang and Weiguo, Zheng and Hongwei, Feng and Yanghua, Xiao}, journal={arXiv:2304.11679}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
XiezhiBenchmark数据集的构建基于多学科领域的广泛覆盖,涵盖了516个不同学科的249587道多选题。每道题目均设有四个难度级别,旨在全面评估语言模型的能力。题目设计时,除了正确答案外,还包含三个混淆选项,并随机从所有题目中抽取46个选项,以增加测试的复杂性。通过这种设计,数据集能够有效区分不同语言模型的性能差异。
特点
XiezhiBenchmark数据集的特点在于其广泛的多学科覆盖和多样化的题目设计。数据集不仅包含大量题目,还通过设置多个混淆选项和随机抽取选项的方式,增强了测试的挑战性。此外,数据集还提供了不同难度级别的题目,使得评估结果更具层次性和区分度。通过这种设计,XiezhiBenchmark能够全面评估语言模型在不同领域和难度下的表现。
使用方法
使用XiezhiBenchmark数据集进行测试时,用户可以通过运行`./Tester/test.sh`脚本来启动评估过程。数据集支持对多种模型进行评估,包括C-Eval、M3KE、MMLU、Xiezhi-Inter和Xiezhi-Spec等。用户还可以根据自身需求,修改`./Tester/model_test.py`文件中的`_get_data`函数,以适配自定义数据。通过这种方式,XiezhiBenchmark为开发者提供了一个灵活且高效的评估工具,帮助其深入分析语言模型的优缺点。
背景与挑战
背景概述
XiezhiBenchmark是一个专为语言模型(LMs)设计的综合评估套件,由249,587道多选题组成,涵盖516个不同学科和四个难度级别。该数据集由Zhouhong Gu等人于2023年创建,旨在帮助开发者追踪语言模型的进展并分析其重要优势与不足。XiezhiBenchmark的构建基于对多领域知识的全面覆盖,通过多样化的题目设计,能够有效评估模型在不同学科中的表现。该数据集的发布为语言模型的评估提供了新的基准,推动了相关领域的研究进展。
当前挑战
XiezhiBenchmark面临的挑战主要体现在两个方面。首先,该数据集旨在解决语言模型在多领域知识评估中的表现问题,尤其是在面对复杂、多样化的学科内容时,模型的表现差异显著。其次,数据集的构建过程中,研究人员需要设计大量涵盖广泛学科的多选题,并确保题目的难度和混淆选项的合理性,这对数据集的多样性和质量提出了极高的要求。此外,实验设置中选项数量的增加显著降低了模型的性能,这进一步加剧了模型之间的性能差距,为评估带来了额外的复杂性。
常用场景
经典使用场景
XiezhiBenchmark作为一个综合性评估套件,广泛应用于语言模型的性能评估。其包含的249587道多选题覆盖了516个不同学科和四个难度级别,能够全面测试模型在广泛知识领域的表现。研究人员通过该数据集,能够深入分析模型在不同学科和难度下的表现差异,从而为模型的优化提供科学依据。
实际应用
在实际应用中,XiezhiBenchmark被广泛用于语言模型的开发与优化。开发者可以通过该数据集追踪模型的进展,识别其在特定领域的优势与不足。此外,该数据集还为模型在教育和知识服务等领域的应用提供了基准测试,帮助提升模型在实际场景中的表现。
衍生相关工作
XiezhiBenchmark的发布推动了多项相关研究的发展。基于该数据集,研究人员提出了多种改进语言模型性能的方法,如增强模型的跨学科知识整合能力和优化多选项推理策略。此外,该数据集还激发了更多关于语言模型评估标准的研究,为未来的模型开发提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作