five

XiezhiBenchmark|双语评估数据集|多项选择题数据集

收藏
github2023-06-01 更新2025-02-08 收录
双语评估
多项选择题
下载链接:
https://github.com/mikegu721/xiezhibenchmark
下载链接
链接失效反馈
资源简介:
“獬豸基准”数据集包含了249,587道双语多项选择题,涵盖13个类别下的516个学科领域。这些题目主要来源于两个渠道:约17万道题目来自六种不同的考试,另外约8万道题目是通过自动更新框架自动生成的。该数据集的评估方法采用代码驱动的评估方式。

The 'Xiezhi Benchmark' dataset encompasses 249,587 bilingual multiple-choice questions, spanning 516 academic fields across 13 categories. The questions are primarily sourced from two channels: approximately 170,000 questions come from six different examinations, while an additional 80,000 questions are automatically generated through an automated update framework. The evaluation method for this dataset employs a code-driven approach.
提供机构:
复旦大学
创建时间:
2023-06-01
原始信息汇总

Xiezhi (獬豸) 数据集概述

数据集简介

  • 目的:用于全面评估语言模型(LMs)的性能。
  • 规模:包含249,587个多选题,涵盖516个不同学科和四个难度级别。
  • 特点:旨在帮助开发者跟踪语言模型的进展并分析其重要优势/不足。

数据详情

  • 问题类型:多选题,每个问题有50个选项。
  • 选项设置
    • 每个问题包含1个正确答案和3个混淆选项。
    • 其余46个选项随机从所有问题的选项中抽取。
  • 示例
    • 专业领域问题示例:参见resources/question_spec.png
    • 跨学科问题示例:参见resources/question_inter.png
    • 少样本学习设置示例:参见resources/question-3shot.png

实验设置

  • 评估指标:平均倒数排名(MRR),用于衡量模型将正确答案排在前列的能力。
  • 模型评估
    • 评估了45个开源模型和两个API模型(ChatGPT和GPT-4)。
    • 结果展示了零样本学习中的模型排名。

使用方式

  • 测试脚本:通过运行./Tester/test.sh进行评估。
  • 自定义数据:需重写./Tester/model_test.py中的_get_data函数。

许可证

  • 代码:MIT许可证。
  • 数据集:知识共享署名-非商业性使用-相同方式共享4.0国际许可证(CC BY-NC-SA 4.0)。

引用

如需使用该数据集,请引用以下论文: bibtex @article{gu2023xiezhi, title={Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation}, author={Zhouhong, Gu and Xiaoxuan, Zhu and Haoning, Ye and Lin, Zhang and Jianchen, Wang and Sihang, Jiang and Zhuozhi, Xiong and Zihan, Li and Qianyu, He and Rui, Xu and Wenhao, Huang and Weiguo, Zheng and Hongwei, Feng and Yanghua, Xiao}, journal={arXiv:2304.11679}, year={2023} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
XiezhiBenchmark数据集的构建基于多学科领域的广泛覆盖,涵盖了516个不同学科的249587道多选题。每道题目均设有四个难度级别,旨在全面评估语言模型的能力。题目设计时,除了正确答案外,还包含三个混淆选项,并随机从所有题目中抽取46个选项,以增加测试的复杂性。通过这种设计,数据集能够有效区分不同语言模型的性能差异。
特点
XiezhiBenchmark数据集的特点在于其广泛的多学科覆盖和多样化的题目设计。数据集不仅包含大量题目,还通过设置多个混淆选项和随机抽取选项的方式,增强了测试的挑战性。此外,数据集还提供了不同难度级别的题目,使得评估结果更具层次性和区分度。通过这种设计,XiezhiBenchmark能够全面评估语言模型在不同领域和难度下的表现。
使用方法
使用XiezhiBenchmark数据集进行测试时,用户可以通过运行`./Tester/test.sh`脚本来启动评估过程。数据集支持对多种模型进行评估,包括C-Eval、M3KE、MMLU、Xiezhi-Inter和Xiezhi-Spec等。用户还可以根据自身需求,修改`./Tester/model_test.py`文件中的`_get_data`函数,以适配自定义数据。通过这种方式,XiezhiBenchmark为开发者提供了一个灵活且高效的评估工具,帮助其深入分析语言模型的优缺点。
背景与挑战
背景概述
XiezhiBenchmark是一个专为语言模型(LMs)设计的综合评估套件,由249,587道多选题组成,涵盖516个不同学科和四个难度级别。该数据集由Zhouhong Gu等人于2023年创建,旨在帮助开发者追踪语言模型的进展并分析其重要优势与不足。XiezhiBenchmark的构建基于对多领域知识的全面覆盖,通过多样化的题目设计,能够有效评估模型在不同学科中的表现。该数据集的发布为语言模型的评估提供了新的基准,推动了相关领域的研究进展。
当前挑战
XiezhiBenchmark面临的挑战主要体现在两个方面。首先,该数据集旨在解决语言模型在多领域知识评估中的表现问题,尤其是在面对复杂、多样化的学科内容时,模型的表现差异显著。其次,数据集的构建过程中,研究人员需要设计大量涵盖广泛学科的多选题,并确保题目的难度和混淆选项的合理性,这对数据集的多样性和质量提出了极高的要求。此外,实验设置中选项数量的增加显著降低了模型的性能,这进一步加剧了模型之间的性能差距,为评估带来了额外的复杂性。
常用场景
经典使用场景
XiezhiBenchmark作为一个综合性评估套件,广泛应用于语言模型的性能评估。其包含的249587道多选题覆盖了516个不同学科和四个难度级别,能够全面测试模型在广泛知识领域的表现。研究人员通过该数据集,能够深入分析模型在不同学科和难度下的表现差异,从而为模型的优化提供科学依据。
实际应用
在实际应用中,XiezhiBenchmark被广泛用于语言模型的开发与优化。开发者可以通过该数据集追踪模型的进展,识别其在特定领域的优势与不足。此外,该数据集还为模型在教育和知识服务等领域的应用提供了基准测试,帮助提升模型在实际场景中的表现。
衍生相关工作
XiezhiBenchmark的发布推动了多项相关研究的发展。基于该数据集,研究人员提出了多种改进语言模型性能的方法,如增强模型的跨学科知识整合能力和优化多选项推理策略。此外,该数据集还激发了更多关于语言模型评估标准的研究,为未来的模型开发提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录