Xiezhi|知识评估数据集|学科交叉数据集
收藏数据集概述
Xiezhi(獬豸)是一个用于评估语言模型(LMs)的综合评估套件。它包含249587道多选题,涵盖516个不同学科和四个难度级别。
数据集详情
题目设置
- 所有测试的语言模型需要从50个选项中选择最佳答案。
- 每个问题除了正确答案外,还设置了3个迷惑选项,另外46个选项是从Xiezhi所有问题中的所有选项随机抽取的。
评估指标
- 使用Mean Reciprocal Rank(MRR)作为评估指标,计算正确答案的倒数排名。
数据示例
- 提供了Xiezhi专业领域和跨学科领域的题目示例。
- 展示了少样本学习设置的示例。
使用方法
- 测试可以在包含C-Eval、M3KE、MMLU、Xiezhi-Inter和Xiezhi-Spec的模型集合上进行,这些模型包含在
./Tester/model_test.py
文件中。 - 任何人都可以通过运行
./Tester/test.sh
来进行评估。 - 对于自定义数据,需要重写
./Tester/model_test.py
中的_get_data
函数。
许可证
- 该工作基于MIT许可证。
- Xiezhi数据集基于Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。
引用
请在使用数据集时引用以下论文:
@article{gu2023xiezhi, title={Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation}, author={Zhouhong, Gu and Xiaoxuan, Zhu and Haoning, Ye and Lin, Zhang and Jianchen, Wang and Sihang, Jiang and Zhuozhi, Xiong and Zihan, Li and Qianyu, He and Rui, Xu and Wenhao, Huang and Weiguo, Zheng and Hongwei, Feng and Yanghua, Xiao} journal={arXiv:2304.11679}, year={2023} }

- 1Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation · 2024年
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录