XiezhiBenchmark|双语评估数据集|多项选择题数据集
收藏Xiezhi (獬豸) 数据集概述
数据集简介
- 目的:用于全面评估语言模型(LMs)的性能。
- 规模:包含249,587个多选题,涵盖516个不同学科和四个难度级别。
- 特点:旨在帮助开发者跟踪语言模型的进展并分析其重要优势/不足。
数据详情
- 问题类型:多选题,每个问题有50个选项。
- 选项设置:
- 每个问题包含1个正确答案和3个混淆选项。
- 其余46个选项随机从所有问题的选项中抽取。
- 示例:
- 专业领域问题示例:参见
resources/question_spec.png
。 - 跨学科问题示例:参见
resources/question_inter.png
。 - 少样本学习设置示例:参见
resources/question-3shot.png
。
- 专业领域问题示例:参见
实验设置
- 评估指标:平均倒数排名(MRR),用于衡量模型将正确答案排在前列的能力。
- 模型评估:
- 评估了45个开源模型和两个API模型(ChatGPT和GPT-4)。
- 结果展示了零样本学习中的模型排名。
使用方式
- 测试脚本:通过运行
./Tester/test.sh
进行评估。 - 自定义数据:需重写
./Tester/model_test.py
中的_get_data
函数。
许可证
- 代码:MIT许可证。
- 数据集:知识共享署名-非商业性使用-相同方式共享4.0国际许可证(CC BY-NC-SA 4.0)。
引用
如需使用该数据集,请引用以下论文: bibtex @article{gu2023xiezhi, title={Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation}, author={Zhouhong, Gu and Xiaoxuan, Zhu and Haoning, Ye and Lin, Zhang and Jianchen, Wang and Sihang, Jiang and Zhuozhi, Xiong and Zihan, Li and Qianyu, He and Rui, Xu and Wenhao, Huang and Weiguo, Zheng and Hongwei, Feng and Yanghua, Xiao}, journal={arXiv:2304.11679}, year={2023} }

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
12306车次数据库
本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。
github 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录