five

enviroscientist/EnviroExam

收藏
Hugging Face2024-06-12 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/enviroscientist/EnviroExam
下载链接
链接失效反馈
官方服务:
资源简介:
EnviroExam数据集聚焦于哈尔滨工业大学环境科学课程中的42门核心课程,通过GPT-4和Claude生成初始问题,并经过人工校对和精炼,最终包含936个有效选择题。数据集用于评估大型语言模型在环境科学知识上的表现,提供了零样本和五样本的准确率评分。
提供机构:
enviroscientist
原始信息汇总

数据集概述

名称: EnviroExam

许可证: MIT

任务类别:

  • 文本分类
  • 问答
  • 零样本分类

语言: 中文

大小类别: 小于1K

美观名称: enviroexam

标签: 环境

数据集内容

核心课程覆盖: EnviroExam 包含哈尔滨工业大学环境科学课程中的42门核心课程,这些课程是从本科、硕士和博士课程的141门课程中筛选出来的,排除了通用、重复和实践课程。

问题生成: 初始问题草案通过GPT-4和Claude生成,结合定制的提示。经过人工校对和修订,最终形成了1,290个多项选择题。

有效问题数量: 经过最终校对和修订,保留了936个有效问题。

评分方法

基础: 使用准确性作为评分基础。

综合指标计算:

  1. 平均分计算: 计算大型语言模型在所有测试上的平均分。
  2. 标准差计算: 计算所有测试分数相对于平均分的标准差。
  3. 变异系数计算: 计算标准差与平均分的比率,用于衡量分数的相对分散程度。
  4. 原始复合指数计算: 定义原始复合指数为平均分和变异系数的函数。

数据集下载

下载方式: 通过Git克隆或直接使用浏览器打开链接下载zip文件。

链接: EnviroExam数据集下载

引用信息

论文:

@misc{huang2024enviroexam, title={EnviroExam: Benchmarking Environmental Science Knowledge of Large Language Models}, author={Yu Huang and Liang Guo and Wanqian Guo and Zhe Tao and Yang Lv and Zhihao Sun and Dongfang Zhao}, year={2024}, eprint={2405.11265}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作