enviroscientist/EnviroExam
收藏Hugging Face2024-06-12 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/enviroscientist/EnviroExam
下载链接
链接失效反馈官方服务:
资源简介:
EnviroExam数据集聚焦于哈尔滨工业大学环境科学课程中的42门核心课程,通过GPT-4和Claude生成初始问题,并经过人工校对和精炼,最终包含936个有效选择题。数据集用于评估大型语言模型在环境科学知识上的表现,提供了零样本和五样本的准确率评分。
提供机构:
enviroscientist
原始信息汇总
数据集概述
名称: EnviroExam
许可证: MIT
任务类别:
- 文本分类
- 问答
- 零样本分类
语言: 中文
大小类别: 小于1K
美观名称: enviroexam
标签: 环境
数据集内容
核心课程覆盖: EnviroExam 包含哈尔滨工业大学环境科学课程中的42门核心课程,这些课程是从本科、硕士和博士课程的141门课程中筛选出来的,排除了通用、重复和实践课程。
问题生成: 初始问题草案通过GPT-4和Claude生成,结合定制的提示。经过人工校对和修订,最终形成了1,290个多项选择题。
有效问题数量: 经过最终校对和修订,保留了936个有效问题。
评分方法
基础: 使用准确性作为评分基础。
综合指标计算:
- 平均分计算: 计算大型语言模型在所有测试上的平均分。
- 标准差计算: 计算所有测试分数相对于平均分的标准差。
- 变异系数计算: 计算标准差与平均分的比率,用于衡量分数的相对分散程度。
- 原始复合指数计算: 定义原始复合指数为平均分和变异系数的函数。
数据集下载
下载方式: 通过Git克隆或直接使用浏览器打开链接下载zip文件。
链接: EnviroExam数据集下载
引用信息
论文:
@misc{huang2024enviroexam, title={EnviroExam: Benchmarking Environmental Science Knowledge of Large Language Models}, author={Yu Huang and Liang Guo and Wanqian Guo and Zhe Tao and Yang Lv and Zhihao Sun and Dongfang Zhao}, year={2024}, eprint={2405.11265}, archivePrefix={arXiv}, primaryClass={cs.CL} }



