EnviroExam

Name: EnviroExam
Creator: 哈尔滨工业大学环境学院
Published: 2024-05-18 19:31:03
License: 暂无描述

arXiv2024-05-18 更新2024-06-21 收录

下载链接：

https://enviroexam.enviroscientist.cn

下载链接

链接失效反馈

官方服务：

资源简介：

EnviroExam是由哈尔滨工业大学环境学院创建的综合性评估方法，旨在评估大型语言模型在环境科学领域的知识。该数据集基于国际顶尖大学的课程大纲，涵盖本科、硕士和博士课程，包含936个问题，分布在42门核心环境科学课程中。数据集的创建过程涉及使用GPT-4和Claude生成初始问题草案，随后进行人工校对和精炼。EnviroExam主要用于评估开放源代码大型语言模型在环境科学领域的性能，为该领域的模型选择和微调提供有效标准。

EnviroExam is a comprehensive evaluation benchmark developed by the School of Environment, Harbin Institute of Technology, designed to assess the knowledge and proficiency of large language models (LLMs) in the field of environmental science. This dataset is constructed based on the course syllabi of top international universities, covering undergraduate, master’s and doctoral level courses, and contains 936 questions distributed across 42 core environmental science courses. The development process of this dataset involved generating initial question drafts using GPT-4 and Claude, followed by manual proofreading and refinement. EnviroExam is primarily utilized to evaluate the performance of open-source large language models in environmental science, providing a valid benchmark for model selection and fine-tuning within this domain.

提供机构：

哈尔滨工业大学环境学院

创建时间：

2024-05-18

搜集汇总

数据集介绍

构建方式

在环境科学领域，构建一个能够全面评估大语言模型专业知识的基准数据集至关重要。EnviroExam的构建过程始于对哈尔滨工业大学环境科学专业本科、硕士及博士三个层次的141门课程进行系统梳理，通过剔除通识类、重复性及实践性课程，最终筛选出42门核心课程作为知识框架基础。随后，研究团队利用GPT-4和Claude等先进大语言模型，结合定制化提示模板，为每门课程生成初始试题草稿，共计形成1290道选择题。经过人工逐题校对、修正与精炼，最终保留了936道高质量题目，并将其划分为包含210题的开发集和726题的测试集，确保了数据集的学术严谨性与领域代表性。

使用方法

EnviroExam数据集的使用遵循标准化评估流程，旨在系统检验大语言模型在环境科学领域的知识水平。评估时，可采用零样本或五样本两种设置：零样本测试要求模型仅依靠预训练知识直接回答问题；五样本测试则先提供五道带标注的示例题目，再让模型基于示例进行推理作答。测试过程中，需使用如OpenCompass等开源评估平台，配置统一的参数（如最大输出长度、温度系数等），确保评估环境的一致性。模型输出的答案将与标准答案比对，计算各科目准确率，并基于均值与变异系数得出综合指数，最终生成模型在环境科学知识掌握程度上的量化排名与详细性能分析。

背景与挑战

背景概述

随着Transformer架构的革新，大语言模型在通用领域的智能涌现引发了垂直领域专业评估的迫切需求。哈尔滨工业大学环境学院的研究团队于2024年提出了EnviroExam数据集，旨在系统评估大语言模型在环境科学领域的知识掌握程度。该数据集基于国际顶尖高校的课程体系，涵盖本科、硕士及博士阶段的42门核心课程，精心构建了936道多项选择题。通过引入变异系数作为综合评价指标，EnviroExam不仅量化了31个开源模型在零样本和少样本设置下的表现差异，更为环境科学领域模型的选择与微调提供了可靠的基准依据，填补了专业领域评估体系的空白。

当前挑战

EnviroExam致力于解决环境科学领域大语言模型评估的专项挑战，其核心在于克服通用测试集对高度专业化知识的覆盖不足。构建过程中，团队需从141门课程中筛选出42门核心课程，并利用GPT-4与Claude生成初始试题，再经人工校验以确保学术严谨性。然而，数据污染风险始终存在，即模型可能已在训练中接触过类似试题，导致评估结果虚高。此外，不同模型对少样本提示和思维链提示的响应差异显著，部分模型甚至出现性能下降，这揭示了模型在专业领域适应性与泛化能力上的不均衡，为未来构建更纯净、更细分的领域测试集提出了技术难题。

常用场景

经典使用场景

在环境科学领域，大型语言模型的知识评估一直缺乏专业化的基准测试工具。EnviroExam数据集应运而生，其经典使用场景在于系统性地评估各类开源大模型在环境科学专业知识上的掌握程度。该数据集模拟了高等教育课程考核模式，将不同模型视为学生，通过涵盖本科、硕士及博士阶段的42门核心课程、共计936道选择题，对模型进行零样本和少样本测试，从而揭示模型在垂直领域的知识边界与性能差异。

解决学术问题

EnviroExam有效解决了环境科学领域缺乏专用评估基准的学术难题。传统通用测试集如MMLU或C-Eval难以覆盖环境科学的专业化内容，导致模型在该领域的真实能力无法被准确衡量。该数据集通过引入变异系数等综合指标，从多维度评估模型性能，不仅提供了模型选择的科学依据，还推动了领域专用语言模型的优化与微调，为环境科学与人工智能的交叉研究奠定了坚实的评估基础。

实际应用

在实际应用中，EnviroExam为环境科学研究机构、教育平台及企业提供了可靠的模型筛选工具。例如，在构建环境智能问答系统、污染预测模型或政策分析助手时，可利用该数据集测试候选模型的领域知识水平，确保其输出的科学性与准确性。同时，它还能辅助课程设计者检验教育大模型在环境科学课程中的教学适用性，促进AI技术在环境治理、科普宣传等现实场景中的落地。

数据集最近研究