EESE

github2025-07-24 更新2025-07-25 收录

下载链接：

https://github.com/aiben-ch/EESE

下载链接

链接失效反馈

官方服务：

资源简介：

一个大规模、高质量的科学基准测试池，包含100K+科学问答对，涵盖5个学科和500+子领域，具有多样化的格式和严格的质量控制。通过三阶段数据引擎（转录、扩展和分类）和数据精炼（并行三支精炼框架）确保范围、覆盖和严谨性。

A large-scale, high-quality scientific benchmarking dataset, encompassing over 100K scientific question-answer pairs across 5 disciplines and 500+ subfields, with diverse formats and rigorous quality control. Ensured by a three-phase data engine (transcription, expansion, and categorization) and data refinement (parallel three-branch refinement framework) for breadth, coverage, and rigor.

创建时间：

2025-07-22

原始信息汇总

The Ever-Evolving Science Exam (EESE) 数据集概述

数据集基本信息

名称: The Ever-Evolving Science Exam (EESE)
发布机构: 上海人工智能实验室
相关论文: The Ever-Evolving Science Exam
数据集地址: Huggingface
代码仓库: GitHub

关键贡献

大规模高质量科学基准池 (EESE-Pool):
- 包含100K+科学问答对
- 涵盖5个学科和500+子领域
- 多样化的问题格式
- 严格的质量控制流程
动态抗泄漏评估集 (EESE):
- 500个实例的定期更新子集
- 通过定期从EESE-Pool重采样保持代表性
- 降低泄漏风险和评估开销
大语言模型综合评估:
- 评估了32个领先模型(开源和闭源)
- 揭示了跨学科性能差距
- 分析了推理成本与科学能力间的权衡

数据集特点

学科覆盖: 5个主要学科
问题类型: 封闭式和开放式问题
评分系统:
- 封闭式问题: 0或10分(正确/错误)
- 开放式问题: 0-10分(整数评分)
- 评分由评判LLM自动生成

文件结构

├── code ├── main.py # 主评估脚本 ├── inference.py # 核心推理函数 ├── config.py # 配置设置 ├── call.py # LLM API调用函数 ├── llm_information.py # LLM客户端设置 ├── utils.py # 实用函数 ├── requirements.txt # Python依赖 ├── EESE.jsonl # 输入数据文件 ├── log/ # 日志文件目录 └── results/ # 结果输出目录

输出文件

日志文件: log/evaluation.log (详细处理日志)
详细结果: results/detailed_results.json (完整评估数据)
汇总结果: results/summary_results.json (按学科分类的性能摘要)

快速开始

安装依赖: pip install -r requirements.txt
配置API密钥: 编辑config.py
准备数据: 下载esee.jsonl文件
运行评估: python main.py

联系方式

Zicheng Zhang: zhangzicheng@pjlab.org.cn
Junying Wang: wangjunying@pjlab.org.cn

引用

bibtex @misc{wang2025everevolvingscienceexam, title={The Ever-Evolving Science Exam}, author={Junying Wang and Zicheng Zhang and Yijin Guo and Farong Wen and Ye Shen and Yingji Liang and Yalun Wu and Wenzhe Li and Chunyi Li and Zijian Chen and Qi Jia and Guangtao Zhai}, year={2025}, eprint={2507.16514}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.16514}, }

搜集汇总

数据集介绍

构建方式

在科学教育评估领域，EESE数据集通过创新的三阶段数据引擎（转录、扩展和分类）构建了一个涵盖5大学科门类、500余个子领域的10万+科学问答对资源池。该框架采用并行三支路精炼机制进行数据优化，通过严格的专家标注与自动化过滤相结合的方式，确保了问题的学科覆盖广度和内容严谨性。动态评估子集EESE采用周期性重采样策略，从资源池中抽取500个实例进行轮换更新，有效解决了传统静态评测集的知识泄露问题。

使用方法

研究者可通过Huggingface平台获取标准化的JSONL格式数据，配套的评估工具链支持主流大语言模型的自动化测试。使用前需配置API密钥并安装指定依赖库，系统提供完整的日志记录和双层级结果输出（详细数据与学科摘要）。对于开放性问题，内置的裁判LLM会根据预设的评分规则自动生成0-10分的整数评估，而封闭式问题采用二元判分机制。评估流程支持并行计算，用户可通过修改config.py文件灵活调整温度系数等关键参数。

背景与挑战

背景概述

EESE（The Ever-Evolving Science Exam）是由上海人工智能实验室团队于2025年提出的一个大规模科学评测基准数据集。该数据集旨在解决科学领域评测基准的动态性和全面性问题，涵盖了5大学科领域及500多个子领域，包含超过10万条高质量的科学问答对。EESE通过创新的三阶段数据引擎（转录、扩展和分类）以及并行三支数据精炼框架，确保了数据的广度、深度和严谨性。该数据集的推出为科学领域的自然语言处理研究提供了重要的评测工具，推动了科学问答和知识推理任务的进展。

当前挑战

EESE数据集面临的挑战主要包括两个方面：在领域问题方面，科学知识的快速更新和学科交叉性使得构建一个全面且动态更新的评测基准极具挑战性；在构建过程中，如何确保数据质量、学科覆盖的均衡性以及防止数据泄露成为关键难题。此外，动态评测子集的设计需要在保持代表性的同时降低评测开销，这对数据采样和更新策略提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，EESE数据集作为科学基准测试的重要资源，广泛应用于评估大型语言模型（LLMs）在科学知识理解和推理能力上的表现。其多学科覆盖和动态更新的特性使其成为研究模型跨领域适应性和知识泛化能力的理想工具。通过定期从EESE-Pool中抽取新样本构建评估集，该数据集有效避免了模型因数据泄露而产生的过拟合问题，为科学能力评估提供了持续演进的测试环境。

解决学术问题

EESE数据集通过构建包含10万+科学问答对的跨学科知识池，系统性地解决了科学基准测试中覆盖面窄、静态泄露和评估成本高的三大核心问题。其提出的三阶段数据引擎（转录、扩展、分类）和平行三分支精炼框架，显著提升了科学问答数据的质量和多样性。对32个主流模型的评估实验揭示了学科间性能差异、精炼过程对数据质量的提升效果，以及推理成本与科学能力间的权衡关系，为构建更鲁棒的科学评估体系提供了实证基础。

实际应用

该数据集在教育科技领域具有重要实践价值，可应用于智能辅导系统的知识诊断模块设计，通过分析模型在不同学科子领域的表现差异，优化个性化学习路径规划。其动态评估机制也被在线教育平台用于持续监测AI助教的科学素养演进。医疗健康领域的研究者借助该数据集的生物学和化学问题集，评估专业领域语言模型在生命科学知识推理中的可靠性，为医疗问答系统的开发提供基准参照。

数据集最近研究