EESE
收藏The Ever-Evolving Science Exam (EESE) 数据集概述
数据集基本信息
- 名称: The Ever-Evolving Science Exam (EESE)
- 发布机构: 上海人工智能实验室
- 相关论文: The Ever-Evolving Science Exam
- 数据集地址: Huggingface
- 代码仓库: GitHub
关键贡献
-
大规模高质量科学基准池 (EESE-Pool):
- 包含100K+科学问答对
- 涵盖5个学科和500+子领域
- 多样化的问题格式
- 严格的质量控制流程
-
动态抗泄漏评估集 (EESE):
- 500个实例的定期更新子集
- 通过定期从EESE-Pool重采样保持代表性
- 降低泄漏风险和评估开销
-
大语言模型综合评估:
- 评估了32个领先模型(开源和闭源)
- 揭示了跨学科性能差距
- 分析了推理成本与科学能力间的权衡
数据集特点
- 学科覆盖: 5个主要学科
- 问题类型: 封闭式和开放式问题
- 评分系统:
- 封闭式问题: 0或10分(正确/错误)
- 开放式问题: 0-10分(整数评分)
- 评分由评判LLM自动生成
文件结构
├── code ├── main.py # 主评估脚本 ├── inference.py # 核心推理函数 ├── config.py # 配置设置 ├── call.py # LLM API调用函数 ├── llm_information.py # LLM客户端设置 ├── utils.py # 实用函数 ├── requirements.txt # Python依赖 ├── EESE.jsonl # 输入数据文件 ├── log/ # 日志文件目录 └── results/ # 结果输出目录
输出文件
- 日志文件:
log/evaluation.log(详细处理日志) - 详细结果:
results/detailed_results.json(完整评估数据) - 汇总结果:
results/summary_results.json(按学科分类的性能摘要)
快速开始
- 安装依赖:
pip install -r requirements.txt - 配置API密钥: 编辑
config.py - 准备数据: 下载
esee.jsonl文件 - 运行评估:
python main.py
联系方式
- Zicheng Zhang: zhangzicheng@pjlab.org.cn
- Junying Wang: wangjunying@pjlab.org.cn
引用
bibtex @misc{wang2025everevolvingscienceexam, title={The Ever-Evolving Science Exam}, author={Junying Wang and Zicheng Zhang and Yijin Guo and Farong Wen and Ye Shen and Yingji Liang and Yalun Wu and Wenzhe Li and Chunyi Li and Zijian Chen and Qi Jia and Guangtao Zhai}, year={2025}, eprint={2507.16514}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.16514}, }




