OpenDFM/SciEval

Name: OpenDFM/SciEval
Creator: OpenDFM
Published: 2024-08-06 09:35:06
License: 暂无描述

Hugging Face2024-08-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/OpenDFM/SciEval

下载链接

链接失效反馈

官方服务：

资源简介：

SCIEVAL是一个用于科学领域大型语言模型评估的基准，包含约18,000个客观评估问题和少量主观问题，覆盖化学、物理和生物等基础科学领域。该基准从基础知识、知识应用、科学计算和研究能力四个方面评估大型语言模型在科学内容上的理解和生成能力。

SCIEVAL is a benchmark for evaluating large language models (LLMs) in the scientific domain. It contains approximately 18,000 objective evaluation questions and a small number of subjective questions, covering foundational scientific disciplines such as chemistry, physics, and biology. This benchmark assesses the understanding and generation capabilities of large language models regarding scientific content across four dimensions: basic knowledge, knowledge application, scientific computing, and research capabilities.

提供机构：

OpenDFM

原始信息汇总

数据集概述

名称: SCIEVAL

类型: 评估基准

目的: 用于评估科学领域中大型语言模型的理解和生成能力。

内容:

问题数量: 约18,000个客观评估问题和少量主观问题。
覆盖领域: 化学、物理、生物等基础科学领域。
评估方面: 基本知识、知识应用、科学计算、研究能力。

文件描述

scieval-dev.json: 开发集，每个任务、能力和类别包含5个样本，用于少量样本学习。
scieval-valid.json: 验证集，包含每个问题的答案。
scieval-test.json: 测试集。
make_few_shot.py: 生成少量样本数据的代码。
eval.py: 用于验证集的评估代码，与测试集使用的代码相同。
dynamic_chem.json 和 dynamic_phy.json: 动态数据，定期更新，与排行榜使用的数据不同。
eval_dynamic.py: 用于动态数据的评估代码。

引用信息

若使用本数据集或相关代码，请引用以下文献： text @article{sun2023scieval, title={SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research}, author={Sun, Liangtai and Han, Yang and Zhao, Zihan and Ma, Da and Shen, Zhennan and Chen, Baocai and Chen, Lu and Yu, Kai}, journal={arXiv preprint arXiv:2308.13149}, year={2023} }

搜集汇总

数据集介绍

构建方式

在科学领域评估基准的构建中，SciEval数据集通过精心设计的流程，整合了化学、物理和生物学等基础科学领域的知识体系。该数据集包含约18,000个客观评估问题及少量主观问题，覆盖了从基础概念到高级应用的多个维度。构建过程中，研究者依据科学教育标准和前沿研究文献，确保了问题的准确性和代表性，同时通过动态数据更新机制，保持内容的时效性和挑战性。

特点

SciEval数据集以其多层次的评估框架脱颖而出，专注于考察大型语言模型在科学内容理解与生成方面的能力。该数据集从基础知识、知识应用、科学计算和研究能力四个维度进行设计，问题类型丰富多样，既包括传统选择题，也涉及开放性的主观题。其动态数据部分定期更新，模拟了科学研究的演进过程，为模型评估提供了持续变化的测试环境。

使用方法

使用SciEval数据集时，研究者可通过提供的开发集进行少量样本学习，利用验证集和测试集评估模型性能。数据集附带的评估代码支持自动化评分，预测结果需遵循特定格式以确保一致性。动态数据部分允许用户直接添加预测键值进行本地评估，为科学领域语言模型的迭代优化提供了便捷工具。

背景与挑战

背景概述

随着大型语言模型在通用领域的广泛应用，其在科学领域的专业能力评估成为研究焦点。2023年，由OpenDFM团队发布的SciEval数据集应运而生，该数据集由孙良泰、韩阳等研究人员共同构建，旨在系统评估模型在化学、物理和生物等基础科学领域的理解与生成能力。SciEval围绕科学知识掌握、应用实践、计算推理及研究能力四个维度，设计了约1.8万项客观评测题目，填补了科学领域专用评估基准的空白，为模型在科研场景中的性能优化提供了关键参照。

当前挑战

SciEval致力于解决科学领域大型语言模型评估的综合性挑战，其核心在于如何精准衡量模型对复杂科学概念的理解深度与跨学科知识应用能力。构建过程中，团队需克服科学术语标准化、多模态数据整合及动态知识更新的难题，同时确保评测题目在学科覆盖与难度层级上的平衡。此外，科学问题的客观性与主观性交织，要求数据集既能通过量化指标反映模型基础性能，又能捕捉其科研创新潜力，这对评估框架的设计提出了更高要求。

常用场景

经典使用场景

在科学领域的大语言模型评估中，SciEval数据集被广泛用于系统性地衡量模型在化学、物理和生物等基础科学学科中的综合能力。该数据集通过约18,000个客观评估问题，覆盖了从基础知识到研究能力的多个维度，为研究者提供了一个标准化的测试平台，以检验模型在科学内容理解与生成方面的表现。

实际应用

在实际应用中，SciEval数据集被用于教育和科研机构的模型选型与优化。例如，高校和实验室可以基于该基准测试不同大语言模型在科学问题解答上的准确性，从而辅助教学工具的开发或科研辅助系统的构建，提升科学信息处理的效率和可靠性。

衍生相关工作

基于SciEval数据集，衍生了一系列经典研究工作，包括针对科学领域的大语言模型微调方法和评估框架的改进。这些工作进一步扩展了数据集的应用范围，促进了如动态数据更新和跨学科评估工具的发展，为科学人工智能的进步奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集