FormationEval

Hugging Face2026-01-08 更新2026-01-09 收录

下载链接：

https://huggingface.co/datasets/AlmazErmilov/FormationEval

下载链接

链接失效反馈

官方服务：

资源简介：

FormationEval是一个开放的多选题（MCQ）基准数据集，用于评估语言模型在石油地质科学和地下学科中的表现。该数据集包含505个问题，涵盖7个领域，每个问题都有详细的元数据，包括领域、主题、难度级别和来源。数据集还提供了一个评估72种模型的排行榜，重点关注成本效益和准确性。数据集的结构包括'id'、'question'、'choices'、'answer_key'和'rationale'等字段。数据集采用CC BY 4.0许可，提供JSON和Parquet格式。

创建时间：

2026-01-06

原始信息汇总

FormationEval 数据集概述

基本信息

数据集名称：FormationEval
创建者：Almaz Ermilov
发布日期：2026年
论文：arXiv:2601.02158
许可证：CC BY 4.0
任务类别：问答、多项选择
语言：英语
数据规模：小于1K条样本
配置名称：default
数据文件：formationeval_v0.1.json（测试集）

数据集描述

FormationEval 是一个用于评估语言模型在石油地质科学和地下学科表现的开源多项选择题基准。

核心内容

问题数量：505道
覆盖领域：7个
评估模型数量：72个
数据来源：3个权威来源（Ellis & Singer (2007), Bjørlykke (2010), TU Delft OCW）

数据集结构

特征字段

字段名	类型	描述
id	string	唯一问题标识符
version	string	基准版本
domains	list[string]	广泛类别
topics	list[string]	具体主题
difficulty	string	难度等级（easy, medium, hard）
language	string	问题语言
question	string	问题文本
choices	list[string]	四个答案选项（A-D）
answer_index	int64	正确答案索引（0-3）
answer_key	string	正确答案字母（A-D）
rationale	string	正确答案解释
sources	list[dict]	来源元数据
derivation_mode	string	问题创建方式
metadata	dict	附加标志

数据划分

测试集：505个样本

领域分布

领域	问题数量
岩石物理学	272
石油地质学	151
沉积学	98
地球物理学	80
油藏工程	43
钻井工程	24
生产工程	14

难度分布

难度等级	数量	百分比
简单	132	26%
中等	274	54%
困难	99	20%

评估结果摘要

排行榜（前20名模型）

排名	模型	开源	价格（$/M）	准确率
1	gemini-3-pro-preview	否	$2.00/$12.00	99.8%
2	glm-4.7	是	$0.40/$1.50	98.6%
3	gemini-3-flash-preview	否	$0.50/$3.00	98.2%
4	gemini-2.5-pro	否	$1.25/$10.00	97.8%
5	grok-4.1-fast	否	$0.20/$0.50	97.6%

开源模型（全部32个）

GLM-4.7以98.6%的准确率在开源模型中排名第一，总体排名第二。

使用方式

python from datasets import load_dataset ds = load_dataset("AlmazErmilov/FormationEval")

引用格式

bibtex @misc{ermilov2026formationeval, title={FormationEval, an open multiple-choice benchmark for petroleum geoscience}, author={Almaz Ermilov}, year={2026}, eprint={2601.02158}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.02158}, doi={10.48550/arXiv.2601.02158} }

搜集汇总

数据集介绍

构建方式

在石油地质科学与地下工程领域，专业知识的评估需要严谨的基准。FormationEval数据集的构建根植于三大权威学术资源：Ellis & Singer（2007年）的测井分析著作、Bjørlykke（2010年）的石油地质学教材，以及代尔夫特理工大学的开放课件。通过概念驱动的衍生模式，研究团队从这些经典文献中提炼核心知识，精心编制了涵盖七个子领域的505道多项选择题。每道题目均附有详尽的答案解析与完整的元数据溯源，确保了评估内容在学术上的可靠性与深度。

特点

该数据集作为石油地球科学领域的专业评估工具，展现出鲜明的结构性特征。其505道题目系统覆盖了岩石物理学、石油地质学、沉积学等七个关键学科，并依据难度划分为简单、中等与困难三个层级，形成了均衡的知识光谱。每个数据样本不仅包含问题与选项，还提供了逻辑严密的解题依据以及精确的文献来源标注，例如章节与讲义引用。此外，数据集特别引入了计算需求与污染风险等元数据标签，为评估语言模型在专业场景下的推理能力与知识完整性提供了多维度的分析视角。

使用方法

研究人员可利用该数据集对语言模型在石油地质学领域的专业知识掌握程度进行系统性评估。通过Hugging Face的`datasets`库加载数据集后，可直接访问测试集中的每道题目、选项、正确答案及解析。典型的评估流程包括将问题与选项输入模型，比对模型输出与标注答案，从而计算准确率等性能指标。数据集提供的详细领域、主题与难度标签支持进行细粒度的性能分析，例如探究模型在不同工程子学科或不同认知难度上的表现差异，为专业领域大模型的开发与优化提供实证依据。

背景与挑战

背景概述

石油地质科学与地下工程领域长期依赖专家经验与专业知识，其知识体系复杂且高度专业化。FormationEval数据集于2026年由研究人员Almaz Ermilov创建，旨在构建一个开放的多选题评测基准，专门用于评估语言模型在石油地球科学及相关子学科中的知识理解与推理能力。该数据集涵盖沉积学、地球物理学、油藏工程等七个核心领域，共计505道题目，其内容源自Ellis & Singer（2007）、Bjørlykke（2010）以及代尔夫特理工大学开放课程等权威文献。该基准的建立为量化大型语言模型在能源工业关键学科中的性能提供了标准化工具，推动了领域专用人工智能评估体系的发展。

当前挑战

该数据集致力于解决石油地球科学领域专业知识自动化评估的挑战，其核心问题在于如何准确衡量语言模型对复杂地质概念、工程原理及数值计算的理解深度。构建过程中的主要困难体现在专业知识的规范化与题目生成上，需要从高度专业化的文献中提炼核心概念并转化为结构化的多选题，同时确保题目的准确性、多样性与难度梯度。此外，数据集的构建还需规避模型训练数据的潜在污染风险，并设计能够区分记忆性回答与深层推理的评估机制，以真实反映模型在专业场景下的应用潜力。

常用场景

经典使用场景

在石油地质科学与地下工程领域，FormationEval数据集作为专业评估基准，其经典使用场景聚焦于对大规模语言模型在专业学科知识掌握程度的系统性评测。该数据集通过涵盖七个核心子领域的505道选择题，构建了多维度评估框架，研究者能够精确衡量模型在沉积学、地球物理学、油藏工程等复杂专业场景下的推理能力与知识准确性。这种结构化评估不仅揭示了模型在特定领域的性能边界，更为跨学科知识融合研究提供了标准化度量工具。

实际应用

在实际应用层面，FormationEval为能源行业智能化转型提供了关键评估工具。石油公司可利用该基准筛选适用于地质解释、钻井方案优化的语言模型，降低勘探开发决策风险。教育机构能够基于此开发自适应培训系统，精准评估学员专业知识掌握程度。工程团队可借助基准结果优化领域特定模型的微调策略，提升测井数据解释、储层预测等实际任务的自动化水平，最终推动人工智能技术在复杂地质环境中的可靠部署。

衍生相关工作

围绕该数据集衍生的经典工作主要体现在三个方向：首先是开源模型在专业领域的性能优化研究，如GLM-4.7等模型通过领域适应训练显著提升表现；其次是成本效益分析框架的建立，研究者通过价格-准确率曲线揭示了开源模型的性价比优势；最后是专业知识污染检测方法的创新，基于数据集的难度分级机制，学者开发了更精细的模型能力诊断工具，这些工作共同推动了领域特定评估方法论的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集