MatPROV
收藏arXiv2025-09-01 更新2025-09-05 收录
下载链接:
https://huggingface.co/datasets/MatPROV-project/MatPROV
下载链接
链接失效反馈官方服务:
资源简介:
MatPROV是一个从科学文献中提取的合成过程数据集,采用PROV-DM标准进行结构化,包含2367个合成过程,来自1568篇开放获取的科学论文。该数据集通过直观的有向图捕捉材料、操作和条件之间的复杂结构和因果关系,为机器可解释的合成知识提供基础,支持自动化合成规划、过程优化等应用。
MatPROV is a synthetic process dataset extracted from scientific literature, structured in accordance with the PROV-DM standard. It encompasses 2,367 synthetic processes derived from 1,568 open-access scientific papers. This dataset captures the complex structures and causal relationships among materials, operations and conditions via intuitive directed graphs, laying a foundation for machine-interpretable synthetic knowledge and supporting applications such as automated synthesis planning and process optimization.
提供机构:
SAKURA internet Inc., Kyoto University
创建时间:
2025-09-01
原始信息汇总
MatPROV 数据集概述
数据集基本信息
- 名称:MatPROV
- 许可证:CC-BY-4.0
- 语言:英语
- 标签:材料科学、溯源、图、PROV-DM、信息抽取
- 正式名称:MatPROV
数据集描述
MatPROV 是一个材料合成过程的数据集,通过大型语言模型从科学论文中提取,并以符合 PROV-DM 标准的结构表示。
文件结构
MatPROV/ ├── MatPROV.jsonl # 主数据集(2,367 个合成过程) ├── ground-truth/ # 专家标注的真实数据 │ └─ <DOI>.json ├── few-shot/ # 用于合成过程提取的提示示例 │ └─ <DOI>.txt └── doi_status.csv # 每个论文 DOI 在流程中的状态
数据格式
主数据集文件为 MatPROV.jsonl,每行对应一篇论文的结构化记录,包含:
doi:源论文的 DOIlabel:提取的合成过程标识符,编码材料的化学成分和关键合成特征prov_jsonld:描述合成过程的 PROV-JSONLD 结构
可视化
可通过在线工具 https://matprov-project.github.io/prov-jsonld-viz/ 可视化 PROV-JSONLD 数据。
数据集构建摘要
- 收集的源论文:1,648 篇
- 相关文本提取:1,616 篇论文(32 篇不包含合成相关文本)
- 合成过程提取:1,568 篇论文(48 篇不包含合成过程)
真实标注
- 部分论文由单一领域专家手动标注
- 文件存储在
ground-truth/目录中
少样本示例
- 用于 LLM 提取的提示示例存储在
few-shot/目录中
相关链接
- 论文:https://arxiv.org/abs/2509.01042
- 代码:https://github.com/MatPROV-project/matprov-experiments
引用
@article{tsuruta2025matprov, title={Mat{PROV}: A Provenance Graph Dataset of Material Synthesis Extracted from Scientific Literature}, author={Hirofumi Tsuruta and Masaya Kumagai}, journal={arXiv preprint arXiv:2509.01042}, year={2025} }
搜集汇总
数据集介绍

构建方式
MatPROV数据集的构建遵循严谨的多阶段流程,首先从Starrydata2开放获取的科学文献中筛选1,648篇论文,利用GROBID工具将PDF转换为结构化XML并提取正文文本。随后通过GPT-4o mini模型识别与合成程序相关的文本段落,过滤非合成描述内容。最终采用经过实证评估的OpenAI模型(如GPT-4.1 mini和o4-mini),通过精心设计的提示词将文本转换为符合PROV-JSONLD标准的定向无环图,确保节点(材料、工具、操作)和边(使用、生成关系)的结构化表达。
使用方法
用户可通过Hugging Face平台获取数据集,以PROV-JSONLD格式直接解析图谱结构。该格式支持语义化查询与图谱分析,适用于合成流程自动化规划、条件-性质关联挖掘等研究。使用时需注意:原始论文DOI已嵌入数据以便溯源验证,建议关键合成步骤需对照原文校验以避免自动提取可能存在的误差。数据集采用CC BY 4.0协议,支持下游任务的扩展与二次开发。
背景与挑战
背景概述
材料合成过程在材料科学研究中占据核心地位,其操作流程直接影响材料性能。随着数据驱动方法加速材料发现进程,从科学文献中提取结构化合成数据成为新兴研究方向。MatPROV数据集由SAKURA internet Inc.与京都大学于2025年联合创建,采用国际标准PROV-DM模型,通过大语言模型从1,568篇开源论文中提取2,367个材料合成流程,以有向图形式捕捉合成操作中的分支、汇聚等复杂结构关系,为机器可解释的合成知识构建提供新范式。
当前挑战
该数据集致力于解决材料合成流程的复杂结构表征问题,传统方法受限于线性序列或固定字段模板,难以捕捉真实合成中的多路径与非连续操作。构建过程中面临双重挑战:一是科学文献中合成描述存在高度异构性与专业术语变异,需精确识别材料、工具、操作间的因果关系;二是大语言模型对图结构数据的生成需保持节点连接性与参数一致性,后期需人工验证消除循环图与孤立节点以确保数据质量。
常用场景
经典使用场景
在材料科学领域,MatPROV数据集被广泛应用于解析和建模复杂材料合成过程。其基于PROV-DM标准的图结构表示法,能够精准捕捉合成实验中的非线性操作序列,例如分支与汇聚流程。研究者通过该数据集可分析合成步骤间的因果关系,识别关键操作节点,从而优化实验设计并预测材料性能。
解决学术问题
MatPROV解决了材料合成信息提取中存在的结构复杂性表征难题。传统方法受限于固定字段模板或线性序列假设,难以准确表达真实合成流程的多路径特性。该数据集通过标准化图模型,支持机器可解释的合成知识表示,为自动化合成规划、过程优化及条件-性能关联分析提供了可靠数据基础。
实际应用
该数据集在工业研发中具有重要价值,可用于构建智能材料合成决策系统。例如,通过分析热电磁材料与磁性材料的合成骨干网络,企业能够快速识别高效合成路径,减少试错成本。此外,其标准化格式支持与实验室信息管理系统集成,实现合成历史的数字化追溯与质量管控。
数据集最近研究
最新研究方向
材料科学领域正经历数据驱动研究的深刻变革,MatPROV数据集通过引入PROV-DM国际标准,以图结构重构材料合成过程的因果网络,突破了传统线性序列或固定字段模型的表达局限。该数据集利用大语言模型从科学文献中提取2367个合成流程,涵盖热电、磁性等多类材料,其图表征能捕捉分支、汇聚等复杂实验结构,为自动化合成规划、工艺优化及构效关系研究提供机器可解释的知识基础。当前研究聚焦于图神经网络在合成路径预测、跨材料类别迁移学习等前沿应用,同时通过参数化扩展实现温度、压力等十类合成条件的结构化关联,推动材料研发从经验探索向可计算范式转型。
相关研究论文
- 1MatPROV: A Provenance Graph Dataset of Material Synthesis Extracted from Scientific LiteratureSAKURA internet Inc., Kyoto University · 2025年
以上内容由遇见数据集搜集并总结生成



