ComProScanner

Name: ComProScanner
Creator: 伦敦南岸大学能源、材料和环境研究中心，伦敦南岸大学工程与设计学院，伦敦南岸大学生物科学和生物工程研究中心，伦敦国王学院物理系
Published: 2025-10-23 17:01:44
License: 暂无描述

arXiv2025-10-23 更新2025-11-05 收录

下载链接：

https://github.com/slimeslab/ComProScanner

下载链接

链接失效反馈

官方服务：

资源简介：

ComProScanner是一个多智能体平台，用于从科学文献中提取、验证、分类和可视化机器可读的化学组成和属性，并结合期刊文章中的合成数据，创建综合数据库。该平台使用深度学习模型从文献中提取高度复杂的实验数据，以构建机器学习或深度学习数据集。

ComProScanner is a multi-agent platform dedicated to extracting, validating, classifying, and visualizing machine-readable chemical compositions and properties from scientific literature, and constructing comprehensive databases by integrating synthetic data reported in journal articles. This platform leverages deep learning models to extract highly complex experimental data from literature, so as to build machine learning or deep learning datasets.

提供机构：

伦敦南岸大学能源、材料和环境研究中心，伦敦南岸大学工程与设计学院，伦敦南岸大学生物科学和生物工程研究中心，伦敦国王学院物理系

创建时间：

2025-10-23

搜集汇总

数据集介绍

构建方式

在材料科学领域，面对海量非结构化文献数据难以直接用于机器学习模型的挑战，ComProScanner采用多智能体框架实现结构化数据提取。该框架通过四个核心阶段构建数据集：元数据检索利用Scopus API筛选相关文献；文章收集借助出版商的文本与数据挖掘API获取全文；信息提取阶段部署五个专业智能体，结合检索增强生成技术和材料解析工具，精准识别化学成分与性能的关联关系；最终通过评估与后处理模块生成标准化的JSON格式数据。

特点

该数据集最显著的特点是实现了化学成分-性能-合成信息的全链条结构化提取，尤其擅长处理含变量系数的复杂化学式解析。其多智能体架构支持十种大型语言模型的灵活配置，在压电陶瓷材料评估中达到82%的整体准确率。系统内置语义聚类功能可自动生成材料家族、前驱体和表征技术的分布图谱，并集成Neo4j知识图谱可视化技术，直观展现数据间的复杂关联网络。

使用方法

用户可通过不超过20行的Python代码快速部署该数据集构建流程，支持Elsevier等主流出版商的API接口或本地PDF文件作为数据源。使用时可自定义目标性能关键词，系统通过预过滤机制自动筛选相关文献。提取结果以标准化JSON格式输出，包含材料成分、性能数值、合成方法等结构化字段。内置评估框架提供基于权重准确率、传统分类指标和标准化分类指标的三重验证体系，并支持语义相似度和智能体评估两种验证模式。

背景与挑战

背景概述

在数据驱动材料设计蓬勃发展的背景下，2025年由伦敦南岸大学与伦敦国王学院联合研发的ComProScanner应运而生。该多智能体框架旨在解决科学文献中复杂化学成分与物性数据提取的核心难题，特别针对压电陶瓷材料等缺乏大规模结构化数据的领域。通过集成检索增强生成技术与专业材料解析工具，该平台实现了从期刊文献到机器可读格式的自动化转换，为材料基因组计划提供了重要的数据基础设施支撑。

当前挑战

该数据集构建面临双重挑战：在领域问题层面，需精准提取材料成分-性能间的复杂关联关系，如压电系数d33与多元掺杂组分间的非线性映射；在技术实现层面，需克服科学文献中变量表达式解析、多模态数据融合及跨出版商数据获取等障碍。特别是对于Pb1−xKxNb2O6等含变量组分的材料体系，传统方法难以实现精确的结构化转换，而多智能体协作中的非确定性输出亦增加了结果一致性的保障难度。

常用场景

经典使用场景

在材料科学信息学领域，ComProScanner框架最经典的应用场景是从压电陶瓷材料相关文献中自动提取化学成分与压电应变系数d33的关联数据。该框架通过多智能体系统对科学文献进行深度解析，能够识别复杂的化学组成表达式，如掺杂改性的钙钛矿结构材料，并将非结构化的实验数据转化为机器可读的标准化格式。这种自动化提取能力特别适用于构建材料基因组计划所需的大规模数据集，为数据驱动的材料设计提供坚实基础。

衍生相关工作

基于ComProScanner的核心技术，研究社区已衍生出多个重要工作方向。其多智能体架构启发了新型材料信息提取系统的开发，如专门针对纳米材料的nanoMINER系统。框架中整合的material-parsers工具在复杂化学式解析方面的改进，推动了化学信息提取算法的进一步发展。此外，该工作建立的评估指标体系为后续研究提供了标准化基准，促进了材料科学领域文本挖掘技术的规范化发展，为构建更完善的材料知识图谱奠定了方法论基础。

数据集最近研究