five

Material Synthesis 2025(MatSyn25)

收藏
arXiv2025-10-01 更新2025-10-04 收录
下载链接:
https://github.com/MatSynAI/MatSyn25
下载链接
链接失效反馈
官方服务:
资源简介:
MatSyn25数据集是一个大规模的二维材料合成过程开放数据集,包含从8万5千多篇高质量研究论文中提取的16万3千多篇合成过程信息。每个条目包括基本材料信息和详细的合成步骤。数据集支持多渠道的交互式探索和数据挖掘。MatSyn25数据集通过自动提取合成过程信息的框架构建,涵盖了石墨烯、层状双氢氧化物、二维过渡金属碳化物和氮化物、过渡金属二硫化物等二维材料。数据集提供了丰富的材料类型、合成过程和实验条件,支持对二维材料合成的系统性研究、过程优化和新型材料发现平台的开发。

MatSyn25 dataset is a large-scale open dataset for two-dimensional (2D) material synthesis processes. It contains over 163,000 synthesis process entries extracted from more than 85,000 high-quality research papers. Each entry includes basic material information and detailed synthesis procedures. The dataset supports multi-channel interactive exploration and data mining. Constructed via an automated framework for extracting synthesis process information, MatSyn25 covers various 2D materials including graphene, layered double hydroxides (LDHs), two-dimensional transition metal carbides and nitrides (MXenes), transition metal dichalcogenides (TMDs), and others. The dataset provides abundant material categories, synthesis processes and experimental conditions, enabling systematic research on 2D material synthesis, process optimization and the development of novel material discovery platforms.
提供机构:
中国科学院
创建时间:
2025-10-01
搜集汇总
数据集介绍
main_image_url
构建方式
在二维材料合成领域,数据资源的系统性整合对人工智能驱动的研究至关重要。MatSyn25数据集通过自动化框架从85,160篇高质量研究文献中提取合成过程信息,首先对PDF文献进行结构化解析和噪声去除,再通过知识增强技术构建语义向量数据库。基于微调的Qwen3-8B大语言模型,采用渐进式三层策略精准提取材料属性、反应条件与操作步骤,最终通过专家验证与数据清洗形成包含163,240条标准化记录的合成过程数据库。
特点
该数据集涵盖石墨烯、过渡金属硫化物等二维材料的合成全流程,其突出特点在于规模性与结构化程度。数据集包含182,299种材料实体与784,863条操作步骤,通过知识图谱技术建立材料属性与合成参数的关联网络。数据分布呈现多样性特征,水热法与剥离法为最常用合成方法,且每种材料均关联详细的实验设备、安全规范与物化性质数据,为多维度分析提供坚实基础。
使用方法
研究社区可通过GitHub与Hugging Face平台获取完整数据集,其交互式网络平台支持三种检索模式:按材料名称或化学式查询属性信息,根据工艺类型筛选合成方案,以及通过文献关键词追溯原始研究。集成的大语言模型MatSyn AI可基于自然语言提问生成合成路径建议,其检索增强生成机制能有效结合知识库内容输出包含参数细节的完整方案,显著提升材料合成设计的效率与可靠性。
背景与挑战
背景概述
二维材料因其独特的电学、力学和热学特性,在能源、环境和航空航天等领域展现出广阔应用前景。随着人工智能技术的迅猛发展,新型二维材料的发现与设计进程显著加快。然而,由于缺乏系统的材料合成基础理论,为理论设计的材料寻找可靠合成路径成为关键瓶颈。为应对这一挑战,由中国科学院上海硅酸盐研究所、国家科学图书馆等机构联合构建的Material Synthesis 2025(MatSyn25)数据集应运而生。该数据集从85,160篇高质量研究论文中提取了163,240条二维材料合成流程信息,涵盖材料基本信息与详细合成步骤,为人工智能驱动的材料合成研究提供了核心数据支撑。
当前挑战
在二维材料合成领域,核心挑战在于缺乏普适性合成理论,导致合成路径探索依赖大量试错实验,耗时数月甚至数年。构建MatSyn25数据集过程中面临多重技术难题:首先,从非结构化科学文献中精准提取合成参数需克服文本碎片化、语义关联弱等障碍;其次,合成流程涉及温度、时间、前驱体等多变量耦合,要求提取模型具备复杂的上下文理解能力;此外,现有数据库规模有限且未系统解析关键合成要素,需通过领域增强的语义分割与向量检索技术实现知识增强。这些挑战共同凸显了构建高质量结构化合成数据库的技术复杂性。
常用场景
经典使用场景
在二维材料合成领域,MatSyn25数据集常被用于训练和优化大语言模型,以预测和推荐可靠的合成路径。该数据集整合了16.3万条合成过程信息,涵盖石墨烯、过渡金属硫化物等材料的详细实验步骤和反应条件,为研究人员提供了标准化的数据基础。通过分析这些结构化信息,模型能够学习材料特性与合成方法之间的复杂映射关系,从而辅助设计新型二维材料的合成方案。
衍生相关工作
MatSyn25催生了多项衍生研究,包括基于检索增强生成技术的知识库构建和跨领域材料推理系统。例如,研究团队利用该数据集开发了材料合成知识图谱,揭示了不同合成方法间的潜在关联;同时,其结构化数据格式为后续工作如逆合成分析模型提供了训练基础,促进了领域内标准化数据生态的形成。
数据集最近研究
最新研究方向
在二维材料合成领域,MatSyn25数据集的推出标志着人工智能驱动材料研发进入新阶段。该数据集通过整合16.3万条合成工艺信息,构建了当前最全面的二维材料合成知识图谱,为破解无机材料合成理论缺失的瓶颈提供了关键基础设施。前沿研究聚焦于大语言模型与材料科学的深度融合,基于该数据集训练的MatSyn AI模型在合成路径推荐与优化任务中展现出显著优势,其BLEU-4评分达到0.056,较通用模型提升约三倍。这种数据-模型-平台三位一体的架构正推动合成工艺预测从经验导向转向数据驱动,尤其在石墨烯、过渡金属硫化物等材料的溶剂热法、剥离法合成优化中产生重要影响,为量子材料、新能源等领域的材料设计提供新范式。
相关研究论文
  • 1
    Material Synthesis 2025 (MatSyn25) Dataset for 2D Materials中国科学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作