Perovskite-R1 数据集
收藏arXiv2025-07-22 更新2025-08-14 收录
下载链接:
https://huggingface.co/datasets/JH976/Perovskite-R1
下载链接
链接失效反馈官方服务:
资源简介:
Perovskite-R1 数据集是由中国人民大学物理学院和化学与生命科学学院的研究人员创建的,用于支持钙钛矿太阳能电池(PSCs)前体添加剂发现和设计的特定领域大型语言模型(LLM)。数据集包含1,232篇高质量的科学出版物和33,269个候选材料的全面库,通过自动问答生成和思维链推理构建。该数据集旨在提高材料稳定性和性能,并通过实验验证了其有效性。
The Perovskite-R1 dataset was created by researchers from the School of Physics and the School of Chemistry and Life Sciences of Renmin University of China. It is developed to support domain-specific Large Language Models (LLMs) for precursor additive discovery and design of perovskite solar cells (PSCs). The dataset comprises 1,232 high-quality scientific publications and a comprehensive library of 33,269 candidate materials, which was constructed via automatic question-answering generation and chain-of-thought reasoning. This dataset aims to enhance material stability and performance, and its effectiveness has been verified through experiments.
提供机构:
中国人民大学物理学院, 中国人民大学化学与生命科学学院
创建时间:
2025-07-22
搜集汇总
数据集介绍

构建方式
Perovskite-R1数据集的构建基于1232篇高质量科学文献和33269种候选材料的系统挖掘与整理。通过OpenAI o1模型将论文内容转化为问答形式的指令调优数据集,并引入链式思维(CoT)推理模板,增强模型的科学推理能力。随后,基于QwQ-32B预训练模型,采用LoRA技术进行参数高效微调,最终形成面向钙钛矿光伏材料设计的领域专用大语言模型。
特点
该数据集深度融合钙钛矿前驱体添加剂领域的专业知识与实验数据,具备三大核心特征:1)覆盖从基础研究到最新突破的完整文献时序谱;2)整合药物分子库以拓展化学空间泛化能力;3)通过CoT标注实现可解释的科学推理。其问答对不仅包含结论性知识,更完整呈现材料设计的逻辑链条与机理分析。
使用方法
研究人员可通过结构化提示系统调用Perovskite-R1进行材料设计任务,提示包含任务定义(如缺陷钝化策略筛选)、科学准则(如优先选择能提升器件稳定性的杂环化合物)和输出规范三部分。模型支持单轮问答与多轮迭代对话,生成的推荐方案经实验验证形成闭环研究流程。典型应用包括前驱体添加剂逆向设计、结晶动力学优化及能级排列调控等。
背景与挑战
背景概述
Perovskite-R1数据集由中国人民大学物理学院和化学与生命资源学院的研究团队于2025年创建,旨在解决钙钛矿太阳能电池(PSCs)研究中前驱体添加剂设计与实验优化的核心问题。该数据集基于1,232篇高质量科学文献和33,269种候选材料库构建,通过自动化问答生成和思维链推理技术,为领域专用大语言模型Perovskite-R1提供训练基础。其创新性体现在将材料科学专业知识与先进自然语言处理技术相结合,显著提升了PSCs研究中缺陷钝化和添加剂筛选的效率,为钙钛矿光伏材料的智能化发现提供了新范式。
当前挑战
该数据集面临的挑战主要体现在两个方面:在研究层面,需解决钙钛矿材料复杂构效关系的建模难题,包括多组分相互作用、结晶动力学控制等非线性科学问题;在构建层面,需克服专业术语理解、跨文献知识整合、材料表征数据异构性等技术障碍。特别是如何从海量文献中提取可计算的结构化知识,以及如何平衡模型生成的创新性与材料合成的可行性,成为数据集构建过程中的关键挑战。
常用场景
经典使用场景
Perovskite-R1数据集在钙钛矿太阳能电池(PSCs)研究中扮演着关键角色,特别是在前驱体添加剂的设计与筛选方面。该数据集通过整合1,232篇高质量科学文献和33,269种候选材料,为研究人员提供了一个全面的知识库。其经典使用场景包括通过大语言模型(LLM)的推理能力,智能生成缺陷钝化策略和添加剂选择方案,从而显著提升钙钛矿材料的稳定性和光电转换效率。
衍生相关工作
该数据集衍生了一系列重要研究工作,包括基于知识图谱的可行性约束检查模块和多任务能力扩展。例如,MatterChat多模态LLM和HoneyComb材料科学专用系统都借鉴了Perovskite-R1的构建理念。这些工作进一步推动了LLM在功能材料设计、催化材料和柔性电子材料等领域的应用,形成了从语言模型生成到物理验证的闭环研究框架。
数据集最近研究
最新研究方向
近年来,钙钛矿太阳能电池(PSCs)因其卓越的光电转换效率和材料特性成为光伏技术领域的研究热点。然而,其商业化进程仍面临长期稳定性、环境可持续性和规模化生产等挑战。在这一背景下,Perovskite-R1数据集的推出为钙钛矿材料的前驱体添加剂设计和实验优化提供了智能化解决方案。该数据集通过整合1,232篇高质量科学文献和33,269种候选材料,构建了领域特定的指令调优数据集,并基于QwQ-32B模型开发了具有高级推理能力的专业大语言模型(LLM)。Perovskite-R1能够智能合成文献见解,生成创新的缺陷钝化和前驱体添加剂选择方案,并通过实验验证了其推荐策略在提升材料稳定性和性能方面的有效性。这一研究不仅加速了钙钛矿光伏材料的发现,还为其他科学领域的智能化数据驱动研究提供了可借鉴的闭环框架。
相关研究论文
- 1Perovskite-R1: A Domain-Specialized LLM for Intelligent Discovery of Precursor Additives and Experimental Design中国人民大学物理学院, 中国人民大学化学与生命科学学院 · 2025年
以上内容由遇见数据集搜集并总结生成



