five

Text-mined dataset of gold nanoparticle synthesis procedures, morphologies, and size entities

收藏
arXiv2022-04-22 更新2024-06-21 收录
下载链接:
https://doi.org/10.6084/m9.figshare.16614262.v3
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由加州大学伯克利分校和劳伦斯伯克利国家实验室的研究团队创建,专注于金纳米粒子的合成过程、形态和尺寸信息。数据集包含5154条记录,每条记录代表一篇单独的金纳米粒子合成文章,从4,973,165篇出版物中筛选而来。每条记录包含编码的合成协议和从总共7,608个实验段落和12,519个表征段落中提取的形态信息。该数据集旨在通过数据驱动的方法,帮助理解金纳米粒子合成的基本机制,并解决由于合成参数的广泛组合而导致的理解不足问题。

This dataset was created by a research team from the University of California, Berkeley, and the Lawrence Berkeley National Laboratory, focusing on the synthesis process, morphology, and size information of gold nanoparticles. The dataset contains 5,154 records, each representing an individual journal article on gold nanoparticle synthesis, screened from a total of 4,973,165 publications. Each record includes encoded synthesis protocols and morphological information extracted from a total of 7,608 experimental paragraphs and 12,519 characterization paragraphs. This dataset aims to aid in understanding the fundamental mechanisms of gold nanoparticle synthesis via data-driven approaches, and address the gaps in understanding caused by the extensive combinations of synthesis parameters.
提供机构:
加州大学伯克利分校材料科学与工程系,劳伦斯伯克利国家实验室材料科学部,劳伦斯伯克利国家实验室能源技术领域
创建时间:
2022-04-22
搜集汇总
数据集介绍
main_image_url
构建方式
在纳米材料科学领域,金纳米颗粒的合成与表征数据广泛分布于海量文献中,但缺乏系统化的结构化资源。为此,研究团队通过自然语言处理与文本挖掘技术,从近500万篇材料科学出版物中自动化提取金纳米颗粒合成信息。构建流程始于基于正则表达式与词频-逆文档频率的初步文献筛选,随后利用预训练的MatBERT模型进行合成段落与表征段落的二元分类,再通过材料实体识别、合成动作提取及形态实体识别等步骤,从7608个合成段落与12519个表征段落中编码出5154条金纳米颗粒合成记录。
特点
该数据集的核心特点在于其规模与结构化深度,涵盖了金纳米颗粒合成中的前驱体、反应条件、形态描述及尺寸测量等多维度信息。通过集成先进的自然语言处理模型,如基于Transformer的段落分类与实体识别,数据集不仅实现了对合成步骤的程序化编码,还精准提取了球形、纳米棒等多种形态的表述。此外,数据集特别标注了种子介导生长方法,并提供了文献元数据,为数据驱动研究提供了高精度、可查询的标准化资源。
使用方法
数据集以JSON格式公开,用户可通过Python等编程语言直接读取,无需额外依赖。研究者可将其用于金纳米颗粒合成文献的综述分析,或基于特定形态、尺寸目标查询合成配方。数据集中编码的合成图谱与形态信息支持机器学习模型的训练,例如预测合成参数与产物性质的关联。未来,数据集将通过GitHub持续更新,以增强实体链接与目标形态识别等功能。
背景与挑战
背景概述
金纳米粒子因其可调控的光学与化学性质,在生物医学、催化和电子器件等领域展现出广泛应用前景。然而,其尺寸与形貌的精确控制机制尚未完全明晰,这主要源于合成参数组合的复杂性与实验数据的稀疏性。为应对这一挑战,加州大学伯克利分校与劳伦斯伯克利国家实验室的研究团队于2021年发布了基于文本挖掘的金纳米粒子合成数据集。该数据集从近五百万篇材料科学文献中筛选出5,154篇相关文章,通过自然语言处理技术自动提取了合成步骤、前驱体信息以及形貌与尺寸数据,旨在为数据驱动的纳米材料合成研究提供结构化资源,推动合成机理的探索与优化。
当前挑战
该数据集致力于解决金纳米粒子合成中形貌与尺寸可控性预测的核心难题,其挑战主要体现在两个方面:在领域问题层面,金纳米粒子的性质高度依赖于其纳米结构,但合成参数与最终形貌之间的复杂非线性关系难以通过传统实验或理论模型全面捕捉;在构建过程层面,从海量科学文献中准确提取结构化合成信息面临巨大困难,包括非标准化文本描述、科技术语的多样性、以及合成步骤与表征结果之间的语义关联缺失,这些因素均对信息提取的准确性与完整性构成了显著挑战。
常用场景
经典使用场景
在纳米材料科学领域,金纳米颗粒因其可调控的光学与催化特性而备受关注,然而其合成过程中形态与尺寸的精确控制长期依赖于经验性探索。该数据集通过自然语言处理技术从海量科学文献中提取了金纳米颗粒的合成配方与形态特征,为研究人员提供了一个结构化、可查询的知识库。其经典应用场景在于支持数据驱动的合成参数优化研究,例如通过分析前驱体使用频率与目标形态之间的关联,揭示如CTAB和硝酸银在纳米棒生长中的关键作用,从而指导实验设计以减少试错成本。
解决学术问题
该数据集主要解决了金纳米颗粒合成研究中两个核心学术问题:一是传统实验方法难以系统探索庞大参数空间导致的机理不明确问题,通过整合数千篇文献中的合成协议与结果,为理论建模提供了大规模实证基础;二是克服了手动提取文献信息的低效性与主观性,利用自动化文本挖掘技术实现了合成步骤、前驱体用量及形态描述的高精度抽取。这显著推进了对于形貌控制机制的理解,例如验证了种子介导生长法中特定试剂组合对长径比的影响,填补了实验数据与计算模拟之间的鸿沟。
衍生相关工作
该数据集的发布催生了多项经典衍生研究。例如,基于其提取流程开发的MatBERT模型,成为材料科学领域文本预训练的重要基础,提升了命名实体识别在复杂化学语境中的准确性。后续工作进一步扩展了文本挖掘框架,如将合成动作编码为统一语言(ULSA),实现了跨材料类别的协议标准化。同时,数据集启发了形态-合成关联的机器学习预测模型,部分研究利用其构建的金纳米颗粒形态热图,探索了前驱体组合与最终形貌之间的非线性关系,推动了逆向合成设计方法的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作