Open Materials Guide (OMG)

Name: Open Materials Guide (OMG)
Creator: 韩国 Ajou 大学人工智能系、软件与计算机工程系；韩国 Hanyang 大学材料科学与工程系
Published: 2025-02-23 14:16:23
License: 暂无描述

arXiv2025-02-23 更新2025-02-26 收录

下载链接：

https://github.com/HeegyuKim/AlchemyBench

下载链接

链接失效反馈

官方服务：

资源简介：

Open Materials Guide (OMG) 是一个包含 17,000 个专家验证的合成配方的数据集，由韩国 Ajou 大学和 Hanyang 大学的研究人员共同创建。该数据集从开放获取文献中精心策划，涵盖了超过十种不同的合成技术，包括气相沉积、水热合成和混合材料系统等。通过一个多阶段的注释过程，确保了数据集的高质量，可广泛应用于材料合成预测的研究。

Open Materials Guide (OMG) is a dataset containing 17,000 expert-validated synthetic recipes, jointly created by researchers from Ajou University and Hanyang University in the Republic of Korea. This dataset is carefully curated from open-access literature, covering more than ten distinct synthetic techniques, including vapor deposition, hydrothermal synthesis, hybrid material systems, and more. A multi-stage annotation process guarantees the high quality of this dataset, enabling its broad application in research on materials synthesis prediction.

提供机构：

韩国 Ajou 大学人工智能系、软件与计算机工程系；韩国 Hanyang 大学材料科学与工程系

创建时间：

2025-02-23

搜集汇总

数据集介绍

构建方式

Open Materials Guide (OMG) 数据集的构建始于从开放获取文献中检索约28,685篇相关文章。使用PyMuPDFLLM将PDF转换为结构化的Markdown格式，并通过多阶段的GPT-4o标注流程，将文章分类并提取出五个关键组件：目标材料的摘要、原材料及其定量细节、设备规格、逐步的程序说明和表征方法与结果。这种方法确保了数据集的多样性和覆盖范围，并通过对17,667个高质量配方的系统性提取，为材料合成预测提供了坚实的基础。

使用方法

使用OMG数据集，研究者可以将其作为AlchemyBench基准的一部分，该基准支持端到端的大语言模型应用于合成预测的研究。AlchemyBench提供了对原始材料和设备预测、合成程序生成和表征结果预测等关键任务的评估。此外，OMG数据集还可以用于LLM-as-a-Judge框架，这是一个利用大型语言模型进行自动化评估的系统，它展示了与专家评估的高度统计一致性。研究者可以通过AlchemyBench对合成预测模型进行自动化的基准测试，从而显著减少对昂贵且耗时的专家评估的依赖。

背景与挑战

背景概述

材料合成是推动能源存储、催化、电子和生物医学设备等领域创新的关键过程。然而，这一过程主要依赖于以专家直觉为指导的经验性试错方法。为了支持材料科学界，我们提供了一个实用的、以数据驱动的资源。我们从开放获取的文献中收集了17K个专家验证的合成配方数据集，并以此为基础开发了AlchemyBench基准。AlchemyBench提供了一套端到端框架，支持研究大型语言模型在合成预测中的应用。它涵盖了原材料和设备预测、合成程序生成以及表征结果预测等关键任务。我们提出了一个LLM-as-a-Judge框架，利用大型语言模型进行自动评估，并展示了与专家评估的高度统计一致性。我们的工作为探索LLM在预测和指导材料合成方面的能力提供了支持性基础，最终为更高效的实验设计和材料科学的加速创新铺平了道路。

当前挑战

Open Materials Guide (OMG)数据集和相关研究面临的主要挑战包括：1) 数据集的构建过程中，提取合成程序的准确性受到现有数据集规模小、领域特定和噪声大的限制；2) 缺乏全面的基准，使得评估合成预测方法的性能变得困难；3) 专家评估成本高昂且耗时，不适合大规模使用；4) 现有的评估指标，如BLEU、ROUGE和BERTScore，主要关注词汇重叠，而忽略了合成程序中的顺序依赖性和实验可行性；5) 自动化评估系统的可靠性需要得到系统性的验证。为了应对这些挑战，OMG数据集通过使用LLM驱动的解析方法提高了提取准确性，并通过系统性地收集了超过十种不同的合成技术，以及独家的开放获取出版物，以实现数据集的合法分发。AlchemyBench基准则通过结构化的任务、专家对齐的指标和可扩展的评估策略，解决了合成预测评估的关键挑战。此外，LLM-as-a-Judge框架通过与传统指标的比较，展示了与专家评估的高度统计一致性，证明了其作为可扩展的自动化评估者的潜力。

常用场景

经典使用场景

Open Materials Guide (OMG) 数据集在材料科学领域得到了广泛应用，特别是在材料合成流程的预测和优化方面。该数据集包含了17,000个经过专家验证的合成配方，为大型语言模型在合成预测中的应用提供了数据驱动的资源。AlchemyBench 基准测试框架利用 OMG 数据集，支持从原料和设备预测、合成过程生成到特性预测等关键任务的研究。

解决学术问题

OMG 数据集解决了材料科学研究中常见的合成流程预测和优化问题。通过提供大量高质量、专家验证的合成配方，OMG 数据集为材料合成流程的预测和优化提供了数据驱动的支持。AlchemyBench 基准测试框架利用 OMG 数据集，为评估合成预测模型的性能提供了一个标准化的框架，促进了材料科学研究的进展。

实际应用

OMG 数据集在实际应用中具有广泛的前景。它可以帮助研究人员预测和优化材料合成流程，从而提高实验设计的效率，加速材料科学的创新。AlchemyBench 基准测试框架可以利用 OMG 数据集，为合成预测模型提供自动化的评估，减少对昂贵且耗时的专家评估的依赖，从而提高研究的效率。

数据集最近研究