five

Open Materials Guide (OMG)

收藏
arXiv2025-02-23 更新2025-02-26 收录
下载链接:
https://github.com/HeegyuKim/AlchemyBench
下载链接
链接失效反馈
官方服务:
资源简介:
Open Materials Guide (OMG) 是一个包含 17,000 个专家验证的合成配方的数据集,由韩国 Ajou 大学和 Hanyang 大学的研究人员共同创建。该数据集从开放获取文献中精心策划,涵盖了超过十种不同的合成技术,包括气相沉积、水热合成和混合材料系统等。通过一个多阶段的注释过程,确保了数据集的高质量,可广泛应用于材料合成预测的研究。

Open Materials Guide (OMG) is a dataset containing 17,000 expert-validated synthetic recipes, jointly created by researchers from Ajou University and Hanyang University in the Republic of Korea. This dataset is carefully curated from open-access literature, covering more than ten distinct synthetic techniques, including vapor deposition, hydrothermal synthesis, hybrid material systems, and more. A multi-stage annotation process guarantees the high quality of this dataset, enabling its broad application in research on materials synthesis prediction.
提供机构:
韩国 Ajou 大学人工智能系、软件与计算机工程系;韩国 Hanyang 大学材料科学与工程系
创建时间:
2025-02-23
搜集汇总
数据集介绍
main_image_url
构建方式
Open Materials Guide (OMG) 数据集的构建始于从开放获取文献中检索约28,685篇相关文章。使用PyMuPDFLLM将PDF转换为结构化的Markdown格式,并通过多阶段的GPT-4o标注流程,将文章分类并提取出五个关键组件:目标材料的摘要、原材料及其定量细节、设备规格、逐步的程序说明和表征方法与结果。这种方法确保了数据集的多样性和覆盖范围,并通过对17,667个高质量配方的系统性提取,为材料合成预测提供了坚实的基础。
使用方法
使用OMG数据集,研究者可以将其作为AlchemyBench基准的一部分,该基准支持端到端的大语言模型应用于合成预测的研究。AlchemyBench提供了对原始材料和设备预测、合成程序生成和表征结果预测等关键任务的评估。此外,OMG数据集还可以用于LLM-as-a-Judge框架,这是一个利用大型语言模型进行自动化评估的系统,它展示了与专家评估的高度统计一致性。研究者可以通过AlchemyBench对合成预测模型进行自动化的基准测试,从而显著减少对昂贵且耗时的专家评估的依赖。
背景与挑战
背景概述
材料合成是推动能源存储、催化、电子和生物医学设备等领域创新的关键过程。然而,这一过程主要依赖于以专家直觉为指导的经验性试错方法。为了支持材料科学界,我们提供了一个实用的、以数据驱动的资源。我们从开放获取的文献中收集了17K个专家验证的合成配方数据集,并以此为基础开发了AlchemyBench基准。AlchemyBench提供了一套端到端框架,支持研究大型语言模型在合成预测中的应用。它涵盖了原材料和设备预测、合成程序生成以及表征结果预测等关键任务。我们提出了一个LLM-as-a-Judge框架,利用大型语言模型进行自动评估,并展示了与专家评估的高度统计一致性。我们的工作为探索LLM在预测和指导材料合成方面的能力提供了支持性基础,最终为更高效的实验设计和材料科学的加速创新铺平了道路。
当前挑战
Open Materials Guide (OMG)数据集和相关研究面临的主要挑战包括:1) 数据集的构建过程中,提取合成程序的准确性受到现有数据集规模小、领域特定和噪声大的限制;2) 缺乏全面的基准,使得评估合成预测方法的性能变得困难;3) 专家评估成本高昂且耗时,不适合大规模使用;4) 现有的评估指标,如BLEU、ROUGE和BERTScore,主要关注词汇重叠,而忽略了合成程序中的顺序依赖性和实验可行性;5) 自动化评估系统的可靠性需要得到系统性的验证。为了应对这些挑战,OMG数据集通过使用LLM驱动的解析方法提高了提取准确性,并通过系统性地收集了超过十种不同的合成技术,以及独家的开放获取出版物,以实现数据集的合法分发。AlchemyBench基准则通过结构化的任务、专家对齐的指标和可扩展的评估策略,解决了合成预测评估的关键挑战。此外,LLM-as-a-Judge框架通过与传统指标的比较,展示了与专家评估的高度统计一致性,证明了其作为可扩展的自动化评估者的潜力。
常用场景
经典使用场景
Open Materials Guide (OMG) 数据集在材料科学领域得到了广泛应用,特别是在材料合成流程的预测和优化方面。该数据集包含了17,000个经过专家验证的合成配方,为大型语言模型在合成预测中的应用提供了数据驱动的资源。AlchemyBench 基准测试框架利用 OMG 数据集,支持从原料和设备预测、合成过程生成到特性预测等关键任务的研究。
解决学术问题
OMG 数据集解决了材料科学研究中常见的合成流程预测和优化问题。通过提供大量高质量、专家验证的合成配方,OMG 数据集为材料合成流程的预测和优化提供了数据驱动的支持。AlchemyBench 基准测试框架利用 OMG 数据集,为评估合成预测模型的性能提供了一个标准化的框架,促进了材料科学研究的进展。
实际应用
OMG 数据集在实际应用中具有广泛的前景。它可以帮助研究人员预测和优化材料合成流程,从而提高实验设计的效率,加速材料科学的创新。AlchemyBench 基准测试框架可以利用 OMG 数据集,为合成预测模型提供自动化的评估,减少对昂贵且耗时的专家评估的依赖,从而提高研究的效率。
数据集最近研究
最新研究方向
在材料科学的领域,合成过程一直依赖于经验性的试错方法,这种方法的效率低下,限制了材料创新的步伐。为了解决这一问题,Kim等人(2025)提出了一个名为Open Materials Guide (OMG) 的数据集,该数据集包含17,000个专家验证的合成方法,为材料科学领域提供了一个实用、数据驱动的资源。他们开发的AlchemyBench框架支持在大语言模型(LLMs)应用于合成预测方面的研究,涵盖了原料和设备预测、合成程序生成和特性预测等关键任务。此外,他们提出了LLM-as-a-Judge框架,利用大语言模型进行自动化评估,展示了与专家评估的高度统计一致性。这些贡献为探索LLMs在预测和指导材料合成方面的能力提供了支持,最终为更高效的实验设计和加速材料科学的创新铺平了道路。
相关研究论文
  • 1
    Towards Fully-Automated Materials Discovery via Large-Scale Synthesis Dataset and Expert-Level LLM-as-a-Judge韩国 Ajou 大学人工智能系、软件与计算机工程系;韩国 Hanyang 大学材料科学与工程系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作