five

yjeong/GPT-Narratives-for-Materials

收藏
Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/yjeong/GPT-Narratives-for-Materials
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含由GPT-3.5生成的合成语言-材料叙述,旨在克服文献中材料研究的偏见,并通过均匀的元素分布来教授语言模型多样化的知识。数据集来源于四个数据库,分别是JARVIS、Materials Project、OQMD和Aflow2,总共包含1,453,493种材料。该数据集可用于基于大型语言模型(LLM)的逆向材料设计、语言-晶体多模态学习和推理、以及为科学目的微调LLM等。

The dataset contains synthetically generated (by GPT-3.5) language-materials narratives, aiming to overcome the bias in materials studied in the literature and teach the language model a diverse range of knowledge through uniform elemental distribution. The dataset is derived from four databases: JARVIS, Materials Project, OQMD, and Aflow2, totaling 1,453,493 materials. This dataset can be used for large language model (LLM)-based inverse material design, language-crystal multimodal learning and inference, and fine-tuning LLMs for scientific purposes.
提供机构:
yjeong
原始信息汇总

1.5 million materials narratives generated by chatbots

数据集概述

  • 数据集名称: 1.5 million materials narratives generated by chatbots
  • 数据集类型: 合成生成的语言-材料叙述数据集
  • 生成方法: 由GPT-3.5生成
  • 数据集用途: 用于大语言模型(LLM)基于逆向材料设计的功能材料发现,连接自然语言处理(NLP)和材料科学社区

数据集来源

  • 数据来源: 来自4个数据库,托管在JARVIS
    • dft_3d_gpt_narratives.parquet
    • mp_3d_2020_gpt_narratives.parquet
    • aflow2_gpt_narratives.parquet
    • oqmd_gpt_narratives.parquet

数据集统计

数据库名称 材料数量
JARVIS 55,723
Materials Project 126,335
OQMD 851,300
Aflow2 420,135
总计 1,453,493

数据集应用

  • 语言-晶体多模态学习和材料推理: 通过NLP识别具有所需特性和应用领域的初始材料结构,并转换为实际的第一性原理计算输入。
  • 科学目的的LLM微调: 基于领域特定数据库,微调大语言模型以实现大规模科学假设机器的应用。
  • 向量数据库和上下文学习: 由于LLM的涌现能力,预计在材料科学领域使用的词汇可以被“自然”理解。

社区贡献

  • 欢迎社区贡献: 加速材料发现的“第五范式”
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作