yjeong/GPT-Narratives-for-Materials

Name: yjeong/GPT-Narratives-for-Materials
Creator: yjeong
Published: 2024-07-21 20:09:05
License: 暂无描述

Hugging Face2024-07-21 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/yjeong/GPT-Narratives-for-Materials

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由GPT-3.5生成的合成语言-材料叙述，旨在克服文献中材料研究的偏见，并通过均匀的元素分布来教授语言模型多样化的知识。数据集来源于四个数据库，分别是JARVIS、Materials Project、OQMD和Aflow2，总共包含1,453,493种材料。该数据集可用于基于大型语言模型（LLM）的逆向材料设计、语言-晶体多模态学习和推理、以及为科学目的微调LLM等。

The dataset contains synthetically generated (by GPT-3.5) language-materials narratives, aiming to overcome the bias in materials studied in the literature and teach the language model a diverse range of knowledge through uniform elemental distribution. The dataset is derived from four databases: JARVIS, Materials Project, OQMD, and Aflow2, totaling 1,453,493 materials. This dataset can be used for large language model (LLM)-based inverse material design, language-crystal multimodal learning and inference, and fine-tuning LLMs for scientific purposes.

提供机构：

yjeong

原始信息汇总

1.5 million materials narratives generated by chatbots

数据集概述

数据集名称: 1.5 million materials narratives generated by chatbots
数据集类型: 合成生成的语言-材料叙述数据集
生成方法: 由GPT-3.5生成
数据集用途: 用于大语言模型（LLM）基于逆向材料设计的功能材料发现，连接自然语言处理（NLP）和材料科学社区

数据集来源

数据来源: 来自4个数据库，托管在JARVIS
- dft_3d_gpt_narratives.parquet
- mp_3d_2020_gpt_narratives.parquet
- aflow2_gpt_narratives.parquet
- oqmd_gpt_narratives.parquet

数据集统计

数据库名称	材料数量
JARVIS	55,723
Materials Project	126,335
OQMD	851,300
Aflow2	420,135
总计	1,453,493

数据集应用

语言-晶体多模态学习和材料推理: 通过NLP识别具有所需特性和应用领域的初始材料结构，并转换为实际的第一性原理计算输入。
科学目的的LLM微调: 基于领域特定数据库，微调大语言模型以实现大规模科学假设机器的应用。
向量数据库和上下文学习: 由于LLM的涌现能力，预计在材料科学领域使用的词汇可以被“自然”理解。

社区贡献

欢迎社区贡献: 加速材料发现的“第五范式”

5,000+

优质数据集

54 个

任务类型

进入经典数据集