yjeong/GPT-Narratives-for-Materials
收藏Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/yjeong/GPT-Narratives-for-Materials
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含由GPT-3.5生成的合成语言-材料叙述,旨在克服文献中材料研究的偏见,并通过均匀的元素分布来教授语言模型多样化的知识。数据集来源于四个数据库,分别是JARVIS、Materials Project、OQMD和Aflow2,总共包含1,453,493种材料。该数据集可用于基于大型语言模型(LLM)的逆向材料设计、语言-晶体多模态学习和推理、以及为科学目的微调LLM等。
The dataset contains synthetically generated (by GPT-3.5) language-materials narratives, aiming to overcome the bias in materials studied in the literature and teach the language model a diverse range of knowledge through uniform elemental distribution. The dataset is derived from four databases: JARVIS, Materials Project, OQMD, and Aflow2, totaling 1,453,493 materials. This dataset can be used for large language model (LLM)-based inverse material design, language-crystal multimodal learning and inference, and fine-tuning LLMs for scientific purposes.
提供机构:
yjeong
原始信息汇总
1.5 million materials narratives generated by chatbots
数据集概述
- 数据集名称: 1.5 million materials narratives generated by chatbots
- 数据集类型: 合成生成的语言-材料叙述数据集
- 生成方法: 由GPT-3.5生成
- 数据集用途: 用于大语言模型(LLM)基于逆向材料设计的功能材料发现,连接自然语言处理(NLP)和材料科学社区
数据集来源
- 数据来源: 来自4个数据库,托管在JARVIS
dft_3d_gpt_narratives.parquetmp_3d_2020_gpt_narratives.parquetaflow2_gpt_narratives.parquetoqmd_gpt_narratives.parquet
数据集统计
| 数据库名称 | 材料数量 |
|---|---|
| JARVIS | 55,723 |
| Materials Project | 126,335 |
| OQMD | 851,300 |
| Aflow2 | 420,135 |
| 总计 | 1,453,493 |
数据集应用
- 语言-晶体多模态学习和材料推理: 通过NLP识别具有所需特性和应用领域的初始材料结构,并转换为实际的第一性原理计算输入。
- 科学目的的LLM微调: 基于领域特定数据库,微调大语言模型以实现大规模科学假设机器的应用。
- 向量数据库和上下文学习: 由于LLM的涌现能力,预计在材料科学领域使用的词汇可以被“自然”理解。
社区贡献
- 欢迎社区贡献: 加速材料发现的“第五范式”



