ArXiv论文作者在Figshare上也放了数据集: https://figshare.com/collections/FUMPE/4107803/1
SDAAP
收藏Darwin数据集概述
数据集简介
Darwin是一个开源项目,旨在对LLaMA模型进行预训练和微调,专注于科学领域的文献和数据集。特别设计用于材料科学、化学和物理领域,Darwin整合了结构化和非结构化的科学知识,以提高语言模型在科学研究中的效能。
使用许可
Darwin数据集遵循CC BY NC 4.0许可,仅允许非商业用途。使用该数据集训练的模型不得用于研究以外的目的。
最新进展
- 2024.02.15: Darwin在Material Projects的MatBench中成为实验带隙预测任务和金属分类任务的SOTA模型,优于微调的GPT3.5和专用ML模型。
- 2023.09.15: 提供Google Colab版本,可在inference.ipynb中尝试。
模型概述
Darwin基于7B LLaMA模型,训练数据超过100,000个指令跟随数据点,由Darwin科学指令生成器(SIG)从各种科学FAIR数据集和文献语料库生成。初步人类评估显示,Darwin 7B在科学问答和解决化学问题方面优于GPT-4和微调的GPT-3。
数据来源
数据主要来自两个来源:
- 包含6.0M篇材料科学、化学和物理领域论文的原始文献语料库,发表于2000年之后。
- 16个FAIR数据集。
数据生成
使用Darwin-SIG生成科学指令,能够记忆长文本并基于科学文献关键词生成问答数据。
作者
该项目由UNSW、GreenDynamics及其他合作者共同开发。
引用
如使用该数据集或代码,请按以下格式引用:
@misc{xie2023darwin, title={DARWIN Series: Domain Specific Large Language Models for Natural Science}, author={Tong Xie and Yuwei Wan and Wei Huang and Zhenyu Yin and Yixuan Liu and Shaozhou Wang and Qingyuan Linghu and Chunyu Kit and Clara Grazian and Wenjie Zhang and Imran Razzak and Bram Hoex}, year={2023}, eprint={2308.13565}, archivePrefix={arXiv}, primaryClass={cs.CL} }




