SDAAP|光谱分析数据集|数据集数据集
收藏Darwin数据集概述
数据集简介
Darwin是一个开源项目,旨在对LLaMA模型进行预训练和微调,专注于科学领域的文献和数据集。特别设计用于材料科学、化学和物理领域,Darwin整合了结构化和非结构化的科学知识,以提高语言模型在科学研究中的效能。
使用许可
Darwin数据集遵循CC BY NC 4.0许可,仅允许非商业用途。使用该数据集训练的模型不得用于研究以外的目的。
最新进展
- 2024.02.15: Darwin在Material Projects的MatBench中成为实验带隙预测任务和金属分类任务的SOTA模型,优于微调的GPT3.5和专用ML模型。
- 2023.09.15: 提供Google Colab版本,可在inference.ipynb中尝试。
模型概述
Darwin基于7B LLaMA模型,训练数据超过100,000个指令跟随数据点,由Darwin科学指令生成器(SIG)从各种科学FAIR数据集和文献语料库生成。初步人类评估显示,Darwin 7B在科学问答和解决化学问题方面优于GPT-4和微调的GPT-3。
数据来源
数据主要来自两个来源:
- 包含6.0M篇材料科学、化学和物理领域论文的原始文献语料库,发表于2000年之后。
- 16个FAIR数据集。
数据生成
使用Darwin-SIG生成科学指令,能够记忆长文本并基于科学文献关键词生成问答数据。
作者
该项目由UNSW、GreenDynamics及其他合作者共同开发。
引用
如使用该数据集或代码,请按以下格式引用:
@misc{xie2023darwin, title={DARWIN Series: Domain Specific Large Language Models for Natural Science}, author={Tong Xie and Yuwei Wan and Wei Huang and Zhenyu Yin and Yixuan Liu and Shaozhou Wang and Qingyuan Linghu and Chunyu Kit and Clara Grazian and Wenjie Zhang and Imran Razzak and Bram Hoex}, year={2023}, eprint={2308.13565}, archivePrefix={arXiv}, primaryClass={cs.CL} }

CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
BBGRE
The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.
国家生物信息中心 收录
中国近海地形数据集(渤海,黄海,东海,南海)
本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。
地球大数据科学工程 收录