SDAAP|光谱分析数据集|数据集数据集
收藏Darwin数据集概述
数据集简介
Darwin是一个开源项目,旨在对LLaMA模型进行预训练和微调,专注于科学领域的文献和数据集。特别设计用于材料科学、化学和物理领域,Darwin整合了结构化和非结构化的科学知识,以提高语言模型在科学研究中的效能。
使用许可
Darwin数据集遵循CC BY NC 4.0许可,仅允许非商业用途。使用该数据集训练的模型不得用于研究以外的目的。
最新进展
- 2024.02.15: Darwin在Material Projects的MatBench中成为实验带隙预测任务和金属分类任务的SOTA模型,优于微调的GPT3.5和专用ML模型。
- 2023.09.15: 提供Google Colab版本,可在inference.ipynb中尝试。
模型概述
Darwin基于7B LLaMA模型,训练数据超过100,000个指令跟随数据点,由Darwin科学指令生成器(SIG)从各种科学FAIR数据集和文献语料库生成。初步人类评估显示,Darwin 7B在科学问答和解决化学问题方面优于GPT-4和微调的GPT-3。
数据来源
数据主要来自两个来源:
- 包含6.0M篇材料科学、化学和物理领域论文的原始文献语料库,发表于2000年之后。
- 16个FAIR数据集。
数据生成
使用Darwin-SIG生成科学指令,能够记忆长文本并基于科学文献关键词生成问答数据。
作者
该项目由UNSW、GreenDynamics及其他合作者共同开发。
引用
如使用该数据集或代码,请按以下格式引用:
@misc{xie2023darwin, title={DARWIN Series: Domain Specific Large Language Models for Natural Science}, author={Tong Xie and Yuwei Wan and Wei Huang and Zhenyu Yin and Yixuan Liu and Shaozhou Wang and Qingyuan Linghu and Chunyu Kit and Clara Grazian and Wenjie Zhang and Imran Razzak and Bram Hoex}, year={2023}, eprint={2308.13565}, archivePrefix={arXiv}, primaryClass={cs.CL} }

中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
Movies Dataset
这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。
github 收录
Online Retail II
该在线零售II数据集包含了一家英国注册的非实体店铺在线零售商在2009年12月1日至2011年12月9日期间发生的所有交易记录。该公司主要销售各种场合的独特礼品。该公司的许多客户是批发商。
github 收录