five

ROOTS Corpus|多语言数据集数据集|语言模型训练数据集

收藏
arXiv2023-03-07 更新2024-06-21 收录
多语言数据集
语言模型训练
下载链接:
https://hf.co/bigscience-data
下载链接
链接失效反馈
资源简介:
ROOTS Corpus是一个1.6TB的多语言数据集,由国际多学科倡议BigScience研讨会形成,旨在研究和训练大型语言模型。该数据集覆盖59种语言,包括46种自然语言和13种编程语言,用于训练具有1760亿参数的BLOOM语言模型。数据集的创建和整理工作由BigScience负责,旨在通过开放科学和协作,将伦理、危害和治理问题置于前沿。此外,该数据集还发布了一个大型初始子集及其分析,旨在通过数据和处理工具支持大规模单语和多语建模项目,并促进对该大型多语言数据集的研究。
提供机构:
Hugging Face
创建时间:
2023-03-07
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

ImageNet-A

The ImageNet-A dataset consists of real-world, unmodified, and naturally occurring examples that are misclassified by ResNet models.

Papers with Code 收录

CTD (Comparative Toxicogenomics Database)

CTD是一个综合性的数据库,旨在通过整合基因、化学物质、疾病和环境暴露的数据,来促进对环境因素与人类疾病之间关系的理解。该数据库包括化学物质与基因的相互作用、化学物质与疾病的关联、基因与疾病的关联以及化学物质与环境暴露的关联。CTD还提供数据下载、API访问和在线查询工具。

ctdbase.org 收录