bigscience/xP3
收藏数据集概述
数据集名称
- 名称: xP3 (Crosslingual Public Pool of Prompts)
数据集描述
- 概述: xP3是一个包含46种语言和16个NLP任务的提示和数据集集合,用于训练多语言语言模型,如BLOOMZ和mT0,这些模型能够在多种语言中进行零样本学习。
- 语言: 支持46种语言,可扩展。
- 编程语言: 支持C, C++, C#, Go, Java, JavaScript, Lua, PHP, Python, Ruby, Rust, Scala, TypeScript。
- 许可证: Apache-2.0
- 多语言性: 多语言
- 大小: 100M<n<1B
- 任务类别: 其他
数据集结构
- 数据实例: 包含
inputs和targets两个字段。 - 数据字段:
inputs为模型输入的自然语言,targets为模型需要生成的自然语言目标。 - 数据分割: 提供不同语言的数据大小和样本数量的详细统计。
数据集创建
- 来源数据: 包含多个训练和评估数据集,涉及多种NLP任务。
- 注释: 注释由专家生成和众包方式产生。
附加信息
- 许可证信息: 数据集根据Apache 2.0许可证发布。
- 引用信息: 提供BibTeX格式的引用信息。
数据集家族
- xP3x: 包含17个任务,277种语言,英语提示。
- xP3: 包含13个训练任务,46种语言,英语提示。
- xP3mt: 包含13个训练任务,46种语言,20种语言的机器翻译提示。
- xP3all: 包含xP3加上额外的3个评估任务,共16个任务,46种语言,英语提示。
- xP3megds: Megatron-DeepSpeed处理版本的xP3。
- P3: 重新处理的英语版本,包含8个训练任务。
AlphaFold Protein Structure Database
AlphaFold是由Google DeepMind开发的AI系统,可从氨基酸序列预测蛋白质的三维结构,其准确性媲美实验方法。Google DeepMind与欧洲生物信息学研究所(EMBL-EBI)合作创建了AlphaFold Protein Structure Database,免费向科学界开放,现已涵盖超过2亿条UniProt蛋白序列,包含人类及47种重要生物的蛋白质组。
alphafold.com 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
The MaizeGDB
The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。
www.maizegdb.org 收录
ShapeNet
ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。
OpenDataLab 收录
