five

bigscience/xP3

收藏
hugging_face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigscience/xP3
下载链接
链接失效反馈
资源简介:
xP3(跨语言公共提示池)是一个包含46种语言和16个NLP任务的提示和数据集集合。它用于训练BLOOMZ和mT0等多语言模型,这些模型能够在零样本情况下在数十种语言中执行人类指令。数据集可以通过提供的指令重新创建,以节省处理时间并提高可重复性。数据集支持的语言包括ak、ar、as、bm、bn、ca、code、en、es、eu、fon、fr、gu、hi、id、ig、ki、kn、lg、ln、ml、mr、ne、nso、ny、or、pa、pt、rn、rw、sn、st、sw、ta、te、tn、ts、tum、tw、ur、vi、wo、xh、yo、zh、zu。数据集的结构包括输入和目标字段,数据实例展示了如何将输入转换为目标输出。数据集的创建过程包括从多个来源收集训练数据,并提供了详细的来源列表。数据集发布在Apache 2.0许可证下,并提供了引用信息。
提供机构:
bigscience
原始信息汇总

数据集概述

数据集名称

  • 名称: xP3 (Crosslingual Public Pool of Prompts)

数据集描述

  • 概述: xP3是一个包含46种语言和16个NLP任务的提示和数据集集合,用于训练多语言语言模型,如BLOOMZ和mT0,这些模型能够在多种语言中进行零样本学习。
  • 语言: 支持46种语言,可扩展。
  • 编程语言: 支持C, C++, C#, Go, Java, JavaScript, Lua, PHP, Python, Ruby, Rust, Scala, TypeScript。
  • 许可证: Apache-2.0
  • 多语言性: 多语言
  • 大小: 100M<n<1B
  • 任务类别: 其他

数据集结构

  • 数据实例: 包含inputstargets两个字段。
  • 数据字段: inputs为模型输入的自然语言,targets为模型需要生成的自然语言目标。
  • 数据分割: 提供不同语言的数据大小和样本数量的详细统计。

数据集创建

  • 来源数据: 包含多个训练和评估数据集,涉及多种NLP任务。
  • 注释: 注释由专家生成和众包方式产生。

附加信息

  • 许可证信息: 数据集根据Apache 2.0许可证发布。
  • 引用信息: 提供BibTeX格式的引用信息。

数据集家族

  • xP3x: 包含17个任务,277种语言,英语提示。
  • xP3: 包含13个训练任务,46种语言,英语提示。
  • xP3mt: 包含13个训练任务,46种语言,20种语言的机器翻译提示。
  • xP3all: 包含xP3加上额外的3个评估任务,共16个任务,46种语言,英语提示。
  • xP3megds: Megatron-DeepSpeed处理版本的xP3。
  • P3: 重新处理的英语版本,包含8个训练任务。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AlphaFold Protein Structure Database

AlphaFold是由Google DeepMind开发的AI系统,可从氨基酸序列预测蛋白质的三维结构,其准确性媲美实验方法。Google DeepMind与欧洲生物信息学研究所(EMBL-EBI)合作创建了AlphaFold Protein Structure Database,免费向科学界开放,现已涵盖超过2亿条UniProt蛋白序列,包含人类及47种重要生物的蛋白质组。

alphafold.com 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录