bigscience/xP3all

Name: bigscience/xP3all
Creator: bigscience
Published: 2023-05-30 15:51:40
License: 暂无描述

Hugging Face2023-05-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigscience/xP3all

下载链接

链接失效反馈

官方服务：

资源简介：

xP3（跨语言公共提示池）是一个包含46种语言和16个NLP任务的提示和数据集集合。它用于训练BLOOMZ和mT0等多语言语言模型，这些模型能够在零样本情况下在数十种语言中执行人类指令。数据集可以通过提供的指令重新创建，以节省处理时间并提高可重复性。数据集支持46种语言，并且可以通过重新创建来扩展更多语言。数据集的结构包括数据实例、数据字段和数据分割，数据实例展示了输入和目标的结构。数据集的创建过程包括源数据的收集和注释的生成。数据集发布在Apache 2.0许可下，并提供了引用信息和贡献者名单。

提供机构：

bigscience

原始信息汇总

数据集概述

数据集名称

名称: xP3 (Crosslingual Public Pool of Prompts)

数据集描述

摘要: xP3是一个包含46种语言和16个NLP任务的提示和数据集集合，用于训练BLOOMZ和mT0等多语言语言模型，这些模型能够在零样本情况下遵循数十种语言的人类指令。
语言: 支持46种语言，包括但不限于英语、中文、法语、西班牙语等。
任务: 涵盖16个NLP任务，如问答、翻译、情感分析等。

数据集结构

数据实例: 每个实例包含自然语言输入和目标输出。
数据字段: 包括inputs和targets两个主要字段。
数据分割: 数据按语言分割，详细大小和比例在README文件中列出。

数据集创建

来源数据: 数据集由多个训练和评估数据集组成，包括Code Miscellaneous、Closed-book QA、Extractive QA等多个类别。
注释: 注释由专家生成和众包两种方式产生。

附加信息

许可证: 数据集根据Apache 2.0许可证发布。
引用信息: 提供了一个BibTeX格式的引用条目。
贡献者: 感谢promptsource项目的贡献者，他们添加了许多用于此数据集的提示。

5,000+

优质数据集

54 个

任务类型

进入经典数据集