bigscience/xP3all
收藏Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigscience/xP3all
下载链接
链接失效反馈官方服务:
资源简介:
xP3(跨语言公共提示池)是一个包含46种语言和16个NLP任务的提示和数据集集合。它用于训练BLOOMZ和mT0等多语言语言模型,这些模型能够在零样本情况下在数十种语言中执行人类指令。数据集可以通过提供的指令重新创建,以节省处理时间并提高可重复性。数据集支持46种语言,并且可以通过重新创建来扩展更多语言。数据集的结构包括数据实例、数据字段和数据分割,数据实例展示了输入和目标的结构。数据集的创建过程包括源数据的收集和注释的生成。数据集发布在Apache 2.0许可下,并提供了引用信息和贡献者名单。
提供机构:
bigscience
原始信息汇总
数据集概述
数据集名称
- 名称: xP3 (Crosslingual Public Pool of Prompts)
数据集描述
- 摘要: xP3是一个包含46种语言和16个NLP任务的提示和数据集集合,用于训练BLOOMZ和mT0等多语言语言模型,这些模型能够在零样本情况下遵循数十种语言的人类指令。
- 语言: 支持46种语言,包括但不限于英语、中文、法语、西班牙语等。
- 任务: 涵盖16个NLP任务,如问答、翻译、情感分析等。
数据集结构
- 数据实例: 每个实例包含自然语言输入和目标输出。
- 数据字段: 包括
inputs和targets两个主要字段。 - 数据分割: 数据按语言分割,详细大小和比例在README文件中列出。
数据集创建
- 来源数据: 数据集由多个训练和评估数据集组成,包括Code Miscellaneous、Closed-book QA、Extractive QA等多个类别。
- 注释: 注释由专家生成和众包两种方式产生。
附加信息
- 许可证: 数据集根据Apache 2.0许可证发布。
- 引用信息: 提供了一个BibTeX格式的引用条目。
- 贡献者: 感谢promptsource项目的贡献者,他们添加了许多用于此数据集的提示。



