five

Svngoku/xP3x-Kongo

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Svngoku/xP3x-Kongo
下载链接
链接失效反馈
官方服务:
资源简介:
xP3x(跨语言公共提示池扩展)是一个包含277种语言和16种NLP任务的提示和数据集集合。它用于训练未来的mT0和BLOOMZ模型。数据集包含680GB的数据和5.3亿个样本,支持多种编程语言,并提供了详细的使用示例和加载方法。

xP3x(跨语言公共提示池扩展)是一个包含277种语言和16种NLP任务的提示和数据集集合。它用于训练未来的mT0和BLOOMZ模型。数据集包含680GB的数据和5.3亿个样本,支持多种编程语言,并提供了详细的使用示例和加载方法。
提供机构:
Svngoku
原始信息汇总

数据集概述

基本信息

  • 名称: xP3x
  • 语言: 277种语言
  • 任务类别: 多语言、翻译
  • 数据集大小: 100M<n<1B
  • 许可证: Apache 2.0
  • 注释创建者: 专家生成、众包

数据集结构

数据实例

json { inputs: 11月、遂にクロームはファイヤーフォックスを引き離し始めた。_はインターネットユーザーの評価が高まったのだ。 Replace the _ in the above sentence with the correct option:

  • ファイヤーフォックス
  • クローム, targets: クローム, language: jpn_Jpan, split: test, template: Replace, dataset: Muennighoff/xwinograd, config: jp }

数据字段

  • inputs: 模型的自然语言输入
  • targets: 模型需要生成的自然语言目标
  • language: 语言代码,扩展自FLORES-200代码
  • template: 使用的提示名称
  • dataset: 数据来源的Hugging Face数据集标识符
  • config: Hugging Face数据集的配置

数据分割

  • Kikongo: 648,992 KB, 0.1%, 1,223,481样本, 0.23%

数据集创建

源数据

  • 训练数据集: 包括代码杂项、闭卷问答、抽取式问答、多选问答、复述识别、程序合成、结构到文本、情感分析、简化、摘要、主题分类、翻译、词义消歧、自然语言推理、指代消解、句子补全等任务的数据集。

数据集特性

  • Flores-200: 包含三种提示风格:continuationquestioncommand
  • tatoeba_mt: 包含重复数据,可能需要去重。

附加信息

许可证信息

  • 许可证: Apache 2.0

引用信息

bibtex @article{muennighoff2022crosslingual, title={Crosslingual generalization through multitask finetuning}, author={Muennighoff, Niklas and Wang, Thomas and Sutawika, Lintang and Roberts, Adam and Biderman, Stella and Scao, Teven Le and Bari, M Saiful and Shen, Sheng and Yong, Zheng-Xin and Schoelkopf, Hailey and others}, journal={arXiv preprint arXiv:2211.01786}, year={2022} }

贡献

  • 感谢promptsource的贡献者添加了许多用于此数据集的提示。
  • 感谢Aya团队@C4AI的贡献。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作