Svngoku/xP3x-Kongo
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Svngoku/xP3x-Kongo
下载链接
链接失效反馈官方服务:
资源简介:
xP3x(跨语言公共提示池扩展)是一个包含277种语言和16种NLP任务的提示和数据集集合。它用于训练未来的mT0和BLOOMZ模型。数据集包含680GB的数据和5.3亿个样本,支持多种编程语言,并提供了详细的使用示例和加载方法。
xP3x(跨语言公共提示池扩展)是一个包含277种语言和16种NLP任务的提示和数据集集合。它用于训练未来的mT0和BLOOMZ模型。数据集包含680GB的数据和5.3亿个样本,支持多种编程语言,并提供了详细的使用示例和加载方法。
提供机构:
Svngoku
原始信息汇总
数据集概述
基本信息
- 名称: xP3x
- 语言: 277种语言
- 任务类别: 多语言、翻译
- 数据集大小: 100M<n<1B
- 许可证: Apache 2.0
- 注释创建者: 专家生成、众包
数据集结构
数据实例
json { inputs: 11月、遂にクロームはファイヤーフォックスを引き離し始めた。_はインターネットユーザーの評価が高まったのだ。 Replace the _ in the above sentence with the correct option:
- ファイヤーフォックス
- クローム, targets: クローム, language: jpn_Jpan, split: test, template: Replace, dataset: Muennighoff/xwinograd, config: jp }
数据字段
inputs: 模型的自然语言输入targets: 模型需要生成的自然语言目标language: 语言代码,扩展自FLORES-200代码template: 使用的提示名称dataset: 数据来源的Hugging Face数据集标识符config: Hugging Face数据集的配置
数据分割
- Kikongo: 648,992 KB, 0.1%, 1,223,481样本, 0.23%
数据集创建
源数据
- 训练数据集: 包括代码杂项、闭卷问答、抽取式问答、多选问答、复述识别、程序合成、结构到文本、情感分析、简化、摘要、主题分类、翻译、词义消歧、自然语言推理、指代消解、句子补全等任务的数据集。
数据集特性
- Flores-200: 包含三种提示风格:
continuation、question、command。 - tatoeba_mt: 包含重复数据,可能需要去重。
附加信息
许可证信息
- 许可证: Apache 2.0
引用信息
bibtex @article{muennighoff2022crosslingual, title={Crosslingual generalization through multitask finetuning}, author={Muennighoff, Niklas and Wang, Thomas and Sutawika, Lintang and Roberts, Adam and Biderman, Stella and Scao, Teven Le and Bari, M Saiful and Shen, Sheng and Yong, Zheng-Xin and Schoelkopf, Hailey and others}, journal={arXiv preprint arXiv:2211.01786}, year={2022} }
贡献
- 感谢promptsource的贡献者添加了许多用于此数据集的提示。
- 感谢Aya团队@C4AI的贡献。



