five

cnmoro/Instruct-PTBR-ENUS-11M

收藏
Hugging Face2023-11-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cnmoro/Instruct-PTBR-ENUS-11M
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是HuggingFace上多个指令数据集的混合,还包括一些自制的数据集,专注于RAG的问答、摘要、关键词生成等任务。原始数据集大部分为英文,大部分已翻译为巴西葡萄牙语,可能存在翻译错误。数据集中包含一个“LANGUAGE”列,指示数据是葡萄牙语(PT)还是英语(EN)。数据集总行数为11165249,其中葡萄牙语指令行数为5926086,英语指令行数为5239163。

This dataset is a mix of multiple instruct datasets found on HuggingFace, while also including a bunch of other datasets (self-made) for tasks such as question-answering focused on RAG, summarization, keyword generation and others. Most of the original dataset was in the English language. I have translated most of it to Brazilian Portuguese. There is a LANGUAGE column, which indicates if its PT or EN. The total row count for the dataset is 11165249, with 5926086 rows for Portuguese instructions and 5239163 rows for English instructions.
提供机构:
cnmoro
原始信息汇总

数据集概述

数据集许可

  • 许可:llama2

任务类别

  • 问答
  • 摘要生成
  • 文本生成
  • 文本到文本生成

语言

  • 英语
  • 巴西葡萄牙语

数据规模

  • 规模:10M<n<100M

数据集描述

  • 该数据集混合了多个在huggingface上找到的instruct数据集,并包含其他自制的用于问答(专注于RAG)、摘要生成、关键词生成等任务的数据集。
  • 原始数据集主要为英语,大部分已翻译成巴西葡萄牙语。数据集包含“LANGUAGE”列,指示语言为PT或EN。翻译可能存在错误。

数据格式

  • 对于RAG、摘要生成和关键词生成任务,instruct布局如下:
    • 英语:

      Context: {YourRetrievedContext} Based on the context, answer: “{YourQuestion}”. Context: {YourRetrievedContext} Based on the context, write a summary. Context: {YourRetrievedContext} Based on the context, what are the keywords?.

    • 葡萄牙语:

      Contexto: {SeuContextoBuscado} Baseado no contexto, responda: “{SuaPergunta}”. Contexto: {SeuContextoBuscado} Baseado no contexto, escreva um resumo. Contexto: {SeuContextoBuscado} Baseado no contexto, quais são as palavras-chave?.

数据量

  • 总行数:11165249
  • 葡萄牙语指令行数:5926086
  • 英语指令行数:5239163
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作