five

dominguesm/Canarim-Instruct-PTBR-Dataset

收藏
Hugging Face2023-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dominguesm/Canarim-Instruct-PTBR-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Canarim Instruct数据集是一个包含超过300,000条葡萄牙语指令的数据集,涵盖了从简单到复杂的任务。数据集的名称Canarim源自巴西某些地区的方言,意为小黄雀,象征着巴西的日常生活。数据集是通过翻译和改编多个来源的数据创建的,包括dominguesm/alpaca-data-pt-br、cahya/instructions-pt等。数据集的使用许可为CC-BY-NC,允许非商业用途的改编和混音,但需要给予适当的署名。
提供机构:
dominguesm
原始信息汇总

数据集概述

基本信息

  • 语言: 葡萄牙语
  • 许可证: CC-BY-NC-4.0

数据结构

  • 特征:
    • instruction: 字符串类型
    • input: 字符串类型
    • output: 字符串类型

数据分割

  • 训练集:
    • 字节数: 113100060
    • 样本数: 316413
  • 测试集:
    • 字节数: 687328
    • 样本数: 1519

数据大小

  • 下载大小: 63510092 字节
  • 数据集大小: 113787388 字节

数据来源

  • 来源数据集:
    • dominguesm/alpaca-data-pt-br (51759 行)
    • cahya/instructions-pt (57692 行)
    • HuggingFaceH4/self_instruct (74350 行)
    • HuggingFaceH4/helpful_instructions (self_instruct) (82612 行)
    • HuggingFaceH4/helpful_instructions (super_natural_instructions) (50000 行)

数据集描述

  • 包含超过300,000条葡萄牙语指令,从简单的指令到复杂的指令,可能包含翻译错误。

提示模板

python def generate_prompt(instruction, input=None): if input: return f"""Abaixo está uma instrução que descreve uma tarefa, emparelhada com uma entrada que fornece mais contexto. Escreva uma resposta que conclua adequadamente a solicitação.

Instruções:

{instruction}

Entrada:

{input}

Resposta:"""

else:
    return f"""Abaixo está uma instrução que descreve uma tarefa. Escreva uma resposta que conclua adequadamente a solicitação.

Instruções:

{instruction}

Resposta:"""

示例

json { "instruction": "Sugira uma estratégia de marketing eficaz para um programa de TV.", "input": "", "output": "Uma estratégia de marketing eficaz para um programa de TV é criar um trailer de teaser a ser lançado antes da estréia do programa na televisão e outras plataformas digitais. O trailer de teaser deve ser curto, dinâmico e atraente, a fim de desencadear a curiosidade e o interesse nos espectadores. Ele também deve conter uma linha de tags convincente ou gancho que resume a premissa do programa. Além disso, criar uma hashtag associada ao programa de conteúdo da TV e pedir aos espectadores que se juntem à conversa nas mídias sociais." }

json { "instruction": "Compare os dois assuntos a seguir", "input": "Inteligência Artificial e Machine Learning", "output": "Inteligência Artificial (IA) e Machine Learning (ML) são campos da ciência da computação que envolvem o desenvolvimento de máquinas inteligentes que podem aprender com dados e executar tarefas de forma autônoma. A IA se concentra no comportamento semelhante ao humano e envolve o desenvolvimento de algoritmos e estruturas de dados que permitem que as máquinas aprendam através do reconhecimento de padrões e do raciocínio lógico. A ML, por outro lado, é um subconjunto de IA que se concentra em ensinar computadores a otimizar tarefas com um certo grau de precisão." }

许可证信息

  • 许可证: CC-BY-NC (Creative Commons Attribution-NonCommercial)
  • 用途: 允许非商业性重混、改编和构建,需正确署名,不得用于商业目的。

引用

@misc {maicon_domingues_2023, author = { {Maicon Domingues} }, title = { Canarim-Instruct-PTBR-Dataset (Revision c2de751) }, year = 2023, url = { https://huggingface.co/datasets/dominguesm/Canarim-Instruct-PTBR-Dataset }, doi = { 10.57967/hf/0983 }, publisher = { Hugging Face } }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作