dominguesm/Canarim-Instruct-PTBR-Dataset
收藏数据集概述
基本信息
- 语言: 葡萄牙语
- 许可证: CC-BY-NC-4.0
数据结构
- 特征:
instruction: 字符串类型input: 字符串类型output: 字符串类型
数据分割
- 训练集:
- 字节数: 113100060
- 样本数: 316413
- 测试集:
- 字节数: 687328
- 样本数: 1519
数据大小
- 下载大小: 63510092 字节
- 数据集大小: 113787388 字节
数据来源
- 来源数据集:
dominguesm/alpaca-data-pt-br(51759 行)cahya/instructions-pt(57692 行)HuggingFaceH4/self_instruct(74350 行)HuggingFaceH4/helpful_instructions (self_instruct)(82612 行)HuggingFaceH4/helpful_instructions (super_natural_instructions)(50000 行)
数据集描述
- 包含超过300,000条葡萄牙语指令,从简单的指令到复杂的指令,可能包含翻译错误。
提示模板
python def generate_prompt(instruction, input=None): if input: return f"""Abaixo está uma instrução que descreve uma tarefa, emparelhada com uma entrada que fornece mais contexto. Escreva uma resposta que conclua adequadamente a solicitação.
Instruções:
{instruction}
Entrada:
{input}
Resposta:"""
else:
return f"""Abaixo está uma instrução que descreve uma tarefa. Escreva uma resposta que conclua adequadamente a solicitação.
Instruções:
{instruction}
Resposta:"""
示例
json { "instruction": "Sugira uma estratégia de marketing eficaz para um programa de TV.", "input": "", "output": "Uma estratégia de marketing eficaz para um programa de TV é criar um trailer de teaser a ser lançado antes da estréia do programa na televisão e outras plataformas digitais. O trailer de teaser deve ser curto, dinâmico e atraente, a fim de desencadear a curiosidade e o interesse nos espectadores. Ele também deve conter uma linha de tags convincente ou gancho que resume a premissa do programa. Além disso, criar uma hashtag associada ao programa de conteúdo da TV e pedir aos espectadores que se juntem à conversa nas mídias sociais." }
json { "instruction": "Compare os dois assuntos a seguir", "input": "Inteligência Artificial e Machine Learning", "output": "Inteligência Artificial (IA) e Machine Learning (ML) são campos da ciência da computação que envolvem o desenvolvimento de máquinas inteligentes que podem aprender com dados e executar tarefas de forma autônoma. A IA se concentra no comportamento semelhante ao humano e envolve o desenvolvimento de algoritmos e estruturas de dados que permitem que as máquinas aprendam através do reconhecimento de padrões e do raciocínio lógico. A ML, por outro lado, é um subconjunto de IA que se concentra em ensinar computadores a otimizar tarefas com um certo grau de precisão." }
许可证信息
- 许可证: CC-BY-NC (Creative Commons Attribution-NonCommercial)
- 用途: 允许非商业性重混、改编和构建,需正确署名,不得用于商业目的。
引用
@misc {maicon_domingues_2023, author = { {Maicon Domingues} }, title = { Canarim-Instruct-PTBR-Dataset (Revision c2de751) }, year = 2023, url = { https://huggingface.co/datasets/dominguesm/Canarim-Instruct-PTBR-Dataset }, doi = { 10.57967/hf/0983 }, publisher = { Hugging Face } }



