nicholasKluge/instruct-aira-dataset

Name: nicholasKluge/instruct-aira-dataset
Creator: nicholasKluge
Published: 2024-06-18 11:35:44
License: 暂无描述

Hugging Face2024-06-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nicholasKluge/instruct-aira-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含葡萄牙语、英语和西班牙语的提示及其对应的生成响应。所有响应均由已调优的模型如ChatGPT、LLama 2等生成。数据集支持多种NLP任务，如语言模型训练、问答系统开发、聊天机器人构建及语言模型评估等。

提供机构：

nicholasKluge

原始信息汇总

数据集概述

数据集名称: Instruct-Aira Dataset

语言:

葡萄牙语 (pt)
英语 (en)
西班牙语 (es)

许可: Apache-2.0

大小分类: 10K<n<100K

任务分类: 文本生成 (text-generation)

标签:

对齐 (alignment)
指令 (instruction)
聊天 (chat)

数据集信息:

特征:
- prompt: 字符串类型
- completion: 字符串类型
分割:
- 葡萄牙语: 40945个示例，52023662字节
- 英语: 41762个示例，47254561字节
- 西班牙语: 40946个示例，53176782字节
下载大小: 85078532字节
数据集大小: 152455005字节

配置:

默认配置:
- 葡萄牙语分割: data/portuguese-*
- 英语分割: data/english-*
- 西班牙语分割: data/spanish-*

数据集内容

数据实例:

Prompt: 提供给模型的初始文本或问题
Completion: 对给定提示生成的响应

数据字段示例: python { "prompt":"What is the capital of Brazil?", "completion": "The capital of Brazil is Brasília." }

数据分割:

可用分割: 英语, 葡萄牙语, 西班牙语

数据集创建

来源数据:

初始数据收集和规范化: 所有响应由已调优的模型（如ChatGPT, LLama 2, Open-Assistant等）生成。提示来自公开可用的数据集。

注释:

注释过程: 无注释者，响应由模型生成。

个人和敏感信息:

数据集中不包含个人或敏感信息。

使用数据集的考虑

社会影响:

无特定考虑。

偏见讨论:

无特定考虑。

其他已知限制:

无特定考虑。

附加信息

许可信息:

数据集根据Apache License, version 2.0许可。

引用信息: latex @misc{nicholas22aira, doi = {10.5281/zenodo.6989727}, url = {https://github.com/Nkluge-correa/Aira}, author = {Nicholas Kluge Corrêa}, title = {Aira}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集