nicholasKluge/instruct-aira-dataset
收藏Hugging Face2024-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nicholasKluge/instruct-aira-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含葡萄牙语、英语和西班牙语的提示及其对应的生成响应。所有响应均由已调优的模型如ChatGPT、LLama 2等生成。数据集支持多种NLP任务,如语言模型训练、问答系统开发、聊天机器人构建及语言模型评估等。
该数据集包含葡萄牙语、英语和西班牙语的提示及其对应的生成响应。所有响应均由已调优的模型如ChatGPT、LLama 2等生成。数据集支持多种NLP任务,如语言模型训练、问答系统开发、聊天机器人构建及语言模型评估等。
提供机构:
nicholasKluge
原始信息汇总
数据集概述
数据集名称: Instruct-Aira Dataset
语言:
- 葡萄牙语 (pt)
- 英语 (en)
- 西班牙语 (es)
许可: Apache-2.0
大小分类: 10K<n<100K
任务分类: 文本生成 (text-generation)
标签:
- 对齐 (alignment)
- 指令 (instruction)
- 聊天 (chat)
数据集信息:
- 特征:
- prompt: 字符串类型
- completion: 字符串类型
- 分割:
- 葡萄牙语: 40945个示例,52023662字节
- 英语: 41762个示例,47254561字节
- 西班牙语: 40946个示例,53176782字节
- 下载大小: 85078532字节
- 数据集大小: 152455005字节
配置:
- 默认配置:
- 葡萄牙语分割: data/portuguese-*
- 英语分割: data/english-*
- 西班牙语分割: data/spanish-*
数据集内容
数据实例:
- Prompt: 提供给模型的初始文本或问题
- Completion: 对给定提示生成的响应
数据字段示例: python { "prompt":"What is the capital of Brazil?", "completion": "The capital of Brazil is Brasília." }
数据分割:
- 可用分割: 英语, 葡萄牙语, 西班牙语
数据集创建
来源数据:
- 初始数据收集和规范化: 所有响应由已调优的模型(如ChatGPT, LLama 2, Open-Assistant等)生成。提示来自公开可用的数据集。
注释:
- 注释过程: 无注释者,响应由模型生成。
个人和敏感信息:
- 数据集中不包含个人或敏感信息。
使用数据集的考虑
社会影响:
- 无特定考虑。
偏见讨论:
- 无特定考虑。
其他已知限制:
- 无特定考虑。
附加信息
许可信息:
- 数据集根据Apache License, version 2.0许可。
引用信息: latex @misc{nicholas22aira, doi = {10.5281/zenodo.6989727}, url = {https://github.com/Nkluge-correa/Aira}, author = {Nicholas Kluge Corrêa}, title = {Aira}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, }



