five

nicholasKluge/instruct-aira-dataset

收藏
Hugging Face2024-06-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nicholasKluge/instruct-aira-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含葡萄牙语、英语和西班牙语的提示及其对应的生成响应。所有响应均由已调优的模型如ChatGPT、LLama 2等生成。数据集支持多种NLP任务,如语言模型训练、问答系统开发、聊天机器人构建及语言模型评估等。

该数据集包含葡萄牙语、英语和西班牙语的提示及其对应的生成响应。所有响应均由已调优的模型如ChatGPT、LLama 2等生成。数据集支持多种NLP任务,如语言模型训练、问答系统开发、聊天机器人构建及语言模型评估等。
提供机构:
nicholasKluge
原始信息汇总

数据集概述

数据集名称: Instruct-Aira Dataset

语言:

  • 葡萄牙语 (pt)
  • 英语 (en)
  • 西班牙语 (es)

许可: Apache-2.0

大小分类: 10K<n<100K

任务分类: 文本生成 (text-generation)

标签:

  • 对齐 (alignment)
  • 指令 (instruction)
  • 聊天 (chat)

数据集信息:

  • 特征:
    • prompt: 字符串类型
    • completion: 字符串类型
  • 分割:
    • 葡萄牙语: 40945个示例,52023662字节
    • 英语: 41762个示例,47254561字节
    • 西班牙语: 40946个示例,53176782字节
  • 下载大小: 85078532字节
  • 数据集大小: 152455005字节

配置:

  • 默认配置:
    • 葡萄牙语分割: data/portuguese-*
    • 英语分割: data/english-*
    • 西班牙语分割: data/spanish-*

数据集内容

数据实例:

  • Prompt: 提供给模型的初始文本或问题
  • Completion: 对给定提示生成的响应

数据字段示例: python { "prompt":"What is the capital of Brazil?", "completion": "The capital of Brazil is Brasília." }

数据分割:

  • 可用分割: 英语, 葡萄牙语, 西班牙语

数据集创建

来源数据:

  • 初始数据收集和规范化: 所有响应由已调优的模型(如ChatGPT, LLama 2, Open-Assistant等)生成。提示来自公开可用的数据集。

注释:

  • 注释过程: 无注释者,响应由模型生成。

个人和敏感信息:

  • 数据集中不包含个人或敏感信息。

使用数据集的考虑

社会影响:

  • 无特定考虑。

偏见讨论:

  • 无特定考虑。

其他已知限制:

  • 无特定考虑。

附加信息

许可信息:

  • 数据集根据Apache License, version 2.0许可。

引用信息: latex @misc{nicholas22aira, doi = {10.5281/zenodo.6989727}, url = {https://github.com/Nkluge-correa/Aira}, author = {Nicholas Kluge Corrêa}, title = {Aira}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作