five

Iker/InstructTranslation-EN-ES

收藏
Hugging Face2024-04-16 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Iker/InstructTranslation-EN-ES
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en - es license: apache-2.0 size_categories: - 1K<n<10K task_categories: - translation - text-generation - text2text-generation dataset_info: features: - name: id dtype: int64 - name: conversation_no dtype: int64 - name: from dtype: string - name: conversations list: - name: from dtype: string - name: value dtype: string splits: - name: train num_bytes: 2080611 num_examples: 1459 download_size: 1023377 dataset_size: 2080611 configs: - config_name: default data_files: - split: train path: data/train-* tags: - synthetic - instruction --- # Translation of Instructions EN-ES This dataset contains prompts and answers from [teknium/OpenHermes-2.5](teknium/OpenHermes-2.5) translated to Spanish using GPT-4-0125-preview. The dataset is intended to be used for training a model to translate instructions from English to Spanish. The dataset is formatted with the [TowerInstruct](https://huggingface.co/Unbabel/TowerInstruct-13B-v0.1) format. It is ready to finetune a Tower translation model. if you want the raw translations, there are available here: https://huggingface.co/datasets/Iker/InstructTranslation-EN-ES-Raw `example_no` and `conversation_no` corresponds to the original example id and conversation number in OpenHermes-2.5. Prompts are labeled as `human` and answers are labeled as `gpt`. `Conversations` is the data you should use for finetuning.
提供机构:
Iker
原始信息汇总

数据集概述

基本信息

  • 语言: 英语、西班牙语
  • 许可证: Apache 2.0
  • 数据规模: 1K<n<10K
  • 任务类别: 翻译、文本生成、文本到文本生成

数据集结构

  • 特征:
    • id: 数据类型为 int64
    • conversation_no: 数据类型为 int64
    • from: 数据类型为 string
    • conversations: 列表类型,包含以下子特征:
      • from: 数据类型为 string
      • value: 数据类型为 string

数据分割

  • 训练集:
    • num_bytes: 2080611 字节
    • num_examples: 1459 个样本

下载信息

  • 下载大小: 1023377 字节
  • 数据集大小: 2080611 字节

配置

  • 默认配置:
    • data_files:
      • split: 训练集
      • path: data/train-*

标签

  • 标签: 合成、指令

数据集用途

  • 该数据集包含从 teknium/OpenHermes-2.5 翻译成西班牙语的提示和答案,使用 GPT-4-0125-preview 进行翻译。数据集旨在用于训练模型将指令从英语翻译成西班牙语。
  • 数据集采用 TowerInstruct 格式,适用于微调 Tower 翻译模型。
  • example_noconversation_no 对应于 OpenHermes-2.5 中的原始示例 ID 和对话编号。提示标记为 human,答案标记为 gptConversations 是用于微调的数据。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作