Iker/InstructTranslation-EN-ES
收藏Hugging Face2024-04-16 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Iker/InstructTranslation-EN-ES
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
- es
license: apache-2.0
size_categories:
- 1K<n<10K
task_categories:
- translation
- text-generation
- text2text-generation
dataset_info:
features:
- name: id
dtype: int64
- name: conversation_no
dtype: int64
- name: from
dtype: string
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
splits:
- name: train
num_bytes: 2080611
num_examples: 1459
download_size: 1023377
dataset_size: 2080611
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
tags:
- synthetic
- instruction
---
# Translation of Instructions EN-ES
This dataset contains prompts and answers from [teknium/OpenHermes-2.5](teknium/OpenHermes-2.5) translated to Spanish using GPT-4-0125-preview. The dataset is intended to be used for training a model to translate instructions from English to Spanish.
The dataset is formatted with the [TowerInstruct](https://huggingface.co/Unbabel/TowerInstruct-13B-v0.1) format. It is ready to finetune a Tower translation model. if you want the raw translations, there are available here: https://huggingface.co/datasets/Iker/InstructTranslation-EN-ES-Raw
`example_no` and `conversation_no` corresponds to the original example id and conversation number in OpenHermes-2.5. Prompts are labeled as `human` and answers are labeled as `gpt`. `Conversations` is the data you should use for finetuning.
提供机构:
Iker
原始信息汇总
数据集概述
基本信息
- 语言: 英语、西班牙语
- 许可证: Apache 2.0
- 数据规模: 1K<n<10K
- 任务类别: 翻译、文本生成、文本到文本生成
数据集结构
- 特征:
id: 数据类型为int64conversation_no: 数据类型为int64from: 数据类型为stringconversations: 列表类型,包含以下子特征:from: 数据类型为stringvalue: 数据类型为string
数据分割
- 训练集:
num_bytes: 2080611 字节num_examples: 1459 个样本
下载信息
- 下载大小: 1023377 字节
- 数据集大小: 2080611 字节
配置
- 默认配置:
data_files:split: 训练集path:data/train-*
标签
- 标签: 合成、指令
数据集用途
- 该数据集包含从 teknium/OpenHermes-2.5 翻译成西班牙语的提示和答案,使用 GPT-4-0125-preview 进行翻译。数据集旨在用于训练模型将指令从英语翻译成西班牙语。
- 数据集采用 TowerInstruct 格式,适用于微调 Tower 翻译模型。
example_no和conversation_no对应于 OpenHermes-2.5 中的原始示例 ID 和对话编号。提示标记为human,答案标记为gpt。Conversations是用于微调的数据。



