Iker/Colossal-Instruction-Translation-EN-ES
收藏Hugging Face2024-05-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Iker/Colossal-Instruction-Translation-EN-ES
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2284632条从英语翻译成西班牙语的指令和答案。这是一个完全合成的语料库,使用了机器翻译模型Iker/TowerInstruct-13B-v0.1-EN2ES生成,部分示例也使用了GPT3.5和GPT4进行翻译。数据集还包括了来自teknium/OpenHermes-2.5的指令和答案的翻译,以及少量新闻文章级别的翻译示例。数据集的来源包括Iker/OpenHermes-2.5-Spanish、Iker/InstructTranslation-EN-ES-Raw和Iker/InstructTranslation-EN-ES。
该数据集包含2284632条从英语翻译成西班牙语的指令和答案。这是一个完全合成的语料库,使用了机器翻译模型Iker/TowerInstruct-13B-v0.1-EN2ES生成,部分示例也使用了GPT3.5和GPT4进行翻译。数据集还包括了来自teknium/OpenHermes-2.5的指令和答案的翻译,以及少量新闻文章级别的翻译示例。数据集的来源包括Iker/OpenHermes-2.5-Spanish、Iker/InstructTranslation-EN-ES-Raw和Iker/InstructTranslation-EN-ES。
提供机构:
Iker
原始信息汇总
数据集概述
数据集名称
- 名称: Colossal Instruction Translation Corpus (EN-ES)
- 别名: Colossal Instruction Translation Corpus (English - Spanish)
数据集描述
- 内容: 包含2284632条从英语翻译成西班牙语的指令和答案。
- 生成方式: 完全合成,主要使用机器翻译模型Iker/TowerInstruct-13B-v0.1-EN2ES生成,部分示例使用GPT3.5和GPT4翻译。
- 来源: 主要翻译自teknium/OpenHermes-2.5,并包含少量新闻文章级别的翻译示例。
数据集特征
- 特征字段:
- id: int64
- en: string (英语文本)
- es: string (西班牙语文本)
- source: string
- translation_source: string
- translation_model: string
数据集大小
- 下载大小: 1592785579字节
- 数据集大小: 3396026113字节
- 示例数量: 2284632
数据集分割
- 训练集:
- 大小: 3396026113字节
- 示例数量: 2284632
许可证
- 许可证: Apache-2.0
语言
- 支持语言: 英语(en)、西班牙语(es)
任务类别
- 任务类别: 翻译
标签
- 标签:
- synthetic
- translation
- instruction



