five

Iker/Colossal-Instruction-Translation-EN-ES

收藏
Hugging Face2024-05-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Iker/Colossal-Instruction-Translation-EN-ES
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2284632条从英语翻译成西班牙语的指令和答案。这是一个完全合成的语料库,使用了机器翻译模型Iker/TowerInstruct-13B-v0.1-EN2ES生成,部分示例也使用了GPT3.5和GPT4进行翻译。数据集还包括了来自teknium/OpenHermes-2.5的指令和答案的翻译,以及少量新闻文章级别的翻译示例。数据集的来源包括Iker/OpenHermes-2.5-Spanish、Iker/InstructTranslation-EN-ES-Raw和Iker/InstructTranslation-EN-ES。

该数据集包含2284632条从英语翻译成西班牙语的指令和答案。这是一个完全合成的语料库,使用了机器翻译模型Iker/TowerInstruct-13B-v0.1-EN2ES生成,部分示例也使用了GPT3.5和GPT4进行翻译。数据集还包括了来自teknium/OpenHermes-2.5的指令和答案的翻译,以及少量新闻文章级别的翻译示例。数据集的来源包括Iker/OpenHermes-2.5-Spanish、Iker/InstructTranslation-EN-ES-Raw和Iker/InstructTranslation-EN-ES。
提供机构:
Iker
原始信息汇总

数据集概述

数据集名称

  • 名称: Colossal Instruction Translation Corpus (EN-ES)
  • 别名: Colossal Instruction Translation Corpus (English - Spanish)

数据集描述

  • 内容: 包含2284632条从英语翻译成西班牙语的指令和答案。
  • 生成方式: 完全合成,主要使用机器翻译模型Iker/TowerInstruct-13B-v0.1-EN2ES生成,部分示例使用GPT3.5和GPT4翻译。
  • 来源: 主要翻译自teknium/OpenHermes-2.5,并包含少量新闻文章级别的翻译示例。

数据集特征

  • 特征字段:
    • id: int64
    • en: string (英语文本)
    • es: string (西班牙语文本)
    • source: string
    • translation_source: string
    • translation_model: string

数据集大小

  • 下载大小: 1592785579字节
  • 数据集大小: 3396026113字节
  • 示例数量: 2284632

数据集分割

  • 训练集:
    • 大小: 3396026113字节
    • 示例数量: 2284632

许可证

  • 许可证: Apache-2.0

语言

  • 支持语言: 英语(en)、西班牙语(es)

任务类别

  • 任务类别: 翻译

标签

  • 标签:
    • synthetic
    • translation
    • instruction
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作