NickyNicky/Iker-Colossal-Instruction-Translation-EN-ES_deduplicated_length_3600
收藏Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/Iker-Colossal-Instruction-Translation-EN-ES_deduplicated_length_3600
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从英语翻译成西班牙语的指令和答案,共有1,698,239个样本。这是一个完全合成的语料库,使用了机器翻译模型生成,部分样本还使用了GPT3.5和GPT4进行翻译。数据集的特征包括id、英语文本、西班牙语文本、来源、翻译来源、翻译模型、是否唯一、英语文本长度和西班牙语文本长度。数据集的来源包括[teknium/OpenHermes-2.5](teknium/OpenHermes-2.5)以及少量新闻文章翻译示例。
该数据集包含从英语翻译成西班牙语的指令和答案,共有1,698,239个样本。这是一个完全合成的语料库,使用了机器翻译模型生成,部分样本还使用了GPT3.5和GPT4进行翻译。数据集的特征包括id、英语文本、西班牙语文本、来源、翻译来源、翻译模型、是否唯一、英语文本长度和西班牙语文本长度。数据集的来源包括[teknium/OpenHermes-2.5](teknium/OpenHermes-2.5)以及少量新闻文章翻译示例。
提供机构:
NickyNicky
原始信息汇总
数据集概述
基本信息
- 语言: 英语(en)、西班牙语(es)
- 许可证: Apache-2.0
- 大小: 1M<n<10M
- 任务类别: 翻译
数据集特征
- id: 整数型(int64)
- en: 字符串型(string)
- es: 字符串型(string)
- source: 字符串型(string)
- translation_source: 字符串型(string)
- translation_model: 字符串型(string)
- is_unique: 布尔型(bool)
- en_length: 整数型(int64)
- es_length: 整数型(int64)
数据集划分
- 训练集(train):
- 数据量: 3041662769字节
- 样本数: 1698239
下载与数据集大小
- 下载大小: 1493162442字节
- 数据集大小: 3041662769字节
配置信息
- 默认配置(default):
- 数据文件路径: data/train-*



