NickyNicky/Iker-Colossal-Instruction-Translation-EN-ES_deduplicated
收藏Hugging Face2024-05-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/Iker-Colossal-Instruction-Translation-EN-ES_deduplicated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从英语翻译成西班牙语的2284632条指令和答案。这是一个完全合成的语料库,使用了机器翻译模型[Iker/TowerInstruct-13B-v0.1-EN2ES]生成。部分示例还使用了GPT3.5和GPT4进行翻译。数据集包含了从teknium/OpenHermes-2.5翻译的指令和答案,以及一些文档级别的翻译示例。
该数据集包含从英语翻译成西班牙语的2284632条指令和答案。这是一个完全合成的语料库,使用了机器翻译模型[Iker/TowerInstruct-13B-v0.1-EN2ES]生成。部分示例还使用了GPT3.5和GPT4进行翻译。数据集包含了从teknium/OpenHermes-2.5翻译的指令和答案,以及一些文档级别的翻译示例。
提供机构:
NickyNicky
原始信息汇总
数据集概述
数据集特征
- id: 整数类型 (int64)
- en: 字符串类型 (string)
- es: 字符串类型 (string)
- source: 字符串类型 (string)
- translation_source: 字符串类型 (string)
- translation_model: 字符串类型 (string)
- is_unique: 布尔类型 (bool)
数据集划分
- train:
- 数据量: 2747774795.848438 字节
- 样本数: 1848374
数据集大小
- 下载大小: 1577148629 字节
- 数据集大小: 2747774795.848438 字节
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*
许可信息
- 许可证: Apache-2.0
任务类别
- 翻译
语言
- 英语 (en)
- 西班牙语 (es)
数据集大小类别
- 1M<n<10M
原始数据集与当前数据集比较
- 原始数据集大小: 2284632
- 当前数据集大小 (去重后): 1848374
- 移除的重复数据量: 436258



