five

Iker/OpenHermes-2.5-English-Spanish

收藏
Hugging Face2024-05-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Iker/OpenHermes-2.5-English-Spanish
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自[teknium/OpenHermes-2.5]和[Iker/OpenHermes-2.5-Spanish]的平行指令,主要用于英语和西班牙语之间的翻译任务。数据集的特征包括id、英语对话和西班牙语对话,每个对话包含来源和内容两个字段。数据集分为训练集,包含957,861个样本,总大小为3,143,833,442字节。数据集的下载大小为1,531,940,955字节。数据集是合成的,支持英语和西班牙语。

该数据集包含来自[teknium/OpenHermes-2.5]和[Iker/OpenHermes-2.5-Spanish]的平行指令,主要用于英语和西班牙语之间的翻译任务。数据集的特征包括id、英语对话和西班牙语对话,每个对话包含来源和内容两个字段。数据集分为训练集,包含957,861个样本,总大小为3,143,833,442字节。数据集的下载大小为1,531,940,955字节。数据集是合成的,支持英语和西班牙语。
提供机构:
Iker
原始信息汇总

数据集概述

数据集基本信息

  • 名称: OpenHermes-2.5 English Spanish
  • 语言: 英语(en)、西班牙语(es)
  • 任务类别: 翻译
  • 标签: 合成数据
  • 大小类别: 100K<n<1M
  • 许可证: Apache-2.0

数据集特征

  • id: 整数类型(int64)
  • conversations_english: 列表类型,包含
    • from: 字符串类型(string)
    • value: 字符串类型(string)
  • conversations_spanish: 列表类型,包含
    • from: 字符串类型(string)
    • value: 字符串类型(string)

数据集分割

  • 训练集(train):
    • 示例数量: 957861
    • 数据大小: 3143833442字节
    • 下载大小: 1531940955字节

数据集配置

  • 默认配置(default):
    • 数据文件路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作