five

SiguienteGlobal/Open-Hermes-ES

收藏
Hugging Face2024-06-16 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/SiguienteGlobal/Open-Hermes-ES
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两种配置:default和tokenized。default配置包含messages特征,其中包含content和role两个字段,用于存储消息内容和角色信息。tokenized配置包含id、conversations、input_ids和attention_mask特征,用于存储对话的标识符、对话内容、输入ID和注意力掩码。数据集的语言为西班牙语(es),许可证为Apache-2.0。

The dataset contains two configurations: default and tokenized. The default configuration includes the messages feature, which contains the content and role fields, used to store message content and role information. The tokenized configuration includes id, conversations, input_ids, and attention_mask features, used to store conversation identifiers, conversation content, input IDs, and attention masks. The dataset is in Spanish (es) and is licensed under Apache-2.0.
提供机构:
SiguienteGlobal
原始信息汇总

数据集详情

配置信息

默认配置 (default)

  • 特征:
    • messages:
      • content: 字符串类型
      • role: 字符串类型
  • 分割:
    • train:
      • 字节数: 1732331596.8
      • 样本数: 950000
    • test:
      • 字节数: 91175347.2
      • 样本数: 50000
  • 下载大小: 959401805
  • 数据集大小: 1823506944

分词配置 (tokenized)

  • 特征:
    • id: 64位整数类型
    • conversations:
      • from: 字符串类型
      • value: 字符串类型
    • input_ids: 32位整数序列
    • attention_mask: 8位整数序列
  • 分割:
    • train:
      • 字节数: 4701220029
      • 样本数: 1000000
  • 下载大小: 1829559697
  • 数据集大小: 4701220029

数据文件

默认配置 (default)

  • 训练集: data/train-*
  • 测试集: data/test-*

分词配置 (tokenized)

  • 训练集: tokenized/train-*

其他信息

  • 许可证: Apache 2.0
  • 语言: 西班牙语
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作