SiguienteGlobal/Open-Hermes-ES

Name: SiguienteGlobal/Open-Hermes-ES
Creator: SiguienteGlobal
Published: 2024-06-16 23:27:47
License: 暂无描述

Hugging Face2024-06-16 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/SiguienteGlobal/Open-Hermes-ES

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两种配置：default和tokenized。default配置包含messages特征，其中包含content和role两个字段，用于存储消息内容和角色信息。tokenized配置包含id、conversations、input_ids和attention_mask特征，用于存储对话的标识符、对话内容、输入ID和注意力掩码。数据集的语言为西班牙语（es），许可证为Apache-2.0。

The dataset contains two configurations: default and tokenized. The default configuration includes the messages feature, which contains the content and role fields, used to store message content and role information. The tokenized configuration includes id, conversations, input_ids, and attention_mask features, used to store conversation identifiers, conversation content, input IDs, and attention masks. The dataset is in Spanish (es) and is licensed under Apache-2.0.

提供机构：

SiguienteGlobal

原始信息汇总

数据集详情

配置信息

默认配置 (`default`)

特征:
- messages:
  - content: 字符串类型
  - role: 字符串类型
分割:
- train:
  - 字节数: 1732331596.8
  - 样本数: 950000
- test:
  - 字节数: 91175347.2
  - 样本数: 50000
下载大小: 959401805
数据集大小: 1823506944

分词配置 (`tokenized`)

特征:
- id: 64位整数类型
- conversations:
  - from: 字符串类型
  - value: 字符串类型
- input_ids: 32位整数序列
- attention_mask: 8位整数序列
分割:
- train:
  - 字节数: 4701220029
  - 样本数: 1000000
下载大小: 1829559697
数据集大小: 4701220029

数据文件

默认配置 (`default`)

训练集: data/train-*
测试集: data/test-*

分词配置 (`tokenized`)

训练集: tokenized/train-*

其他信息

许可证: Apache 2.0
语言: 西班牙语

5,000+

优质数据集

54 个

任务类型

进入经典数据集

SiguienteGlobal/Open-Hermes-ES

数据集详情

配置信息

默认配置 (default)

分词配置 (tokenized)

数据文件

默认配置 (default)

分词配置 (tokenized)

其他信息

默认配置 (`default`)

分词配置 (`tokenized`)

默认配置 (`default`)

分词配置 (`tokenized`)