SiguienteGlobal/orpo-es-v0.0.2
收藏Hugging Face2024-07-30 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/SiguienteGlobal/orpo-es-v0.0.2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于文本生成任务,语言为西班牙语,采用MIT许可证。数据集包含训练集和测试集,分别有7487和76个示例。数据集的特征包括chosen、rejected和prompt,其中chosen和rejected是包含content和role字段的列表,prompt是字符串类型。
This dataset primarily contains Spanish text and is suitable for text generation tasks. The dataset is divided into training and test sets, with 7487 samples in the training set and 76 samples in the test set. The features of the dataset include chosen, rejected, and prompt, where chosen and rejected contain two sub-features: content and role, both of which are string types. The download size of the dataset is 46160262 bytes, and the total size is 91932258 bytes.
提供机构:
SiguienteGlobal
原始信息汇总
数据集概述
基本信息
- 名称: orpo-es-v0.0.2
- 标识符: 10.57967/hf/2752
- 描述: SiguienteGlobal/orpo-es-v0.0.2 数据集托管在 HF Mirror 并由 HF Datasets 社区贡献。
- 创建者: Siguiente
- 网址: HF Mirror
- 许可证: MIT
关键词
- text-generation
- Spanish
- mit
- 10K - 100K
- parquet
- Text
- Datasets
- pandas
- Croissant
- doi:10.57967/hf/2752
- 🇺🇸 Region: US
数据集分布
-
类型: 文件对象
- 名称: repo
- 描述: HF Mirror git 仓库。
- 内容 URL: HF Mirror
- 编码格式: git+https
-
类型: 文件集
-
名称: parquet-files-for-config-default
-
描述: 由 HF Mirror 转换的基础 Parquet 文件。
-
包含于: repo
-
编码格式: application/x-parquet
-
包含: default//.parquet
-
名称: parquet-files-for-config-mistral_tokenized
-
描述: 由 HF Mirror 转换的基础 Parquet 文件。
-
包含于: repo
-
编码格式: application/x-parquet
-
包含: mistral_tokenized//.parquet
-
名称: parquet-files-for-config-mistral_training
-
描述: 由 HF Mirror 转换的基础 Parquet 文件。
-
包含于: repo
-
编码格式: application/x-parquet
-
包含: mistral_training//.parquet
-
记录集
-
名称: default
- 描述: SiguienteGlobal/orpo-es-v0.0.2 - default 子集
- 分割: train, test
- 跳过列: chosen, rejected
- 字段:
- 名称: default/prompt
- 描述: HF Mirror parquet 文件中的 prompt 列。
- 数据类型: Text
-
名称: mistral_tokenized
- 描述: SiguienteGlobal/orpo-es-v0.0.2 - mistral_tokenized 子集
- 分割: train, test
- 字段:
- 名称: mistral_tokenized/chosen
- 描述: HF Mirror parquet 文件中的 chosen 列。
- 数据类型: Text
- 名称: mistral_tokenized/rejected
- 描述: HF Mirror parquet 文件中的 rejected 列。
- 数据类型: Text
- 名称: mistral_tokenized/prompt
- 描述: HF Mirror parquet 文件中的 prompt 列。
- 数据类型: Text
-
名称: mistral_training
- 描述: SiguienteGlobal/orpo-es-v0.0.2 - mistral_training 子集
- 分割: train, test
- 跳过列: input_ids, labels, attention_mask
- 字段: 无



