Sharathhebbar24/Cleansed_OpenOrca

Name: Sharathhebbar24/Cleansed_OpenOrca
Creator: Sharathhebbar24
Published: 2024-01-27 09:22:59
License: 暂无描述

Hugging Face2024-01-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Sharathhebbar24/Cleansed_OpenOrca

下载链接

链接失效反馈

官方服务：

资源简介：

Orca Cleansed Dataset是Open-Orca/OpenOrca数据集的净化版本，仅包含训练分割。该数据集用于文本生成任务，语言为英语，规模在10M到100M之间。数据集的特征包括文本字段，数据类型为字符串。训练分割包含4,233,923个示例，总大小为7,324,303,370字节。

提供机构：

Sharathhebbar24

原始信息汇总

数据集概述

数据集信息

特征:
- text: 数据类型为字符串（string）
分割:
- train: 包含4233923个样本，总字节数为7324303370
下载大小: 4024242213字节
数据集大小: 7324303370字节

配置

配置名称: default
数据文件:
- train: 路径为data/train-*

许可证

许可证: MIT

任务类别

任务类别: 文本生成（text-generation）

语言

语言: 英语（en）

大小类别

大小类别: 10M<n<100M

5,000+

优质数据集

54 个

任务类型

进入经典数据集