davanstrien/wikipedia_split-cleaned

Name: davanstrien/wikipedia_split-cleaned
Creator: davanstrien
Published: 2024-06-10 14:19:26
License: 暂无描述

Hugging Face2024-06-10 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/davanstrien/wikipedia_split-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个特征：id（字符串类型）、section（字符串类型）、len（整数类型）和label（字符串类型）。数据集分为一个训练集（train），包含19826个样本，总大小为5237038.8913字节。数据集的下载大小为3573150字节。数据集配置名称为default，数据文件路径为data/train-*。

提供机构：

davanstrien

原始信息汇总

数据集概述

数据集信息

特征:
- id: 字符串类型
- section: 字符串类型
- len: 整数类型
- label: 字符串类型

数据集划分

train:
- 样本数量: 19826
- 数据大小: 5237038.8913 字节

数据集配置

配置名称: default
- 数据文件:
  - train: data/train-*

数据集大小

下载大小: 3573150 字节
数据集大小: 5237038.8913 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集