ftopal/huggingface-datasets-processed

Name: ftopal/huggingface-datasets-processed
Creator: ftopal
Published: 2024-03-19 20:10:53
License: 暂无描述

Hugging Face2024-03-19 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/ftopal/huggingface-datasets-processed

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: sha dtype: string - name: text dtype: string - name: id dtype: string - name: tags sequence: string - name: created_at dtype: string - name: metadata dtype: string - name: last_modified dtype: string - name: arxiv sequence: string - name: languages sequence: string - name: tags_str dtype: string - name: text_str dtype: string - name: text_lists sequence: string - name: processed_texts sequence: string - name: tokens_length sequence: int64 - name: input_texts sequence: string splits: - name: train num_bytes: 588226997 num_examples: 52904 download_size: 143216580 dataset_size: 588226997 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

ftopal

原始信息汇总

数据集信息

特征

sha: 数据类型为字符串。
text: 数据类型为字符串。
id: 数据类型为字符串。
tags: 数据类型为字符串序列。
created_at: 数据类型为字符串。
metadata: 数据类型为字符串。
last_modified: 数据类型为字符串。
arxiv: 数据类型为字符串序列。
languages: 数据类型为字符串序列。
tags_str: 数据类型为字符串。
text_str: 数据类型为字符串。
text_lists: 数据类型为字符串序列。
processed_texts: 数据类型为字符串序列。
tokens_length: 数据类型为整数序列。
input_texts: 数据类型为字符串序列。

数据分割

train: 包含52904个样本，占用588226997字节。

数据集大小

下载大小: 143216580字节
数据集大小: 588226997字节

配置

default: 包含训练数据文件，路径为data/train-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集