polinaeterna/all_text_stats_100k
收藏Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/polinaeterna/all_text_stats_100k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,包括数据集名称、配置、分割、示例数量以及文本统计信息。文本统计信息进一步细分为名称和统计值,统计值包括直方图、最大值、平均值、中位数、最小值、NaN计数、NaN比例和标准差。数据集的分割信息包括训练集的大小和示例数量。此外,还提供了数据集的下载大小和总大小。配置信息包括默认配置和对应的数据文件路径。
The dataset contains multiple features, including dataset name, configuration, split, number of examples, and text statistics. The text statistics are further divided into name and statistical values, which include histogram, maximum, mean, median, minimum, NaN count, NaN proportion, and standard deviation. The split information of the dataset includes the size and number of examples in the training set. Additionally, the download size and total size of the dataset are provided. The configuration information includes the default configuration and the corresponding data file paths.
提供机构:
polinaeterna
原始信息汇总
数据集概述
数据集信息
- 特征:
- dataset: 数据集名称,类型为字符串。
- config: 配置名称,类型为字符串。
- split: 数据分割类型,类型为字符串。
- num_examples: 样本数量,类型为整数。
- statistics_string_text: 统计信息列表,包含以下字段:
- name: 统计名称,类型为字符串。
- statistics: 统计数据结构,包含以下字段:
- histogram: 直方图信息,包含以下字段:
- bin_edges: 直方图的边界值序列,类型为整数序列。
- hist: 直方图的频数序列,类型为整数序列。
- max: 最大值,类型为整数。
- mean: 均值,类型为浮点数。
- median: 中位数,类型为浮点数。
- min: 最小值,类型为整数。
- nan_count: NaN值的数量,类型为整数。
- nan_proportion: NaN值的比例,类型为浮点数。
- std: 标准差,类型为浮点数。
- histogram: 直方图信息,包含以下字段:
- partial: 是否为部分数据,类型为布尔值。
数据分割
- train:
- num_bytes: 53470062 字节
- num_examples: 83046 个样本
数据集大小
- download_size: 16601802 字节
- dataset_size: 53470062 字节
配置
- default:
- data_files:
- split: train
- path: data/train-*
- data_files:



