systemk/c4-ja-5k-metrics

Name: systemk/c4-ja-5k-metrics
Creator: systemk
Published: 2024-03-29 07:18:56
License: 暂无描述

Hugging Face2024-03-29 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/systemk/c4-ja-5k-metrics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置具有不同的特征和分割。特征包括文本内容、语言、置信度、行数统计、字符统计、词数统计、句子统计等。此外，还包含一些特定的标签和掩码，用于标识文本中的特定特征，如是否有不雅词汇、是否有JavaScript代码等。每个配置的数据文件路径、下载大小和数据集大小也有所不同。

提供机构：

systemk

原始信息汇总

特征:
- text: 文本，数据类型为字符串。
- tokens: 词列表，数据类型为字符串序列。
- weight: 权重，数据类型为浮点数。
- prob_dists: 概率分布，数据类型为浮点数序列。
分割:
- train: 训练集，包含5000个样本，数据大小为484592779字节。
- percent_0_5 至 percent_95_100: 多个百分比分割，每个包含250个样本，数据大小为24229638.95字节。
下载大小: 331722089字节。
数据集大小: 629970612.7000002字节。

特征:
- text: 文本，数据类型为字符串。
- tokens: 词列表，数据类型为字符串序列。
- weight: 权重，数据类型为浮点数。
- prob_dists: 概率分布，数据类型为浮点数序列。
分割:
- train: 训练集，包含5000个样本，数据大小为484592779字节。
下载大小: 74755598字节。
数据集大小: 484592779字节。

5,000+

优质数据集

54 个

任务类型

进入经典数据集