datablations/c4-filter-small
收藏Hugging Face2023-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/datablations/c4-filter-small
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: timestamp
dtype: string
- name: url
dtype: string
- name: meta
struct:
- name: perplexity_score
dtype: float64
- name: text_length
dtype: int64
- name: domain
dtype: 'null'
- name: perplexity
dtype: float64
- name: dup_ratio
dtype: float64
- name: pairs
sequence:
sequence: int64
- name: repetitions
sequence: binary
- name: cluster
sequence: int64
splits:
- name: train
num_bytes: 236459743
num_examples: 100000
download_size: 140935431
dataset_size: 236459743
---
# Dataset Card for "small-c4"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
datablations
原始信息汇总
数据集概述
数据集特征
- text:文本内容,数据类型为字符串。
- timestamp:时间戳,数据类型为字符串。
- url:网址链接,数据类型为字符串。
- meta:元数据,包含子特征:
- perplexity_score:困惑度分数,数据类型为浮点数。
- text_length:文本长度,数据类型为整数。
- domain:域名信息,数据类型为空。
- perplexity:困惑度,数据类型为浮点数。
- dup_ratio:重复比例,数据类型为浮点数。
- pairs:序列对,数据类型为整数序列。
- repetitions:重复序列,数据类型为二进制序列。
- cluster:聚类信息,数据类型为整数序列。
数据集分割
- train:训练集,包含100000个样本,总大小为236459743字节。
数据集大小
- 下载大小:140935431字节。
- 数据集总大小:236459743字节。



