keirp/common_crawl_sample
收藏Hugging Face2024-03-25 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/keirp/common_crawl_sample
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: timestamp
dtype: string
- name: url
dtype: string
- name: clean
dtype: bool
splits:
- name: train
num_bytes: 17089394
num_examples: 9282
download_size: 10169814
dataset_size: 17089394
---
# Dataset Card for "common_crawl_sample"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 名称:text(文本内容),数据类型:字符串型(string)
- 名称:timestamp(时间戳),数据类型:字符串型(string)
- 名称:url(统一资源定位符),数据类型:字符串型(string)
- 名称:clean(文本清洗标记),数据类型:布尔型(bool)
数据集划分:
- 名称:训练集(train),字节数:17089394,样本数:9282
下载大小:10169814
数据集总大小:17089394
---
# 「common_crawl_sample」数据集卡片(Dataset Card)
【需补充更多信息】(https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
keirp
原始信息汇总
数据集概述
数据集名称
- 名称: common_crawl_sample
数据集特征
- 特征列表:
- text: 数据类型为字符串
- timestamp: 数据类型为字符串
- url: 数据类型为字符串
- clean: 数据类型为布尔值
数据集划分
- 训练集:
- 大小: 17089394 字节
- 样本数量: 9282
数据集大小
- 下载大小: 10169814 字节
- 总大小: 17089394 字节



