eduagarcia/CrawlPT

Name: eduagarcia/CrawlPT
Creator: eduagarcia
Published: 2024-03-14 14:19:27
License: 暂无描述

Hugging Face2024-03-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/eduagarcia/CrawlPT

下载链接

链接失效反馈

官方服务：

资源简介：

CrawlPT是一个从各种网页中提取的通用葡萄牙语语料库。该数据集由三个语料库组成：brWaC、C100-PT和OSCAR-2301-PT。brWaC是一个来自12万个不同网站的巴西葡萄牙语网络语料库；C100-PT是CC-100的葡萄牙语子集，包含来自2018年Common Crawl项目快照的49.1 GiB文本；OSCAR-2301-PT是从OSCAR-2301中提取的葡萄牙语语料库。数据集主要用于巴西葡萄牙语的自然语言处理任务。

提供机构：

eduagarcia

原始信息汇总

CrawlPT 数据集概述

数据集详情

CrawlPT 是一个从各种网页中提取的通用葡萄牙语语料库。该数据集由三个子语料库组成：brWaC、C100-PT 和 OSCAR-2301-PT。

子语料库描述

brWaC: 一个来自 120,000 个不同网站的巴西葡萄牙语网络语料库。
C100-PT: 来自 CC-100 的葡萄牙语子集。CC-100 是为训练多语言 Transformer XLM-R 而创建的，包含来自 2018 年 Common Crawl 项目快照的 2TB 清洗数据，涵盖 100 种语言。C100-PT 包含 49.1 GiB 的文本。
OSCAR-2301-PT: 来自 OSCAR-2301 的葡萄牙语精选语料库。

数据集配置

OSCAR-2301

特征:
- id: 数据类型为 int64
- text: 数据类型为 string
- meta: 结构化数据，包含以下字段：
  - categories: 序列类型为 string
  - dedup: 结构化数据，包含 exact_norm 和 minhash 字段
  - harmful_pp: 数据类型为 float64
  - identification: 结构化数据，包含 label 和 prob 字段
  - quality_warnings: 序列类型为 string
  - sentence_identifications: 列表类型，包含 label 和 prob 字段
  - tlsh: 数据类型为 string
  - warc_headers: 结构化数据，包含多个 WARC 头字段
分割:
- train: 包含 18,031,400 个样本，总大小为 127,937,389,641 字节
下载大小: 68,773,837,112 字节
数据集大小: 127,937,389,641 字节

all

特征:
- id: 数据类型为 int64
- source: 数据类型为 string
- orig_id: 数据类型为 int64
- text: 数据类型为 string
分割:
- train: 包含 60,561,584 个样本，总大小为 177,056,691,649 字节
下载大小: 104,747,375,703 字节
数据集大小: 177,056,691,649 字节

brwac

特征:
- id: 数据类型为 int64
- text: 数据类型为 string
- meta: 结构化数据，包含以下字段：
  - dedup: 结构化数据，包含 exact_norm 和 minhash 字段
  - doc_id: 数据类型为 string
  - title: 数据类型为 string
  - uri: 数据类型为 string
分割:
- train: 包含 3,530,796 个样本，总大小为 18,308,163,747 字节
下载大小: 11,184,800,378 字节
数据集大小: 18,308,163,747 字节

cc100

特征:
- id: 数据类型为 int64
- text: 数据类型为 string
- meta: 结构化数据，包含以下字段：
  - dedup: 结构化数据，包含 exact_norm 和 minhash 字段
分割:
- train: 包含 38,999,388 个样本，总大小为 55,033,381,569 字节
下载大小: 35,074,345,417 字节
数据集大小: 55,033,381,569 字节

数据文件路径

OSCAR-2301: OSCAR-2301/train-*
all: all/train-*
brwac: brwac/train-*
cc100: cc100/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集