eduagarcia/CrawlPT
收藏Hugging Face2024-03-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/CrawlPT
下载链接
链接失效反馈官方服务:
资源简介:
CrawlPT是一个从各种网页中提取的通用葡萄牙语语料库。该数据集由三个语料库组成:brWaC、C100-PT和OSCAR-2301-PT。brWaC是一个来自12万个不同网站的巴西葡萄牙语网络语料库;C100-PT是CC-100的葡萄牙语子集,包含来自2018年Common Crawl项目快照的49.1 GiB文本;OSCAR-2301-PT是从OSCAR-2301中提取的葡萄牙语语料库。数据集主要用于巴西葡萄牙语的自然语言处理任务。
CrawlPT是一个从各种网页中提取的通用葡萄牙语语料库。该数据集由三个语料库组成:brWaC、C100-PT和OSCAR-2301-PT。brWaC是一个来自12万个不同网站的巴西葡萄牙语网络语料库;C100-PT是CC-100的葡萄牙语子集,包含来自2018年Common Crawl项目快照的49.1 GiB文本;OSCAR-2301-PT是从OSCAR-2301中提取的葡萄牙语语料库。数据集主要用于巴西葡萄牙语的自然语言处理任务。
提供机构:
eduagarcia
原始信息汇总
CrawlPT 数据集概述
数据集详情
CrawlPT 是一个从各种网页中提取的通用葡萄牙语语料库。该数据集由三个子语料库组成:brWaC、C100-PT 和 OSCAR-2301-PT。
子语料库描述
- brWaC: 一个来自 120,000 个不同网站的巴西葡萄牙语网络语料库。
- C100-PT: 来自 CC-100 的葡萄牙语子集。CC-100 是为训练多语言 Transformer XLM-R 而创建的,包含来自 2018 年 Common Crawl 项目快照的 2TB 清洗数据,涵盖 100 种语言。C100-PT 包含 49.1 GiB 的文本。
- OSCAR-2301-PT: 来自 OSCAR-2301 的葡萄牙语精选语料库。
数据集配置
OSCAR-2301
-
特征:
id: 数据类型为int64text: 数据类型为stringmeta: 结构化数据,包含以下字段:categories: 序列类型为stringdedup: 结构化数据,包含exact_norm和minhash字段harmful_pp: 数据类型为float64identification: 结构化数据,包含label和prob字段quality_warnings: 序列类型为stringsentence_identifications: 列表类型,包含label和prob字段tlsh: 数据类型为stringwarc_headers: 结构化数据,包含多个 WARC 头字段
-
分割:
train: 包含 18,031,400 个样本,总大小为 127,937,389,641 字节
-
下载大小: 68,773,837,112 字节
-
数据集大小: 127,937,389,641 字节
all
-
特征:
id: 数据类型为int64source: 数据类型为stringorig_id: 数据类型为int64text: 数据类型为string
-
分割:
train: 包含 60,561,584 个样本,总大小为 177,056,691,649 字节
-
下载大小: 104,747,375,703 字节
-
数据集大小: 177,056,691,649 字节
brwac
-
特征:
id: 数据类型为int64text: 数据类型为stringmeta: 结构化数据,包含以下字段:dedup: 结构化数据,包含exact_norm和minhash字段doc_id: 数据类型为stringtitle: 数据类型为stringuri: 数据类型为string
-
分割:
train: 包含 3,530,796 个样本,总大小为 18,308,163,747 字节
-
下载大小: 11,184,800,378 字节
-
数据集大小: 18,308,163,747 字节
cc100
-
特征:
id: 数据类型为int64text: 数据类型为stringmeta: 结构化数据,包含以下字段:dedup: 结构化数据,包含exact_norm和minhash字段
-
分割:
train: 包含 38,999,388 个样本,总大小为 55,033,381,569 字节
-
下载大小: 35,074,345,417 字节
-
数据集大小: 55,033,381,569 字节
数据文件路径
- OSCAR-2301:
OSCAR-2301/train-* - all:
all/train-* - brwac:
brwac/train-* - cc100:
cc100/train-*



