eduagarcia/CrawlPT_dedup
收藏Hugging Face2024-03-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/CrawlPT_dedup
下载链接
链接失效反馈官方服务:
资源简介:
CrawlPT是一个从各种网页中提取的葡萄牙语语料库,经过MinHash算法和局部敏感哈希去重处理。数据集包含三个子集:brWaC(来自120,000个不同网站的巴西葡萄牙语语料库)、C100-PT(来自CC-100的葡萄牙语子集,用于训练多语言Transformer XLM-R)和OSCAR-2301-PT(来自OSCAR-2301的葡萄牙语语料库)。数据集的语言为巴西葡萄牙语,总大小为10M到100M之间,主要用于文本生成任务。
CrawlPT是一个从各种网页中提取的葡萄牙语语料库,经过MinHash算法和局部敏感哈希去重处理。数据集包含三个子集:brWaC(来自120,000个不同网站的巴西葡萄牙语语料库)、C100-PT(来自CC-100的葡萄牙语子集,用于训练多语言Transformer XLM-R)和OSCAR-2301-PT(来自OSCAR-2301的葡萄牙语语料库)。数据集的语言为巴西葡萄牙语,总大小为10M到100M之间,主要用于文本生成任务。
提供机构:
eduagarcia
原始信息汇总
CrawlPT (deduplicated)
数据集概述
CrawlPT是一个从各种网页中提取的通用葡萄牙语语料库。该版本使用MinHash算法和局部敏感哈希(LSH)进行去重,遵循Lee等人的方法(2022)。
数据集详情
数据集由三个语料库组成:
- brWaC:来自120,000个不同网站的巴西葡萄牙语网络语料库。
- C100-PT:CC-100的葡萄牙子集,用于训练多语言Transformer模型XLM-R,包含2018年Common Crawl项目的100种语言的2TB清洗数据。
- OSCAR-2301-PT:OSCAR-2301的葡萄牙语精选。
数据集描述
- 语言(NLP):巴西葡萄牙语(pt-BR)
- 存储库:https://github.com/eduagarcia/roberta-legal-portuguese
- 论文:https://aclanthology.org/2024.propor-1.38/
数据收集和处理
原始语料库的大小(以十亿个词元和GiB为单位):
| 语料库 | 领域 | 词元 (B) | 大小 (GiB) |
|---|---|---|---|
| brWaC | 通用 | 2.7 | 16.3 |
| CC100 (PT) | 通用 | 8.4 | 49.1 |
| OSCAR-2301 (PT) | 通用 | 18.1 | 97.8 |
CrawlPT使用MinHash算法和局部敏感哈希(LSH)进行去重,遵循Lee等人的方法(2022)。我们使用5-gram和256大小的签名,如果两个文档的Jaccard相似度超过0.7,则认为它们相同。
去重率由MinHash-LSH算法发现:
| 语料库 | 文档数 | 去重后文档数 | 重复率 (%) |
|---|---|---|---|
| brWaC | 3,530,796 | 3,513,588 | 0.49 |
| OSCAR-2301 (PT Subset) | 18,031,400 | 10,888,966 | 39.61 |
| CC100 (PT Subset) | 38,999,388 | 38,059,979 | 2.41 |
| 总计 (CrawlPT) | 60,561,584 | 52,462,533 | 13.37 |
数据集配置
OSCAR-2301
- 特征:
id: int64text: stringmeta: 结构体categories: 字符串序列dedup: 结构体exact_norm: 结构体cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash: 结构体cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
harmful_pp: float64identification: 结构体label: stringprob: float64
quality_warnings: 字符串序列sentence_identifications: 列表label: stringprob: float64
tlsh: stringwarc_headers: 结构体content-length: int64content-type: stringwarc-block-digest: stringwarc-date: stringwarc-identified-content-language: stringwarc-record-id: stringwarc-refers-to: stringwarc-target-uri: stringwarc-type: string
- 分割:
trainnum_bytes: 77259995670.30853num_examples: 10888966
- 下载大小:42589347661
- 数据集大小:77259995670.30853
all
- 特征:
id: int64source: stringorig_id: int64text: string
- 分割:
trainnum_bytes: 133074727589num_examples: 52462533
- 下载大小:81483949567
- 数据集大小:133074727589
brwac
- 特征:
id: int64text: stringmeta: 结构体dedup: 结构体exact_norm: 结构体cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash: 结构体cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
doc_id: stringtitle: stringuri: string
- 分割:
trainnum_bytes: 18218935459.169613num_examples: 3513588
- 下载大小:11210909325
- 数据集大小:18218935459.169613
cc100
- 特征:
id: int64text: stringmeta: 结构体dedup: 结构体exact_norm: 结构体cluster_main_idx: int64cluster_size: int64exact_hash_idx: int64is_duplicate: bool
minhash: 结构体cluster_main_idx: int64cluster_size: int64is_duplicate: boolminhash_idx: int64
- 分割:
trainnum_bytes: 53707749127.11777num_examples: 38059979
- 下载大小:34844109320
- 数据集大小:53707749127.11777
配置文件
- OSCAR-2301:
train:OSCAR-2301/train-*
- all:
train:all/train-*
- brwac:
train:brwac/train-*
- cc100:
train:cc100/train-*



