five

eduagarcia/CrawlPT_dedup

收藏
Hugging Face2024-03-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/CrawlPT_dedup
下载链接
链接失效反馈
官方服务:
资源简介:
CrawlPT是一个从各种网页中提取的葡萄牙语语料库,经过MinHash算法和局部敏感哈希去重处理。数据集包含三个子集:brWaC(来自120,000个不同网站的巴西葡萄牙语语料库)、C100-PT(来自CC-100的葡萄牙语子集,用于训练多语言Transformer XLM-R)和OSCAR-2301-PT(来自OSCAR-2301的葡萄牙语语料库)。数据集的语言为巴西葡萄牙语,总大小为10M到100M之间,主要用于文本生成任务。

CrawlPT是一个从各种网页中提取的葡萄牙语语料库,经过MinHash算法和局部敏感哈希去重处理。数据集包含三个子集:brWaC(来自120,000个不同网站的巴西葡萄牙语语料库)、C100-PT(来自CC-100的葡萄牙语子集,用于训练多语言Transformer XLM-R)和OSCAR-2301-PT(来自OSCAR-2301的葡萄牙语语料库)。数据集的语言为巴西葡萄牙语,总大小为10M到100M之间,主要用于文本生成任务。
提供机构:
eduagarcia
原始信息汇总

CrawlPT (deduplicated)

数据集概述

CrawlPT是一个从各种网页中提取的通用葡萄牙语语料库。该版本使用MinHash算法和局部敏感哈希(LSH)进行去重,遵循Lee等人的方法(2022)。

数据集详情

数据集由三个语料库组成:

  • brWaC:来自120,000个不同网站的巴西葡萄牙语网络语料库。
  • C100-PT:CC-100的葡萄牙子集,用于训练多语言Transformer模型XLM-R,包含2018年Common Crawl项目的100种语言的2TB清洗数据。
  • OSCAR-2301-PT:OSCAR-2301的葡萄牙语精选。

数据集描述

  • 语言(NLP):巴西葡萄牙语(pt-BR)
  • 存储库:https://github.com/eduagarcia/roberta-legal-portuguese
  • 论文:https://aclanthology.org/2024.propor-1.38/

数据收集和处理

原始语料库的大小(以十亿个词元和GiB为单位):

语料库 领域 词元 (B) 大小 (GiB)
brWaC 通用 2.7 16.3
CC100 (PT) 通用 8.4 49.1
OSCAR-2301 (PT) 通用 18.1 97.8

CrawlPT使用MinHash算法和局部敏感哈希(LSH)进行去重,遵循Lee等人的方法(2022)。我们使用5-gram和256大小的签名,如果两个文档的Jaccard相似度超过0.7,则认为它们相同。

去重率由MinHash-LSH算法发现:

语料库 文档数 去重后文档数 重复率 (%)
brWaC 3,530,796 3,513,588 0.49
OSCAR-2301 (PT Subset) 18,031,400 10,888,966 39.61
CC100 (PT Subset) 38,999,388 38,059,979 2.41
总计 (CrawlPT) 60,561,584 52,462,533 13.37

数据集配置

OSCAR-2301

  • 特征
    • id: int64
    • text: string
    • meta: 结构体
      • categories: 字符串序列
      • dedup: 结构体
        • exact_norm: 结构体
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash: 结构体
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
      • harmful_pp: float64
      • identification: 结构体
        • label: string
        • prob: float64
      • quality_warnings: 字符串序列
      • sentence_identifications: 列表
        • label: string
        • prob: float64
      • tlsh: string
      • warc_headers: 结构体
        • content-length: int64
        • content-type: string
        • warc-block-digest: string
        • warc-date: string
        • warc-identified-content-language: string
        • warc-record-id: string
        • warc-refers-to: string
        • warc-target-uri: string
        • warc-type: string
  • 分割
    • train
      • num_bytes: 77259995670.30853
      • num_examples: 10888966
  • 下载大小:42589347661
  • 数据集大小:77259995670.30853

all

  • 特征
    • id: int64
    • source: string
    • orig_id: int64
    • text: string
  • 分割
    • train
      • num_bytes: 133074727589
      • num_examples: 52462533
  • 下载大小:81483949567
  • 数据集大小:133074727589

brwac

  • 特征
    • id: int64
    • text: string
    • meta: 结构体
      • dedup: 结构体
        • exact_norm: 结构体
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash: 结构体
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
      • doc_id: string
      • title: string
      • uri: string
  • 分割
    • train
      • num_bytes: 18218935459.169613
      • num_examples: 3513588
  • 下载大小:11210909325
  • 数据集大小:18218935459.169613

cc100

  • 特征
    • id: int64
    • text: string
    • meta: 结构体
      • dedup: 结构体
        • exact_norm: 结构体
          • cluster_main_idx: int64
          • cluster_size: int64
          • exact_hash_idx: int64
          • is_duplicate: bool
        • minhash: 结构体
          • cluster_main_idx: int64
          • cluster_size: int64
          • is_duplicate: bool
          • minhash_idx: int64
  • 分割
    • train
      • num_bytes: 53707749127.11777
      • num_examples: 38059979
  • 下载大小:34844109320
  • 数据集大小:53707749127.11777

配置文件

  • OSCAR-2301
    • train:OSCAR-2301/train-*
  • all
    • train:all/train-*
  • brwac
    • train:brwac/train-*
  • cc100
    • train:cc100/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作