five

eduagarcia/CrawlPT

收藏
Hugging Face2024-03-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia/CrawlPT
下载链接
链接失效反馈
官方服务:
资源简介:
CrawlPT是一个从各种网页中提取的通用葡萄牙语语料库。该数据集由三个语料库组成:brWaC、C100-PT和OSCAR-2301-PT。brWaC是一个来自12万个不同网站的巴西葡萄牙语网络语料库;C100-PT是CC-100的葡萄牙语子集,包含来自2018年Common Crawl项目快照的49.1 GiB文本;OSCAR-2301-PT是从OSCAR-2301中提取的葡萄牙语语料库。数据集主要用于巴西葡萄牙语的自然语言处理任务。

CrawlPT是一个从各种网页中提取的通用葡萄牙语语料库。该数据集由三个语料库组成:brWaC、C100-PT和OSCAR-2301-PT。brWaC是一个来自12万个不同网站的巴西葡萄牙语网络语料库;C100-PT是CC-100的葡萄牙语子集,包含来自2018年Common Crawl项目快照的49.1 GiB文本;OSCAR-2301-PT是从OSCAR-2301中提取的葡萄牙语语料库。数据集主要用于巴西葡萄牙语的自然语言处理任务。
提供机构:
eduagarcia
原始信息汇总

CrawlPT 数据集概述

数据集详情

CrawlPT 是一个从各种网页中提取的通用葡萄牙语语料库。该数据集由三个子语料库组成:brWaC、C100-PT 和 OSCAR-2301-PT。

子语料库描述

  • brWaC: 一个来自 120,000 个不同网站的巴西葡萄牙语网络语料库。
  • C100-PT: 来自 CC-100 的葡萄牙语子集。CC-100 是为训练多语言 Transformer XLM-R 而创建的,包含来自 2018 年 Common Crawl 项目快照的 2TB 清洗数据,涵盖 100 种语言。C100-PT 包含 49.1 GiB 的文本。
  • OSCAR-2301-PT: 来自 OSCAR-2301 的葡萄牙语精选语料库。

数据集配置

OSCAR-2301

  • 特征:

    • id: 数据类型为 int64
    • text: 数据类型为 string
    • meta: 结构化数据,包含以下字段:
      • categories: 序列类型为 string
      • dedup: 结构化数据,包含 exact_normminhash 字段
      • harmful_pp: 数据类型为 float64
      • identification: 结构化数据,包含 labelprob 字段
      • quality_warnings: 序列类型为 string
      • sentence_identifications: 列表类型,包含 labelprob 字段
      • tlsh: 数据类型为 string
      • warc_headers: 结构化数据,包含多个 WARC 头字段
  • 分割:

    • train: 包含 18,031,400 个样本,总大小为 127,937,389,641 字节
  • 下载大小: 68,773,837,112 字节

  • 数据集大小: 127,937,389,641 字节

all

  • 特征:

    • id: 数据类型为 int64
    • source: 数据类型为 string
    • orig_id: 数据类型为 int64
    • text: 数据类型为 string
  • 分割:

    • train: 包含 60,561,584 个样本,总大小为 177,056,691,649 字节
  • 下载大小: 104,747,375,703 字节

  • 数据集大小: 177,056,691,649 字节

brwac

  • 特征:

    • id: 数据类型为 int64
    • text: 数据类型为 string
    • meta: 结构化数据,包含以下字段:
      • dedup: 结构化数据,包含 exact_normminhash 字段
      • doc_id: 数据类型为 string
      • title: 数据类型为 string
      • uri: 数据类型为 string
  • 分割:

    • train: 包含 3,530,796 个样本,总大小为 18,308,163,747 字节
  • 下载大小: 11,184,800,378 字节

  • 数据集大小: 18,308,163,747 字节

cc100

  • 特征:

    • id: 数据类型为 int64
    • text: 数据类型为 string
    • meta: 结构化数据,包含以下字段:
      • dedup: 结构化数据,包含 exact_normminhash 字段
  • 分割:

    • train: 包含 38,999,388 个样本,总大小为 55,033,381,569 字节
  • 下载大小: 35,074,345,417 字节

  • 数据集大小: 55,033,381,569 字节

数据文件路径

  • OSCAR-2301: OSCAR-2301/train-*
  • all: all/train-*
  • brwac: brwac/train-*
  • cc100: cc100/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作