five

dominguesm/canarim

收藏
Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dominguesm/canarim
下载链接
链接失效反馈
官方服务:
资源简介:
Canarim是一个包含超过3.42亿葡萄牙语文档的大规模数据集,数据来源于CommonCrawl的多次迭代。该数据集经过初步的去重处理,并计划进行进一步的文本去重和有害内容过滤。原始HTML数据已通过`Trafilatura`库转换为Markdown格式,以提高可读性和质量。数据集的结构包括URL、内容语言、WARC文件名、WARC记录偏移量、WARC记录长度、文本内容和爬取时间戳等字段。Canarim是葡萄牙语NLP研究的重要资源,填补了非英语大规模高质量数据的空白。

Canarim是一个包含超过3.42亿葡萄牙语文档的大规模数据集,数据来源于CommonCrawl的多次迭代。该数据集经过初步的去重处理,并计划进行进一步的文本去重和有害内容过滤。原始HTML数据已通过`Trafilatura`库转换为Markdown格式,以提高可读性和质量。数据集的结构包括URL、内容语言、WARC文件名、WARC记录偏移量、WARC记录长度、文本内容和爬取时间戳等字段。Canarim是葡萄牙语NLP研究的重要资源,填补了非英语大规模高质量数据的空白。
提供机构:
dominguesm
原始信息汇总

Canarim 数据集概述

基本信息

  • 语言: 葡萄牙语
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务标识:
    • 语言建模
    • 掩码语言建模
  • 数据集大小: 100M<n<1B

数据集结构

特征

  • url: 页面URL (字符串)
  • content_languages: 页面语言 (字符串)
  • warc_filename: WARC文件名 (字符串)
  • warc_record_offset: WARC记录偏移量 (int64)
  • warc_record_length: WARC记录长度 (int64)
  • text: 页面文本,Markdown格式 (字符串)
  • crawl_timestamp: 抓取时间戳 (字符串)

数据分割

  • 训练集:
    • 样本数量: 342,818,651
    • 字节大小: 1,087,519,823,221

数据实例

json { "url": "...", "content_languages": "por", "warc_filename": "crawl-data/CC-MAIN-2023-06/segments/1674764500041.18/warc/CC-MAIN-20230202200542-20230202230542-00352.warc.gz", "warc_record_offset": 971279893, "warc_record_length": 3873, "text": "...", "crawl_timestamp": "2023-02-02T20:28:21Z" }

文本提取概述

Canarim 数据集使用 Trafilatura 库从 HTML 数据中提取文本内容,并将其转换为 Markdown 格式。该工具专注于保留 Markdown 格式的关键文本元素,如标题、子标题、粗体和斜体格式,确保保留原始文档结构。

使用示例

python !pip install -q datasets

from datasets import load_dataset

ds = load_dataset( "dominguesm/canarim", split="train", data_files="train/data-0019*-of-00192.arrow", streaming=True )

ds_globo = ds.filter( lambda example: example[url].startswith("https://g1.globo.com/") )

data = list(ds_globo.take(10))

print(data[0])

引用

bibtex @misc {maicon_domingues_2024, author = { {Maicon Domingues} }, title = { canarim (Revision 640e079) }, year = 2024, url = { https://huggingface.co/datasets/dominguesm/canarim }, doi = { 10.57967/hf/1605 }, publisher = { Hugging Face } }

许可证

该数据集遵循 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作