dominguesm/canarim

Name: dominguesm/canarim
Creator: dominguesm
Published: 2024-01-14 14:48:31
License: 暂无描述

Hugging Face2024-01-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dominguesm/canarim

下载链接

链接失效反馈

官方服务：

资源简介：

Canarim是一个包含超过3.42亿葡萄牙语文档的大规模数据集，数据来源于CommonCrawl的多次迭代。该数据集经过初步的去重处理，并计划进行进一步的文本去重和有害内容过滤。原始HTML数据已通过`Trafilatura`库转换为Markdown格式，以提高可读性和质量。数据集的结构包括URL、内容语言、WARC文件名、WARC记录偏移量、WARC记录长度、文本内容和爬取时间戳等字段。Canarim是葡萄牙语NLP研究的重要资源，填补了非英语大规模高质量数据的空白。

提供机构：

dominguesm

原始信息汇总

Canarim 数据集概述

基本信息

语言: 葡萄牙语
许可证: CC BY 4.0
多语言性: 单语种
任务类别:
- 文本生成
- 填充掩码
任务标识:
- 语言建模
- 掩码语言建模
数据集大小: 100M<n<1B

数据集结构

特征

url: 页面URL (字符串)
content_languages: 页面语言 (字符串)
warc_filename: WARC文件名 (字符串)
warc_record_offset: WARC记录偏移量 (int64)
warc_record_length: WARC记录长度 (int64)
text: 页面文本，Markdown格式 (字符串)
crawl_timestamp: 抓取时间戳 (字符串)

数据分割

训练集:
- 样本数量: 342,818,651
- 字节大小: 1,087,519,823,221

数据实例

json { "url": "...", "content_languages": "por", "warc_filename": "crawl-data/CC-MAIN-2023-06/segments/1674764500041.18/warc/CC-MAIN-20230202200542-20230202230542-00352.warc.gz", "warc_record_offset": 971279893, "warc_record_length": 3873, "text": "...", "crawl_timestamp": "2023-02-02T20:28:21Z" }

文本提取概述

Canarim 数据集使用 Trafilatura 库从 HTML 数据中提取文本内容，并将其转换为 Markdown 格式。该工具专注于保留 Markdown 格式的关键文本元素，如标题、子标题、粗体和斜体格式，确保保留原始文档结构。

使用示例

python !pip install -q datasets

from datasets import load_dataset

ds = load_dataset( "dominguesm/canarim", split="train", data_files="train/data-0019*-of-00192.arrow", streaming=True )

ds_globo = ds.filter( lambda example: example[url].startswith("https://g1.globo.com/") )

data = list(ds_globo.take(10))

print(data[0])

引用

bibtex @misc {maicon_domingues_2024, author = { {Maicon Domingues} }, title = { canarim (Revision 640e079) }, year = 2024, url = { https://huggingface.co/datasets/dominguesm/canarim }, doi = { 10.57967/hf/1605 }, publisher = { Hugging Face } }

许可证

该数据集遵循 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集