Canarim

github2024-01-14 更新2024-05-31 收录

下载链接：

https://github.com/DominguesM/canarim

下载链接

链接失效反馈

官方服务：

资源简介：

Canarim是一个包含超过3.42亿葡萄牙语文档的数据库，来源于多次CommonCrawl迭代。这个近1TB的数据库是可用的大规模葡萄牙语数据集合之一。数据最初为HTML格式，使用`Trafilatura`库转换为Markdown格式，以提高可读性和质量。Canarim旨在成为NLP研究的关键资源，特别是在葡萄牙语应用中，填补了除英语之外的大规模高质量数据集的空白。

Canarim is a database containing over 342 million Portuguese documents, sourced from multiple CommonCrawl iterations. This nearly 1TB database is one of the available large-scale Portuguese language datasets. The data, originally in HTML format, was converted to Markdown format using the `Trafilatura` library to enhance readability and quality. Canarim aims to be a crucial resource for NLP research, particularly in Portuguese language applications, filling the gap for large-scale, high-quality datasets beyond English.

创建时间：

2023-12-17

原始信息汇总

数据集概述

数据集名称

Canarim

数据集描述

Canarim是一个包含超过34200万葡萄牙语文档的数据库，源自多次CommonCrawl迭代。该数据库容量接近1TB，是最大的葡萄牙语数据集之一。数据经过初步的URL去重处理，并计划进行进一步的文本去重和有害内容过滤。原始的HTML数据已通过Trafilatura库转换为Markdown格式，以提高可读性和质量。

数据集结构

数据实例

示例格式如下： json { "url": "...", "content_languages": "por", "warc_filename": "...", "warc_record_offset": ..., "warc_record_length": ..., "text": "...", "crawl_timestamp": "..." }

数据字段

url: 页面URL
content_languages: 页面语言
warc_filename: WARC文件名
warc_record_offset: WARC记录偏移量
warc_record_length: WARC记录长度
text: 页面文本，Markdown格式
crawl_timestamp: 抓取时间戳

文本提取概述

Canarim数据库使用Trafilatura库从HTML数据中提取文本内容，并转换为Markdown格式。该工具专注于保留标题、子标题、粗体和斜体等关键文本元素，确保原始文档结构的保留。提取过程中，Trafilatura会丢弃评论和其他非必要信息，使内容仅包含网页的主体部分。

数据集统计

分割	样本数量	大小（字节）	大小（GB）
训练	342,818,651	1,087,519,823,221	1087.51

许可证

该数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可发布。

联系方式

如有任何问题或建议，请联系Maicon Domingues。

搜集汇总

数据集介绍

构建方式

Canarim数据集的构建基于多次CommonCrawl迭代，涵盖了超过3.42亿份葡萄牙语文档，总数据量接近1TB。初始阶段通过URL进行去重处理，并计划进一步通过文本去重和过滤有害内容来提升数据质量。原始HTML数据通过`Trafilatura`库转换为Markdown格式，以确保内容的可读性和结构完整性。这一过程不仅保留了标题、副标题、加粗和斜体等关键文本元素，还剔除了评论等非必要信息，使得数据集更加精炼。

特点

Canarim数据集以其规模和质量在葡萄牙语自然语言处理领域占据重要地位。数据集包含的文档数量庞大，覆盖了广泛的葡萄牙语网页内容，且经过严格的去重和格式转换处理，确保了数据的高质量。每个数据实例包含URL、内容语言、WARC文件名、记录偏移量、记录长度、文本内容以及爬取时间戳等字段，提供了丰富的信息维度。此外，数据以Markdown格式存储，便于后续的文本分析和处理。

使用方法

Canarim数据集的使用方法简便且灵活。用户可以通过`datasets`库快速加载数据集，并根据需求进行过滤和采样。例如，可以指定特定的数据文件或URL前缀来筛选数据，并通过流式加载模式避免一次性下载大量数据。数据集支持多种操作，如按条件过滤、采样和查看数据实例，极大地方便了研究人员在葡萄牙语自然语言处理任务中的应用。此外，数据集的使用需遵循Creative Commons Attribution 4.0 International (CC BY 4.0)许可协议，确保在引用时给予适当的署名。

背景与挑战

背景概述

Canarim数据集由Maicon Domingues于2024年创建，旨在为葡萄牙语自然语言处理（NLP）研究提供大规模、高质量的数据资源。该数据集包含超过3.42亿份葡萄牙语文档，源自CommonCrawl的多次迭代，总数据量接近1TB。Canarim通过URL进行初步去重，并计划进一步基于文本的去重和有害内容过滤。原始HTML数据通过Trafilatura库转换为Markdown格式，以提高可读性和质量。作为目前最全面的葡萄牙语数据集之一，Canarim填补了非英语语言大规模数据资源的空白，对推动葡萄牙语NLP研究具有重要意义。

当前挑战

Canarim数据集在构建过程中面临多重挑战。首先，从CommonCrawl中提取的原始HTML数据包含大量冗余和噪声，如何高效地进行去重和过滤成为关键问题。其次，将HTML转换为Markdown格式时，需确保文本结构和关键元素（如标题、加粗、斜体等）的完整性，这对文本提取工具的性能提出了较高要求。此外，葡萄牙语作为一种资源相对匮乏的语言，如何确保数据集的多样性和代表性，避免偏见和低质量内容的引入，也是构建过程中需要解决的核心问题。这些挑战不仅影响数据集的质量，也直接关系到其在NLP研究中的实际应用效果。

常用场景

经典使用场景

Canarim数据集作为葡萄牙语网络文档的大规模集合，广泛应用于自然语言处理（NLP）领域的研究。其经典使用场景包括语言模型的训练与评估，特别是在葡萄牙语语境下的文本生成、机器翻译和情感分析等任务。通过提供高质量的葡萄牙语文本数据，Canarim为研究人员提供了丰富的语料库，支持其在多语言NLP领域的深入探索。

衍生相关工作

Canarim数据集的发布催生了一系列相关研究和技术创新。基于该数据集，研究人员开发了多种葡萄牙语预训练语言模型，如BERT和GPT的葡萄牙语版本。这些模型在文本分类、命名实体识别和问答系统等任务中表现出色。此外，Canarim还促进了跨语言研究，推动了多语言NLP技术的发展，为全球语言资源的均衡分布做出了贡献。

数据集最近研究