Canarim
收藏github2024-01-14 更新2024-05-31 收录
下载链接:
https://github.com/DominguesM/canarim
下载链接
链接失效反馈官方服务:
资源简介:
Canarim是一个包含超过3.42亿葡萄牙语文档的数据库,来源于多次CommonCrawl迭代。这个近1TB的数据库是可用的大规模葡萄牙语数据集合之一。数据最初为HTML格式,使用`Trafilatura`库转换为Markdown格式,以提高可读性和质量。Canarim旨在成为NLP研究的关键资源,特别是在葡萄牙语应用中,填补了除英语之外的大规模高质量数据集的空白。
Canarim is a database containing over 342 million Portuguese documents, sourced from multiple CommonCrawl iterations. This nearly 1TB database is one of the available large-scale Portuguese language datasets. The data, originally in HTML format, was converted to Markdown format using the `Trafilatura` library to enhance readability and quality. Canarim aims to be a crucial resource for NLP research, particularly in Portuguese language applications, filling the gap for large-scale, high-quality datasets beyond English.
创建时间:
2023-12-17
原始信息汇总
数据集概述
数据集名称
Canarim
数据集描述
Canarim是一个包含超过34200万葡萄牙语文档的数据库,源自多次CommonCrawl迭代。该数据库容量接近1TB,是最大的葡萄牙语数据集之一。数据经过初步的URL去重处理,并计划进行进一步的文本去重和有害内容过滤。原始的HTML数据已通过Trafilatura库转换为Markdown格式,以提高可读性和质量。
数据集结构
数据实例
示例格式如下: json { "url": "...", "content_languages": "por", "warc_filename": "...", "warc_record_offset": ..., "warc_record_length": ..., "text": "...", "crawl_timestamp": "..." }
数据字段
url: 页面URLcontent_languages: 页面语言warc_filename: WARC文件名warc_record_offset: WARC记录偏移量warc_record_length: WARC记录长度text: 页面文本,Markdown格式crawl_timestamp: 抓取时间戳
文本提取概述
Canarim数据库使用Trafilatura库从HTML数据中提取文本内容,并转换为Markdown格式。该工具专注于保留标题、子标题、粗体和斜体等关键文本元素,确保原始文档结构的保留。提取过程中,Trafilatura会丢弃评论和其他非必要信息,使内容仅包含网页的主体部分。
数据集统计
| 分割 | 样本数量 | 大小(字节) | 大小(GB) |
|---|---|---|---|
| 训练 | 342,818,651 | 1,087,519,823,221 | 1087.51 |
许可证
该数据集根据Creative Commons Attribution 4.0 International (CC BY 4.0)许可发布。
联系方式
如有任何问题或建议,请联系Maicon Domingues。
搜集汇总
数据集介绍

构建方式
Canarim数据集的构建基于多次CommonCrawl迭代,涵盖了超过3.42亿份葡萄牙语文档,总数据量接近1TB。初始阶段通过URL进行去重处理,并计划进一步通过文本去重和过滤有害内容来提升数据质量。原始HTML数据通过`Trafilatura`库转换为Markdown格式,以确保内容的可读性和结构完整性。这一过程不仅保留了标题、副标题、加粗和斜体等关键文本元素,还剔除了评论等非必要信息,使得数据集更加精炼。
特点
Canarim数据集以其规模和质量在葡萄牙语自然语言处理领域占据重要地位。数据集包含的文档数量庞大,覆盖了广泛的葡萄牙语网页内容,且经过严格的去重和格式转换处理,确保了数据的高质量。每个数据实例包含URL、内容语言、WARC文件名、记录偏移量、记录长度、文本内容以及爬取时间戳等字段,提供了丰富的信息维度。此外,数据以Markdown格式存储,便于后续的文本分析和处理。
使用方法
Canarim数据集的使用方法简便且灵活。用户可以通过`datasets`库快速加载数据集,并根据需求进行过滤和采样。例如,可以指定特定的数据文件或URL前缀来筛选数据,并通过流式加载模式避免一次性下载大量数据。数据集支持多种操作,如按条件过滤、采样和查看数据实例,极大地方便了研究人员在葡萄牙语自然语言处理任务中的应用。此外,数据集的使用需遵循Creative Commons Attribution 4.0 International (CC BY 4.0)许可协议,确保在引用时给予适当的署名。
背景与挑战
背景概述
Canarim数据集由Maicon Domingues于2024年创建,旨在为葡萄牙语自然语言处理(NLP)研究提供大规模、高质量的数据资源。该数据集包含超过3.42亿份葡萄牙语文档,源自CommonCrawl的多次迭代,总数据量接近1TB。Canarim通过URL进行初步去重,并计划进一步基于文本的去重和有害内容过滤。原始HTML数据通过Trafilatura库转换为Markdown格式,以提高可读性和质量。作为目前最全面的葡萄牙语数据集之一,Canarim填补了非英语语言大规模数据资源的空白,对推动葡萄牙语NLP研究具有重要意义。
当前挑战
Canarim数据集在构建过程中面临多重挑战。首先,从CommonCrawl中提取的原始HTML数据包含大量冗余和噪声,如何高效地进行去重和过滤成为关键问题。其次,将HTML转换为Markdown格式时,需确保文本结构和关键元素(如标题、加粗、斜体等)的完整性,这对文本提取工具的性能提出了较高要求。此外,葡萄牙语作为一种资源相对匮乏的语言,如何确保数据集的多样性和代表性,避免偏见和低质量内容的引入,也是构建过程中需要解决的核心问题。这些挑战不仅影响数据集的质量,也直接关系到其在NLP研究中的实际应用效果。
常用场景
经典使用场景
Canarim数据集作为葡萄牙语网络文档的大规模集合,广泛应用于自然语言处理(NLP)领域的研究。其经典使用场景包括语言模型的训练与评估,特别是在葡萄牙语语境下的文本生成、机器翻译和情感分析等任务。通过提供高质量的葡萄牙语文本数据,Canarim为研究人员提供了丰富的语料库,支持其在多语言NLP领域的深入探索。
衍生相关工作
Canarim数据集的发布催生了一系列相关研究和技术创新。基于该数据集,研究人员开发了多种葡萄牙语预训练语言模型,如BERT和GPT的葡萄牙语版本。这些模型在文本分类、命名实体识别和问答系统等任务中表现出色。此外,Canarim还促进了跨语言研究,推动了多语言NLP技术的发展,为全球语言资源的均衡分布做出了贡献。
数据集最近研究
最新研究方向
在自然语言处理(NLP)领域,葡萄牙语作为全球使用广泛的语言之一,其研究资源相对稀缺。Canarim数据集的推出,填补了这一空白,为葡萄牙语NLP研究提供了大规模、高质量的数据支持。当前,研究者们正利用Canarim数据集进行多方面的探索,包括但不限于语言模型的预训练、机器翻译、文本分类以及情感分析等任务。特别是在多语言模型的开发中,Canarim数据集为葡萄牙语的语言表示和跨语言迁移学习提供了坚实的基础。此外,随着全球对多语言AI应用需求的增长,Canarim数据集在推动葡萄牙语AI技术的发展中扮演着关键角色,为学术界和工业界提供了宝贵的资源。
以上内容由遇见数据集搜集并总结生成



