Carolina Corpus

github2024-01-12 更新2024-05-31 收录

下载链接：

https://github.com/marianasturzeneker/SubcorporaCarolina

下载链接

链接失效反馈

官方服务：

资源简介：

包含Carol·B和Carol·(D+B)两个版本，分别是对Carolina Corpus进行平衡和去重处理的结果。Carol·B在Carolina Corpus的每个主要领域（教学、法律、娱乐、新闻和虚拟）中平衡了令牌数量，总计约304,205,653个令牌和5.3GB。Carol·(D+B)旨在减少每个主要领域的内容重复，然后平衡令牌数量，总计约304,118,503个令牌和5.5GB。

The dataset includes two versions, Carol·B and Carol·(D+B), which are the results of balancing and deduplication processing on the Carolina Corpus, respectively. Carol·B balances the number of tokens in each major domain (education, law, entertainment, news, and virtual) of the Carolina Corpus, totaling approximately 304,205,653 tokens and 5.3GB. Carol·(D+B) aims to reduce content duplication in each major domain and then balance the number of tokens, totaling approximately 304,118,503 tokens and 5.5GB.

创建时间：

2024-01-10

原始信息汇总

数据集概述

数据集名称

SubcorporaCarolina

数据集内容

Carol·B: 平衡版数据集，包含来自Carolina Corpus的五大领域（Instructional, Juridical, Entertainment, Journalistic, Virtual）的等量令牌，总计约304,205,653令牌，占用5.3 GB。
Carol·(D+B): 去重平衡版数据集，通过使用Onion工具对各领域内容进行去重处理，不同领域设置不同的重复内容阈值，总计约304,118,503令牌，占用5.5 GB。

数据集特点

Carol·B: 确保各领域令牌数量相等，约为60,800,000令牌。
Carol·(D+B): 在平衡令牌数量的同时，减少重复内容，但并非所有领域完全去重。

数据集应用领域

数据集主要用于葡萄牙语的自然语言处理研究。

数据集版权

数据集受CC BY-NC-SA 4.0许可证保护。

搜集汇总

数据集介绍

构建方式

Carolina Corpus的构建过程体现了对语言数据的精细处理与平衡设计。该数据集包含两个子集：Carol·B和Carol·(D+B)。Carol·B通过对Carolina Corpus中最大领域的令牌数量进行平衡处理，确保每个领域（如教学、法律、娱乐、新闻和虚拟）的令牌数量大致相同，总计约3.04亿个令牌。Carol·(D+B)则在平衡令牌数量之前，使用Onion工具对重复内容进行去重处理，针对不同领域设置了不同的重复内容阈值，以尽可能接近目标令牌数量。虚拟领域作为最小领域，在两者中均被完整保留。

使用方法

Carolina Corpus的使用方法简便且灵活，适用于多种自然语言处理任务。用户可以通过Hugging Face或Portulan Clarin平台下载完整数据集。数据集以CC BY-NC-SA 4.0许可证发布，允许非商业用途的共享和改编。研究人员可以根据需要选择使用Carol·B或Carol·(D+B)子集，分别用于平衡语言样本或减少重复内容的研究场景。数据集的多领域特性使其成为研究巴西葡萄牙语语言模型的理想资源。

背景与挑战

背景概述

Carolina Corpus是由巴西圣保罗大学人工智能中心（C4AI）葡萄牙语自然语言处理部门（NLP2）开发的一个大规模语料库，专注于当代巴西葡萄牙语的文本数据。该语料库的创建旨在为自然语言处理研究提供丰富且多样化的语言资源，涵盖多个领域，包括教学、法律、娱乐、新闻和虚拟内容。Carolina Corpus的构建不仅考虑了文本的多样性，还通过平衡各领域的词汇量（如Carol·B版本）和减少重复内容（如Carol·(D+B)版本）来优化数据质量。这一语料库的发布为葡萄牙语的自然语言处理研究提供了重要的基础数据，推动了相关领域的技术发展。

当前挑战

Carolina Corpus在构建过程中面临多重挑战。首先，语料库需要覆盖多个领域，确保数据的多样性和代表性，这对数据收集和分类提出了较高要求。其次，为了优化数据质量，研究团队在平衡各领域词汇量的同时，还需减少重复内容，这一过程涉及复杂的去重算法和阈值设置，如使用Onion工具进行去重处理。此外，虚拟领域作为最小的领域，其完整性保留也增加了数据处理的复杂性。这些挑战不仅考验了数据构建的技术能力，也对语料库的最终应用效果产生了深远影响。

常用场景

经典使用场景

Carolina Corpus在自然语言处理领域中被广泛用于葡萄牙语文本的分析与处理。其平衡版本Carol·B和去重平衡版本Carol·(D+B)特别适用于跨领域的语言模型训练和评估。研究者可以利用这些版本进行文本分类、情感分析、机器翻译等任务，尤其是在处理巴西葡萄牙语的多领域文本时，能够提供丰富且均衡的语料支持。

解决学术问题

Carolina Corpus解决了葡萄牙语自然语言处理研究中语料不均衡和重复内容过多的问题。通过平衡各领域的token数量并减少重复内容，该数据集为语言模型的训练提供了高质量的基础数据。这不仅提升了模型在多领域文本中的泛化能力，还为葡萄牙语的语言学研究提供了标准化的语料资源，推动了该领域的技术进步。

实际应用

在实际应用中，Carolina Corpus被广泛应用于巴西葡萄牙语的文本处理任务。例如，新闻媒体可以利用该数据集优化自动摘要生成系统，法律机构可以借助其进行法律文本的语义分析，教育领域则可用于开发智能教学工具。此外，该数据集还为虚拟领域的文本研究提供了独特的数据支持，助力相关技术的落地与推广。

数据集最近研究