Carolina Corpus

Name: Carolina Corpus
Creator: 圣保罗大学
Published: 2023-03-29 00:09:40
License: 暂无描述

arXiv2023-03-29 更新2024-06-21 收录

下载链接：

https://portulanclarin.net/repository/browse/carolina-general-corpus-ofcontemporary-brazilian-portuguese-with-provenance-and-typology-information/f3751b34e36611ecaa5802420a870112f00a37650c304dbda703d85e14a2e945/

下载链接

链接失效反馈

官方服务：

资源简介：

Carolina Corpus是由圣保罗大学创建的一个大型开放的巴西葡萄牙语语料库，主要收集1970年后的网络文本。该数据集通过网络语料库方法构建，强调来源、类型、版本和文本完整性。Carolina Corpus目前包含653亿个标记，分布在7种广泛类型中。每个文本都使用TEI注释标准进行多种元数据类别的头部注释。该数据集旨在为语言学和计算机科学研究提供可靠资源，特别是用于语言模型的研究，以提升葡萄牙语在计算资源中的地位。

The Carolina Corpus is a large open Brazilian Portuguese corpus created by the University of São Paulo, which primarily collects web texts from post-1970. Constructed via web corpus methodology, this dataset emphasizes provenance, text type, versioning, and textual integrity. Currently, the Carolina Corpus contains 6.53 billion tokens, distributed across seven broad categories. Each text is annotated with header metadata across multiple categories in compliance with the TEI (Text Encoding Initiative) annotation standard. This dataset aims to provide a reliable resource for linguistic and computer science research, particularly for language model studies, to elevate the status of Portuguese within computational resources.

提供机构：

圣保罗大学

创建时间：

2023-03-29

搜集汇总

数据集介绍

构建方式

Carolina Corpus的构建采用了web-as-corpus方法，并结合了来源、类型学、版本控制和文本完整性四个核心概念。通过网络爬取大量当代巴西葡萄牙语文本，并对其进行来源和类型学的详细标注。每个文本都嵌入了多个元数据类别，遵循TEI标注标准，确保数据的可追溯性和完整性。此外，版本控制机制确保了数据集的持续更新和管理，使其成为一个动态且可靠的研究资源。

特点

Carolina Corpus的主要特点在于其丰富的元数据标注和多样化的文本类型。数据集包含了7种广泛的文本类型，每种类型都经过详细的来源和类型学标注，确保了数据的高质量和多样性。此外，文本完整性和版本控制机制使得该数据集不仅适用于语言学研究，还能支持计算机科学领域的高级语言模型训练，有助于提升葡萄牙语在计算资源中的地位。

使用方法

Carolina Corpus可以通过Portulan Clarin和Hugging Face等平台进行访问和下载，适合用于自然语言处理（NLP）和语言学研究。用户可以根据需要选择特定版本的语料库，并利用其丰富的元数据进行深入分析。此外，数据集的开放性和详细的许可证信息使得研究人员可以自由地进行各种实验和模型训练，推动葡萄牙语在人工智能和语言学领域的应用和发展。

背景与挑战

背景概述

Carolina Corpus，全称为General Corpus of Contemporary Brazilian Portuguese with Provenance and Typology Information，是由圣保罗大学（USP）的数字人文虚拟实验室（LaViHD）和人工智能中心（C4AI）的自然语言处理部门（NLP2）自2020年9月起持续开发的大型开放语料库。该语料库主要收集1970年后的巴西葡萄牙语文本，旨在为语言学研究和计算机科学领域的语言模型研究提供可靠资源，从而提升葡萄牙语在低资源语言中的地位。Carolina Corpus的构建基于四个核心概念：来源、类型、版本控制和文本完整性，这些特性使其在现有的葡萄牙语语料库中独树一帜。

当前挑战

Carolina Corpus在构建过程中面临多项挑战。首先，确保文本来源的可靠性和代表性，以及遵守原始许可证的要求，是数据收集过程中的主要难题。其次，为了提供丰富的类型信息和文本完整性，语料库的构建需要更长的处理时间，这增加了版本控制的复杂性。此外，尽管Carolina Corpus旨在平衡不同类型的文本，但由于开放许可的限制，实际的文本分布可能并不完全均衡。最后，如何有效地管理和更新如此大规模的语料库，以适应未来研究的需求，也是一个持续的挑战。

常用场景

经典使用场景

Carolina Corpus 作为巴西葡萄牙语的大型开放语料库，其经典使用场景主要集中在语言学研究和计算机科学领域。在语言学研究中，Carolina Corpus 提供了丰富的文本类型和详细的元数据，支持语言学家进行语言变异、语法结构和语义分析。在计算机科学领域，该语料库被广泛用于训练和评估自然语言处理（NLP）模型，特别是针对巴西葡萄牙语的模型，如BERT和Transformer的变体。

实际应用

在实际应用中，Carolina Corpus 被用于开发和优化面向巴西葡萄牙语的智能系统，如语音识别、机器翻译和情感分析。这些系统在教育、医疗和商业等领域具有广泛的应用前景。例如，教育机构可以利用该语料库开发语言学习工具，医疗领域可以用于构建疾病诊断和治疗建议的智能助手，商业领域则可以用于客户服务和市场分析。

衍生相关工作

Carolina Corpus 的发布催生了多项相关研究工作。例如，基于该语料库，研究人员开发了针对特定文本类型的预训练语言模型，如SciBERT和BioBERT的巴西葡萄牙语版本。此外，Carolina Corpus 还被用于构建自然语言推理（NLI）数据集，推动了NLP任务在巴西葡萄牙语中的应用。这些衍生工作不仅丰富了巴西葡萄牙语的NLP资源，也促进了跨语言研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集