PtBrVarId
收藏arXiv2025-02-20 更新2025-02-22 收录
下载链接:
https://www.kaggle.com/datasets/rtatman/brazilianportuguese-literature-corpus
下载链接
链接失效反馈官方服务:
资源简介:
PtBrVarId是一个跨领域的银标签葡萄牙语语言变体识别数据集,由11个欧洲和巴西来源的开放许可语料库编译而成,涵盖新闻、法律、政治、网络、社交媒体和文学六个领域。该数据集采用银标签方法,基于文档的元数据推断语言变体,未经人工标注。数据集在清洗后包含约730万份文档,主要用于训练机器学习和深度学习模型。
PtBrVarId is a cross-domain silver-labeled Portuguese language variety identification dataset. It is compiled from 11 open-license corpora sourced from Europe and Brazil, covering six domains including news, law, politics, web, social media, and literature. The dataset adopts the silver-labeling method, which infers language varieties based on document metadata without manual annotation. After data cleaning, it contains approximately 7.3 million documents, and is primarily used for training machine learning and deep learning models.
提供机构:
葡萄牙波尔图大学
创建时间:
2025-02-20
搜集汇总
数据集介绍

构建方式
PtBrVarId数据集的构建采用了跨领域语言变体识别器(LVI)的方法,旨在区分欧洲和巴西葡萄牙语。该数据集由11个欧洲和巴西来源的开放许可语料库编译而成,覆盖了新闻、法律、政治、网络、社交媒体和文学六个领域。数据集的构建采取了银标签方法,即根据文档的元数据以合理程度的信心推断变体。此外,数据集还经过了专门的数据清洗流程,以减少噪声。最终,PtBrVarId数据集包含了超过7百万份文档,为葡萄牙语变体识别任务提供了丰富的资源。
使用方法
PtBrVarId数据集的使用方法包括:1)将数据集用于训练和评估变体识别模型,以提高模型的识别准确性和泛化性能;2)利用数据集中的跨领域特点,研究模型在不同领域上的表现差异;3)通过调整数据集中的去词义化程度,研究去词义化对模型性能的影响;4)将数据集与其他葡萄牙语变体识别资源进行比较,以评估数据集的质量和有效性。
背景与挑战
背景概述
PtBrVarId数据集的研究背景是在自然语言处理领域,特别是语言变体识别任务中。随着生成模型在多样化语言变体中产生连贯文本的能力的期望提升,葡萄牙语中巴西葡萄牙语语料库的在线主导地位引入了语言偏见,限制了模型在巴西以外的适用性。为了解决这一差距并促进欧洲葡萄牙语资源的创建,研究人员开发了一个跨域语言变体识别器(LVI)来区分欧洲和巴西葡萄牙语。PtBrVarId语料库是一个跨域LVI数据集,用于研究基于Transformer的LVI分类器在跨域场景中的有效性。虽然这项研究专注于两种葡萄牙语变体,但我们的贡献可以扩展到其他变体和语言。
当前挑战
PtBrVarId数据集相关的挑战包括:1) 所解决的领域问题是语言变体识别,特别是区分欧洲和巴西葡萄牙语;2) 构建过程中遇到的挑战包括跨域语言变体识别器的开发,以及跨域LVI数据集的编译。这些挑战要求研究人员设计有效的系统来区分语言变体,减少对人类监督的需求,并加速创建高质量的单一变体数据集。此外,构建跨域LVI分类器需要解决跨域能力有限的挑战,例如N-gram模型在语言识别任务中的局限性。为了应对这些挑战,研究人员采用了银标方法来编译数据集,并研究了去词化对LVI模型整体有效性的影响。
常用场景
经典使用场景
PtBrVarId数据集被广泛应用于葡萄牙语变体识别领域,尤其是在区分欧洲葡萄牙语和巴西葡萄牙语方面。该数据集的跨领域特性使得基于Transformer的变体识别分类器在跨领域场景中表现出色,为自然语言处理领域的研究提供了宝贵的资源。
解决学术问题
PtBrVarId数据集解决了葡萄牙语变体识别中的学术研究问题,特别是针对在线资源中巴西葡萄牙语占主导地位导致的语言模型偏差问题。该数据集的创建和开源代码、语料库和模型的发布,为促进欧洲葡萄牙语资源的发展提供了重要的支持。
实际应用
PtBrVarId数据集在实际应用场景中,如法律和医疗领域,能够有效地区分欧洲葡萄牙语和巴西葡萄牙语,为在这些领域应用的模型提供了更广泛的应用范围。此外,该数据集的跨领域特性使得基于Transformer的变体识别分类器在多领域应用中表现出更好的泛化性能。
数据集最近研究
最新研究方向
在自然语言处理领域,区分语言变体的能力对于构建能够生成连贯文本的生成模型至关重要。PtBrVarId数据集的开发正是为了解决这一挑战,特别是在葡萄牙语中,由于在线数据集中巴西葡萄牙语的优势,模型在巴西以外的应用受到了限制。该数据集通过跨域方法区分欧洲和巴西葡萄牙语,为创建欧洲葡萄牙语资源做出了贡献。该研究不仅关注葡萄牙语的两种变体,其成果还可以扩展到其他语言变体。此外,该研究还探讨了去词义化(delexicalization)对跨域语言变体识别(LVI)模型整体有效性的影响,并提出了一个训练协议,以提高LVI模型的泛化性能。这些发现对于未来研究具有重要意义,特别是对于构建能够处理多域应用的语言模型。
相关研究论文
- 1Enhancing Portuguese Variety Identification with Cross-Domain Approaches葡萄牙波尔图大学 · 2025年
以上内容由遇见数据集搜集并总结生成



