CAM ̃OES

Name: CAM ̃OES
Creator: INESC-ID, Lisbon, Portugal
Published: 2025-08-27 17:30:43
License: 暂无描述

arXiv2025-08-27 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/inesc-id/camoes

下载链接

链接失效反馈

官方服务：

资源简介：

CAM ̃OES 是第一个针对欧洲葡萄牙语和其他葡萄牙语变体的开放框架。它包括一个包含 46 小时欧洲葡萄牙语测试数据的多领域综合评估基准，以及一系列最先进的模型。这些模型使用 425 小时的欧洲葡萄牙语语音数据进行微调和训练。CAM ̃OES 填补了欧洲葡萄牙语和其他葡萄牙语变体在自动语音识别领域的空白，为研究人员提供了宝贵的资源。

提供机构：

INESC-ID, Lisbon, Portugal

创建时间：

2025-08-27

搜集汇总

数据集介绍

构建方式

在自动语音识别领域，欧洲葡萄牙语资源长期匮乏，CAMÕES数据集通过系统整合18个语料库构建而成。该数据集精选了470小时语音数据，其中425小时作为训练集，46小时作为测试集，涵盖广播新闻、朗读语音、学术讲座、会话语音和社会语言学访谈五大领域。语料来源包括专有研究合作数据、内部录制内容及公开网络资源，转录文本通过人工标注、书籍自动对齐及原始提示文本匹配等多种方式确保准确性。

使用方法

该数据集支持多种自动语音识别研究范式。研究者可通过零样本评估测试预训练基础模型的泛化能力，或使用425小时训练数据对Whisper等模型进行微调。同时提供从头训练E-Branchformer模型的完整 pipeline，支持结合自监督学习特征提取器。评估时需按五大领域分别计算词错误率，并可通过集成4-gram语言模型进一步提升性能。所有模型均需在统一文本规范化流程下进行公平比较。

背景与挑战

背景概述

欧洲葡萄牙语自动语音识别研究长期面临资源匮乏的困境，现有技术多集中于巴西葡萄牙语变体。为填补这一空白，INESC-ID与里斯本理工大学研究团队于2025年推出CAMÕES数据集，这是首个专门针对欧洲葡萄牙语及其它变体的开源评估框架。该数据集包含46小时多领域测试数据与425小时训练语料，涵盖广播新闻、学术讲座、会话语音等多种场景，其建立显著推动了葡萄牙语语音技术研究的均衡发展。

当前挑战

该数据集主要解决欧洲葡萄牙语作为低资源语言的自动语音识别难题，其核心挑战在于方言间的音系差异导致模型泛化能力不足。构建过程中面临多维度挑战：需整合18个异构语料库并统一标注标准，处理不同年龄层（3-100岁）的语音特征差异，以及应对非洲和亚洲葡萄牙语变体数据极度稀缺的问题。此外，还需克服会话语音中即兴表达和方言混杂带来的识别复杂度。

常用场景

经典使用场景

在语音识别研究领域，CAMÕES数据集作为欧洲葡萄牙语的首个综合性评估基准，其经典使用场景主要集中于多领域语音转录任务的性能验证。该数据集涵盖朗读语音、广播新闻、学术讲座、会话语音和社会语言学访谈五大领域，为研究人员提供了评估模型在不同语音风格和噪声环境下表现能力的标准化测试平台。特别是在处理低资源语言变体时，该数据集能够有效检验模型对语音多样性、口音差异和自发语音的适应能力。

解决学术问题

该数据集有效解决了欧洲葡萄牙语在自动语音识别研究中长期存在的资源匮乏问题，为低资源语言变体的模型训练与评估提供了标准化数据支撑。通过提供46小时的标注测试数据和425小时训练数据，它使得研究者能够系统评估基础模型的零样本性能、微调效果以及从头训练的模型表现。其重要意义在于建立了欧洲葡萄牙语的性能基准，填补了该语言变体在语音识别领域缺乏可靠评估标准的空白，并促进了跨语言迁移学习策略的发展。

实际应用

在实际应用层面，CAMÕES数据集支撑的语音识别技术可广泛应用于葡萄牙语地区的智能语音助手、广播媒体自动字幕生成、教育领域的语音转录服务以及跨语言通信系统。其覆盖多年龄段说话人（包括儿童和老年人）和多方言变体的特性，使得基于该数据集训练的模型能够更好地服务于实际应用场景中的多样性需求，特别是在医疗、教育和公共服务等领域提供更准确的语音交互体验。

数据集最近研究