camoes_SI

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/inesc-id/camoes_SI

下载链接

链接失效反馈

官方服务：

资源简介：

camoes_SI数据集是一个经过整理的组合，包含两个欧洲葡萄牙社会语言学语料库——Fala Bracarense和Português Fundamental，合并为一个统一的测试集，用于评估自动语音识别（ASR）系统。所有音频都提供为16 kHz PCM波形，配有说话者元数据和参考转录本。该数据集对应于CAMÕES基准的Sociolinguistic Interviews（SI）类别，代表了录制于葡萄牙各地区和社会背景的高度自发的对话语音，通常录音条件较差，且说话带有浓厚的地方口音，是基准中最具挑战性的领域。

创建时间：

2025-12-02

原始信息汇总

camoes_SI 数据集概述

数据集简介

camoes_SI 数据集是一个经过整合的欧洲葡萄牙语社会语言学语料库，由 Fala Bracarense 和 Portugês Fundamental 两个语料库合并而成，形成一个统一的仅用于测试的数据集，旨在评估自动语音识别（ASR）系统。

该数据集属于 CAMÕES 基准测试中的社会语言学访谈（SI）类别。此类别代表了高度自发的对话语音，在葡萄牙不同地区和社会背景下录制，通常录音条件较差且包含口音较重的语音，是该基准测试中最具挑战性的领域，也是衡量模型在真实对话场景中鲁棒性的重要指标。

关键属性

语言：葡萄牙语（pt）
许可证：CC BY-NC 4.0
数据规模：10K < n < 100K
标签：音频、语音识别、葡萄牙语、欧洲葡萄牙语、社会语言学
任务类别：自动语音识别
音频格式：16 kHz PCM 波形文件
数据用途：仅用于测试

数据来源构成

数据集由以下两个语料库合并而成：

Fala Bracarense

时长：6.1 小时
说话者数量：9 人
年龄范围：15–92 岁
性别分布：45% 男性 | 55% 女性
采集地点：葡萄牙布拉加
采集时期：2009–2014 年

Português Fundamental

时长：4.2 小时
说话者数量：169 人
年龄范围：17–69 岁
性别分布：44% 男性 | 56% 女性
采集时期：20 世纪 70 年代

数据字段说明

字段名	类型	描述
`audio`	Audio	话语的 16 kHz PCM 波形
`age`	string	说话者自报年龄
`gender`	string	说话者性别
`speaker_id`	string	唯一的说话者标识符
`hypothesis`	string	ASR 假设转录文本（如可用）
`reference`	string	真实转录文本
`wrd`	string	词数或相关度量
`wer`	string	词错误率（如可用）
`dataset`	string	源数据集标识符（如 “FBracarense”）
`ID`	string	唯一的话语 ID
`ncount`	string	额外的元数据字段
`sex`	string	说话者生理性别 / 替代性别字段

使用许可

本数据集采用 CC BY-NC 4.0 许可证发布。允许出于非商业研究目的使用、修改和重新分发数据集。禁止商业用途。

参考文献

Fala Bracarense: Centro de Estudos Humanísticos, Universidade do Minho. (2009). Perfil Sociolinguístico da Fala Bracarense. https://sites.google.com/site/projectofalabracarense/
Português Fundamental: Centro de Linguística, Universidade de Lisboa. (2014). Português Fundamental. https://www.islrn.org/resources/812-337-422-842-3/
CAMÕES Benchmark: Carvalho, C., et al. (2025). CAMÕES: A Comprehensive Automatic Speech Recognition Benchmark for European Portuguese. In IEEE Automatic Speech Recognition and Understanding Workshop (ASRU).

搜集汇总

数据集介绍

构建方式

在语音识别技术快速发展的背景下，camoes_SI数据集通过整合两个欧洲葡萄牙语社会语言学语料库——Fala Bracarense与Português Fundamental——构建而成。该数据集专门设计为测试集，旨在评估自动语音识别系统在真实对话场景中的性能。构建过程中，原始音频被统一处理为16 kHz PCM波形格式，并保留了说话者的年龄、性别及身份等元数据，同时提供了准确的参考转录文本，确保了数据的一致性与可用性。

特点

camoes_SI数据集的核心特点在于其高度自发性的对话语音内容，这些语音采集自葡萄牙不同地区与社会语境，录音条件往往较为简陋，且包含丰富的口音变体。这使得该数据集成为CAMÕES基准测试中挑战性最高的领域，能够有效检验模型在嘈杂、多变真实环境下的鲁棒性。数据集涵盖了广泛的说话者年龄分布与性别比例，为研究社会语言学因素对语音识别的影响提供了宝贵资源。

使用方法

研究人员可利用该数据集对欧洲葡萄牙语自动语音识别模型进行严格的测试与评估。通过Hugging Face平台，用户可便捷加载数据集，并依据来源语料库标识进行筛选分析。典型应用包括计算词错误率等性能指标，以衡量模型在处理自发对话、口音及不良录音条件时的能力，从而推动面向实际应用的语音技术发展。

背景与挑战

背景概述

camoes_SI数据集是CAMÕES基准测试中专门用于评估欧洲葡萄牙语自动语音识别系统性能的测试集，于2025年由葡萄牙里斯本大学等研究机构联合构建。该数据集整合了Fala Bracarense与Português Fundamental两个经典社会语言学语料库，旨在解决高度自发性的日常对话语音识别难题。其核心研究问题聚焦于在复杂声学环境与多样口音背景下，提升语音识别模型的鲁棒性与泛化能力，对推动葡萄牙语自然语言处理技术的实际应用具有重要影响力。

当前挑战

该数据集所针对的领域挑战在于识别高度自发的对话语音，这类语音常伴随背景噪音、录音质量不佳及显著的地域口音变异，导致传统语音识别系统准确率大幅下降。在构建过程中，研究人员面临整合多源历史语料的技术难题，需统一不同采集年代、设备与转录规范的音频数据，同时确保说话人年龄、性别等社会语言学元数据的完整性与一致性，以维持数据集的科学价值与评估效力。

常用场景

经典使用场景

在自动语音识别领域，camoes_SI数据集作为CAMÕES基准测试的重要组成部分，专门用于评估模型在高度自发对话场景下的性能。该数据集融合了欧洲葡萄牙语的社会语言学访谈录音，涵盖了多样的地域口音和复杂的录音条件，为研究者提供了一个极具挑战性的测试平台。通过模拟真实世界中的非正式交流环境，它能够有效检验ASR系统对口语化表达、背景噪声及口音变异的鲁棒性，从而推动语音识别技术向更自然、更实用的方向发展。

实际应用

在实际应用层面，camoes_SI数据集为开发面向欧洲葡萄牙语地区的智能语音助手、客户服务自动化系统及教育技术工具提供了关键评估资源。这些应用场景要求系统能够准确理解带有地方口音、语速变化及非正式表达的自然对话。通过利用该数据集进行模型测试与优化，工程师可以提升语音接口在真实环境中的可靠性，从而更好地服务于医疗、金融、公共服务等需要高精度语音交互的领域，增强技术的包容性与可访问性。

衍生相关工作

围绕camoes_SI数据集，已衍生出多项经典研究工作，主要集中在跨领域语音识别模型的鲁棒性优化。例如，基于该数据集的评估结果，研究者提出了针对口音自适应和噪声抑制的深度学习架构，这些方法显著提升了模型在自发对话场景下的识别准确率。此外，该数据集还促进了社会语言学特征与语音识别技术的融合分析，催生了关于语言变异对ASR性能影响的实证研究，为后续构建更全面的多方言语音基准测试提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集