dominguesm/mTEDx-ptbr

Name: dominguesm/mTEDx-ptbr
Creator: dominguesm
Published: 2024-02-11 12:28:59
License: 暂无描述

Hugging Face2024-02-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dominguesm/mTEDx-ptbr

下载链接

链接失效反馈

官方服务：

资源简介：

mTEDx PTBR数据集是一个包含葡萄牙语语音和转录文本的数据集，主要用于自动语音识别（ASR）和音频分类任务。数据集分为训练集、验证集和测试集，分别包含90244、1013和1020个样本。数据集的总下载大小为93176985982字节，总大小为111582235409.148字节。该数据集是多语言TEDx语料库的一部分，包含来自TEDx Talks的音频录音和转录文本，支持多种语言的语音识别和翻译任务。

The mTEDx PTBR dataset is a corpus of Portuguese speech and its corresponding transcribed text, primarily designed for automatic speech recognition (ASR) and audio classification tasks. The dataset is partitioned into training, validation, and test sets, with 90244, 1013, and 1020 samples respectively. The total download size is 93176985982 bytes, and the total storage size is 111582235409.148 bytes. As a subset of the multilingual TEDx corpus, this dataset comprises audio recordings and transcribed texts sourced from TEDx Talks, supporting speech recognition and translation tasks across multiple languages.

提供机构：

dominguesm

原始信息汇总

数据集概述

数据集名称

名称：mTEDx PTBR
语言：葡萄牙语（pt）

数据集特征

音频（audio）：数据类型为音频。
转录文本（transcription）：数据类型为字符串。

数据集划分

训练集（train）：
- 示例数量：90244
- 数据大小：109304535928.432字节
验证集（validation）：
- 示例数量：1013
- 数据大小：1051506219.236字节
测试集（test）：
- 示例数量：1020
- 数据大小：1226193261.48字节

数据集大小

下载大小：93176985982字节
数据集总大小：111582235409.148字节

许可证

许可证类型：cc-by-nc-4.0

任务类别

自动语音识别（automatic-speech-recognition）
音频分类（audio-classification）

在语音识别与翻译研究领域，多语言语料库的构建对于推动跨语言技术发展至关重要。mTEDx PTBR数据集源自TEDx演讲的葡萄牙语部分，通过自动化句子级对齐技术，将音频录音与其手动转录文本精准匹配。该过程涉及从原始TEDx演讲中提取葡萄牙语内容，并利用先进算法进行音频与文本的时序对齐，确保每个语音片段对应准确的转录句子，从而形成结构化的训练、验证与测试分割，为模型提供高质量的语音-文本配对数据。

特点

作为多语言语音识别与翻译研究的重要资源，mTEDx PTBR数据集展现出鲜明的特色。其核心在于专注于葡萄牙语，包含超过9万条训练样本及千余条验证与测试数据，覆盖广泛的语音内容。数据集不仅提供原始音频特征，还附有精确的转录文本，支持自动语音识别与音频分类任务。此外，该数据集作为多语言TEDx语料库的一部分，具备潜在的跨语言扩展性，为研究葡萄牙语语音处理及多语言模型训练提供了丰富而可靠的实验基础。

使用方法

在语音技术应用中，mTEDx PTBR数据集为研究者提供了便捷的使用途径。用户可通过HuggingFace平台直接访问数据集，加载音频文件及其对应的转录文本，快速构建语音识别或分类模型的训练流程。数据集已预分割为训练、验证与测试集，便于进行模型训练、调优与评估。研究者可依据任务需求，利用该数据集训练葡萄牙语自动语音识别系统，或结合其他语言部分开展多语言翻译研究，参考提供的学术论文进一步探索其潜在应用价值。

背景与挑战

背景概述

在语音识别与机器翻译领域，多语言数据的稀缺性长期制约着模型的泛化能力与跨语言应用。2021年，约翰斯·霍普金斯大学的研究团队Elizabeth Salesky与Matthew Wiesner等人发布了mTEDx数据集，旨在构建一个涵盖八种语言的大规模语音识别与翻译语料库。该数据集以葡萄牙语子集mTEDx-ptbr为代表，通过自动对齐技术将TEDx演讲的音频与人工转录文本及多语言译文精准关联，核心研究问题聚焦于提升低资源语言在自动语音识别与口语翻译任务中的性能。这一资源的推出，显著促进了多语言语音处理模型的训练与评估，为相关领域的算法创新提供了关键数据支撑。

当前挑战

mTEDx数据集致力于解决多语言自动语音识别与口语翻译中的核心挑战，尤其在低资源语言场景下，模型常面临语音变异、口音多样性及跨语言语义对齐的复杂性。构建过程中，研究团队需克服音频与文本的自动对齐精度问题，确保句子级分割的准确性，同时处理多语言译文的质量控制与一致性维护。此外，数据集的规模与多样性平衡、版权合规性以及跨语言对的测试集构建，均为实现鲁棒且可泛化模型带来了持续的技术障碍。

常用场景

经典使用场景

在语音技术领域，mTEDx-ptbr数据集为葡萄牙语自动语音识别（ASR）研究提供了关键资源。该数据集源自TEDx演讲的音频与转录文本，经过精细的句子级对齐处理，使得研究者能够直接利用其训练端到端的语音识别模型。经典使用场景包括构建和评估葡萄牙语ASR系统，尤其是在多语言环境下，该数据集支持从原始音频到文本的映射学习，为语音识别模型的性能基准测试提供了标准化语料。

解决学术问题

mTEDx-ptbr数据集有效解决了葡萄牙语语音识别研究中数据稀缺的学术难题。通过提供大规模、高质量的音频-文本对，它促进了低资源语言ASR模型的发展，并支持跨语言语音翻译的探索。该数据集的意义在于填补了葡萄牙语在公开语音语料库中的空白，推动了多语言语音技术的公平性研究，其影响延伸至自然语言处理领域，为语言多样性保护和技术普及提供了实证基础。

衍生相关工作

mTEDx-ptbr数据集衍生了一系列经典研究工作，特别是在国际口语翻译评测（IWSLT）中，它作为核心语料推动了多语言语音识别与翻译任务的进展。相关成果包括基于Transformer架构的端到端ASR模型，以及跨语言语音表示学习方法的创新。这些工作不仅提升了葡萄牙语语音技术的性能，还促进了多模态语言模型的发展，为后续研究如语音合成和语音情感分析提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集