BrunoHays/multilingual-TEDX-fr

Name: BrunoHays/multilingual-TEDX-fr
Creator: BrunoHays
Published: 2024-02-22 16:25:35
License: 暂无描述

Hugging Face2024-02-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BrunoHays/multilingual-TEDX-fr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Multilingual TEDx数据集的法语子集，上传到HuggingFace的数据对应于fr-fr目录。音频文件被自动重采样到16 kHz。数据集提供了多种配置选项，包括单独样本、合并样本以形成不超过30秒或10秒的片段，以及合并整个TEDx演讲的所有样本。依赖项包括ffmpeg和ffmpeg-python，用于更快的音频解码。数据样本示例展示了音频文件、句子、说话者ID、时间戳等信息。

This dataset is the French subset of the Multilingual TEDx dataset, and the data uploaded to HuggingFace corresponds to the fr-fr directory. Audio files were automatically resampled to 16 kHz. The dataset provides multiple configuration options, including individual samples, merged samples to create segments of up to 30 seconds or 10 seconds, and combining all samples from an entire TEDx talk. Dependencies include ffmpeg and ffmpeg-python for faster audio decoding. Example data samples showcase information such as audio files, sentences, speaker IDs, timestamps, and more.

提供机构：

BrunoHays

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-nd-4.0
任务类别: automatic-speech-recognition
语言: fr (法语)
数据量: 100K<n<1M

数据来源

数据集: 法语子集，来自Multilingual TEDx数据集。
对应目录: fr-fr
音频格式: 自动重采样至16 kHz

配置选项

single_samples (默认): 所有样本单独提取
max=30s: 合并连续样本，时长不超过30秒
max=10s: 合并连续样本，时长不超过10秒
max: 合并一个TEDx演讲的所有样本

依赖项

ffmpeg: apt install ffmpeg
ffmpeg-python: pip install ffmpeg-python

样本示例

json { "file": "0u7tTptBo9I-0", "audio": { "path": None, "array": [3.05175781e-05, 6.10351562e-05, 9.15527344e-05, ..., -2.44140625e-04, -3.35693359e-04, -2.74658203e-04], "sampling_rate": 16000 }, "sentence": "Bonsoir ! Notre planète est recouverte à 70 % docéan, et pourtant, étrangement, on a choisi de lappeler « la Terre ». Le poète Heathcote Williams a une vision bien plus objective et moins anthropocentrique, quand il dit que « Vue de lespace, la planète est bleue. Vue de lespace, elle est le territoire, non pas des hommes, mais des baleines ». Et pourtant, on vient tous de locéan.", "speaker_id": "0u7tTptBo9I", "start_timestamp": 17.25, "end_timestamp": 45.26, "index": 0 }

搜集汇总

数据集介绍

构建方式

在语音识别与机器翻译领域，多语言语料库的构建对推动跨语言技术发展至关重要。BrunoHays/multilingual-TEDX-fr数据集源自Multilingual TEDx语料库的法语子集，其构建过程基于TEDx演讲的公开录音材料。原始音频经过自动重采样至16 kHz采样率，确保与主流语音处理模型兼容。每个样本包含音频文件、对应文本转录、说话者标识及时间戳信息，数据被划分为训练集、测试集和验证集，遵循标准机器学习数据划分原则，为模型训练与评估提供结构化基础。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接加载，默认配置为single_samples，即每个样本独立处理。数据集适用于训练和评估法语自动语音识别模型，用户可依据音频路径、文本转录及时间戳信息构建定制化训练流程。验证集与测试集支持模型性能的客观衡量，说话者ID可用于说话人相关研究。由于音频已预处理好，无需额外重采样，可直接输入深度学习框架。该数据集亦可用于多语言对比研究或跨任务迁移学习，为语音技术探索提供多维度支持。

背景与挑战

背景概述

在语音识别与机器翻译领域，多语言语音数据的稀缺性长期制约着跨语言模型的发展。Multilingual TEDx数据集由约翰斯·霍普金斯大学等研究机构于2021年联合构建，其法语子集BrunoHays/multilingual-TEDX-fr聚焦于从TEDx演讲中提取高质量法语语音及其转写文本。该数据集旨在解决多语言环境下语音识别与翻译的协同建模问题，通过提供精确的时间戳与说话人标识，为端到端语音处理系统提供了关键训练资源，显著推动了低资源语言语音技术的进步。

当前挑战

该数据集致力于应对多语言语音识别与翻译中的核心挑战，包括口语化表达、领域多样性以及说话人风格差异导致的识别鲁棒性问题。在构建过程中，研究者需克服音频质量不均、背景噪音干扰以及法语方言变体带来的转写复杂性。此外，时间戳的精确对齐与大规模语音文本的同步标注，亦对数据处理流程提出了严峻的技术要求。

常用场景

经典使用场景

在自动语音识别领域，BrunoHays/multilingual-TEDX-fr数据集以其高质量的法语演讲音频与文本对齐数据，成为训练和评估端到端语音识别模型的经典资源。该数据集源自TEDx演讲，涵盖了丰富的口语表达风格和主题多样性，为模型提供了接近真实场景的语言输入，有效支撑了法语语音识别系统的性能优化与基准测试。

解决学术问题

该数据集解决了法语语音识别研究中数据稀缺与质量不均的学术挑战。通过提供大规模、多说话人、带精确时间戳的语音-文本对，它促进了低资源语言环境下声学模型与语言模型的联合训练，推动了跨语言语音识别迁移学习、口音适应以及噪声鲁棒性等前沿问题的探索，显著提升了法语语音技术研究的深度与广度。

实际应用

在实际应用中，BrunoHays/multilingual-TEDX-fr数据集被广泛用于开发智能语音助手、实时字幕生成系统和会议记录工具等法语语音处理产品。其高质量的演讲内容有助于提升系统在正式演讲、教育讲解等场景下的识别准确率，为法语地区的无障碍通信、在线教育及媒体内容自动化处理提供了可靠的技术基础。

数据集最近研究