LIUM/tedlium

Hugging Face2024-09-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LIUM/tedlium

下载链接

链接失效反馈

资源简介：

TED-LIUM语料库包含英语TED演讲的音频和转录文本，采样率为16kHz。该语料库有三个版本，分别包含118小时、207小时和452小时的转录语音数据。数据集主要用于自动语音识别（ASR）任务，模型需要将音频文件转录为文本。数据集的结构包括音频文件路径、解码后的音频数组、采样率、转录文本、说话者性别、唯一ID和说话者ID等信息。数据集的创建是为了支持国际口语翻译研讨会（IWSLT）2011评估活动。

The TED-LIUM corpus contains audio recordings and transcriptions of English TED Talks, with a sampling rate of 16 kHz. This corpus has three versions, containing 118 hours, 207 hours, and 452 hours of transcribed speech data respectively. This dataset is primarily used for automatic speech recognition (ASR) tasks, where models are required to transcribe audio files into text. The dataset structure includes information such as audio file paths, decoded audio arrays, sampling rate, transcriptions, speaker genders, unique IDs, and speaker IDs. This dataset was created to support the International Workshop on Spoken Language Translation (IWSLT) 2011 evaluation campaign.

提供机构：

LIUM

原始信息汇总

数据集概述

数据集名称

名称: TED-LIUM
别名: tedlium

数据集基本信息

语言: 英语 (en)
多语言性: 单语
大小: 10,000 < n < 100,000
来源: 原始数据
任务类别: 自动语音识别

数据集内容

内容描述: TED-LIUM 包含英语语言的 TED 演讲，采样率为 16kHz，带有转录文本。该数据集的三个版本分别包含 118 至 452 小时的转录语音数据。
支持任务: 自动语音识别 (ASR)，用于训练模型将音频文件转录为书面文本。评估指标为词错误率 (WER)。

数据集结构

数据实例: 每个实例包含音频文件的路径、解码后的音频数组、采样率、转录文本、说话者性别、唯一标识符和说话者ID。
数据字段:
- audio: 包含音频文件路径、解码音频数组和采样率。
- file: 音频文件路径。
- text: 音频文件的转录文本。
- gender: 说话者性别。
- id: 数据样本的唯一ID。
- speaker_id: 说话者的唯一ID。
数据分割: 数据集分为三个版本，每个版本包含训练、验证和测试集，数据量逐渐增加。

数据集创建

采集理由: 用于 The International Workshop on Spoken Language Translation (IWSLT) 2011 Evaluation Campaign，专注于公共演讲的自动翻译。
源数据: 数据来自公开的 TED 演讲，使用内部工具进行语音和文本的对齐处理。
许可证: 创意共享 BY-NC-ND 3.0 (http://creativecommons.org/licenses/by-nc-nd/3.0/deed.en)

引用信息

Release 1: Rousseau, Anthony et al. (2012)
Release 2: Rousseau, Anthony et al. (2014)
Release 3: Hernandez, François et al. (2018)

AI搜集汇总

数据集介绍

构建方式

TED-LIUM数据集的构建基于对公开可获得的TED演讲视频的采集。该数据集通过使用内部开发的演讲者分段和聚类工具（LIUM_SpkDiarization）生成语音与转录文本之间的准确对齐。在处理过程中，对演讲中的不流畅表达如重复、犹豫和错误开始进行了特定的处理，以确保转录的准确性。数据集分为三个版本，分别包含118小时、207小时和452小时的转录演讲数据，每个版本都包括训练、验证和测试集。

特点

该数据集的特点在于其包含了经过专家精确转录的英语TED演讲，采样率为16kHz。数据集的构建旨在服务于自动语音识别任务，并提供了不同规模的版本以满足不同需求。此外，数据集包含了演讲者的性别信息，以及唯一的数据样本和演讲者标识，便于追踪和分析。Release 2和Release 3还提供了发音词典和用于语言模型训练的单语数据。

使用方法

使用TED-LIUM数据集时，用户可以通过HuggingFace的datasets库加载不同版本的发布。数据集提供了音频路径、解码音频数组、采样率、转录文本、演讲者性别、唯一标识等信息。用户可以按照需求访问音频样本和对应的转录文本，同时注意在处理大量音频文件时，解码和重采样可能需要较长时间。数据集适用于自动语音识别模型的训练和评估，可通过 leaderboard追踪模型性能。

背景与挑战

背景概述

TED-LIUM语料库的构建起源于2011年国际口语翻译研讨会（IWSLT 2011 Evaluation Campaign），旨在为自动语音识别（ASR）领域提供专业的语料资源。该数据集由法国里昂大学（Université Lumière Lyon 2）的研究团队负责创建，包含了经过专家转录的英语TED演讲，采样率为16kHz。自从首次发布以来，该数据集已经历三次版本迭代，从118小时扩展至452小时的转录语音数据，为自动语音识别、语音翻译等研究任务提供了丰富的训练和测试材料，对相关领域产生了显著影响。

当前挑战

在构建过程中，TED-LIUM数据集面临的主要挑战包括：确保音频与转录文本的精确对齐，处理口语中的不流畅现象（如重复、犹豫和错误起始），以及在大规模数据集上的高效处理和存储。此外，数据集在领域问题解决上也存在挑战，例如提高语音识别模型的准确率、降低词错误率（WER），以及在多发音和口音环境下的模型泛化能力。

常用场景

经典使用场景

在自动语音识别（ASR）领域，TED-LIUM数据集的典型应用场景是训练语音识别模型，以实现音频到文本的转换。该数据集提供了经过专家转录的TED演讲音频，使得研究者可以构建和评估模型在真实世界演讲中的表现，进而优化模型的准确率和鲁棒性。

实际应用

在实际应用中，基于TED-LIUM数据集训练的语音识别技术可广泛应用于语音助手、字幕生成、会议记录自动整理等多个领域。这些技术的应用极大提高了信息获取的效率，并有助于构建更加便捷、智能的信息交流环境。

衍生相关工作

TED-LIUM数据集衍生的相关工作涵盖了语音识别模型的改进、跨语种语音识别的研究以及 speaker adaptation 等先进技术的探索。这些研究不仅提升了语音识别技术的整体水平，也为相关领域的学术交流和技术发展贡献了重要力量。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集