facebook/multilingual_librispeech|语音识别数据集|多语言处理数据集

hugging_face2024-06-12 更新2024-03-04 收录

语音识别

多语言处理

下载链接：

https://hf-mirror.com/datasets/facebook/multilingual_librispeech

下载链接

链接失效反馈

资源简介：

MultiLingual LibriSpeech是一个适用于语音研究的大型多语言语料库，源自LibriVox的有声读物，包含英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语等8种语言。该数据集支持自动语音识别和说话人识别任务，并提供了一个活跃的leaderboard来评估模型的性能。数据集结构包括音频文件路径、转录文本、说话人ID和章节ID等字段，并详细说明了如何使用`datasets`库加载和处理数据。

提供机构：

facebook

原始信息汇总

数据集概述

数据集名称

名称: MultiLingual LibriSpeech
别名: MLS

数据集描述

摘要: MultiLingual LibriSpeech (MLS) 是一个适用于语音研究的大型多语言语料库，源自LibriVox的朗读有声书，包含8种语言：英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语。
语言: 德语、荷兰语、法语、意大利语、西班牙语、葡萄牙语、波兰语
许可证: CC-BY-4.0
多语言性: 多语言
大小: 100K<n<1M
源数据集: 原始数据
任务类别: 自动语音识别

数据集结构

数据实例: 每个数据点包含音频文件路径（file）及其转录文本（text），以及说话者信息和章节信息。
数据字段:
- file: 音频文件名，格式为.flac。
- audio: 包含音频文件名、解码后的音频数组和采样率。
- text: 音频文件的转录文本。
- id: 数据样本的唯一ID。
- speaker_id: 说话者的唯一ID。
- chapter_id: 包含转录的音频书章节的ID。
数据分割: 数据集被分割为训练集、开发集和测试集，不同语言的数据量有所不同。

使用方法

使用datasets库可以加载和预处理数据集。数据集可以通过load_dataset函数下载并准备到本地驱动器。
示例代码展示了如何加载特定语言配置的数据集，并支持流式加载。

支持的任务和排行榜

任务: 自动语音识别、说话者识别
评估指标: 词错误率（WER）
排行榜: 可在Papers With Code查看，根据WER排名。

数据集创建

许可证信息: 遵循Creative Commons Attribution 4.0 International Public License (CC-BY-4.0)。
引用信息: 引用时请使用提供的文献信息。
贡献者: 感谢@patrickvonplaten和@polinaeterna的贡献。

AI搜集汇总

数据集介绍

构建方式

MultiLingual LibriSpeech数据集的构建基于LibriVox项目中的有声读物，涵盖了8种语言，包括英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语。数据集的音频文件和对应的转录文本由专家生成，部分语言的转录工作通过众包完成。数据集的结构经过重新组织，以便于流式加载，同时保留了原始音频文件的详细信息，如音频时长、说话者ID和章节ID等。

使用方法

使用MultiLingual LibriSpeech数据集时，可以通过Hugging Face的`datasets`库进行加载和预处理。用户可以选择特定的语言配置（如德语、法语等），并通过`load_dataset`函数下载数据集。此外，数据集支持流式加载，用户可以在不下载整个数据集的情况下逐个加载样本。数据集还提供了与PyTorch的集成，用户可以直接创建PyTorch数据加载器，便于在深度学习模型中使用。

背景与挑战

背景概述

MultiLingual LibriSpeech（MLS）数据集是由Facebook AI研究院于2020年发布的一个大规模多语言语音数据集，旨在推动自动语音识别（ASR）和文本到语音（TTS）等领域的研究。该数据集源自LibriVox项目中的有声读物，涵盖了英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语等8种语言，总计约6000小时的语音数据。MLS数据集的发布为多语言语音处理研究提供了丰富的资源，尤其在跨语言语音识别和多语言语音合成方面具有重要意义。

当前挑战

MLS数据集在构建过程中面临多重挑战。首先，多语言数据的整合与标注需要克服语言间的差异，确保数据质量的一致性。其次，数据集的规模庞大，处理和存储这些数据对计算资源提出了较高要求。此外，不同语言的语音特性各异，如何在模型训练中有效处理这些差异也是一个重要挑战。最后，数据集的使用需考虑隐私保护问题，确保不泄露说话者的个人信息。

常用场景

经典使用场景

MultiLingual LibriSpeech数据集的经典使用场景主要集中在自动语音识别（ASR）和文本到语音（TTS）任务上。该数据集包含多种语言的语音和对应的文本转录，适用于训练和评估多语言语音识别模型。通过使用该数据集，研究者可以开发出能够在多种语言环境下工作的语音识别系统，从而推动跨语言语音技术的进步。

解决学术问题

MultiLingual LibriSpeech数据集解决了多语言语音识别中的关键学术问题，如跨语言语音识别模型的训练和评估。该数据集通过提供多种语言的语音和文本对，使得研究者能够探索如何在不同语言之间共享和迁移语音识别知识，从而提高模型的泛化能力和鲁棒性。这对于推动多语言语音识别技术的发展具有重要意义。

实际应用

MultiLingual LibriSpeech数据集在实际应用中具有广泛的潜力，特别是在多语言语音识别和语音合成领域。例如，它可以用于开发支持多种语言的智能语音助手、语音翻译系统以及语音到文本的转录服务。这些应用不仅能够提升用户体验，还能在跨文化交流和全球市场中发挥重要作用。

数据集最近研究

最新研究方向

在多语言语音识别领域，facebook/multilingual_librispeech数据集的最新研究方向主要集中在提升跨语言语音识别的准确性和鲁棒性。该数据集涵盖了多种语言，为研究人员提供了丰富的资源，以探索如何在不同语言之间共享和迁移语音识别模型。前沿研究包括多语言模型的联合训练、跨语言知识迁移以及低资源语言的语音识别增强。这些研究不仅推动了语音识别技术的发展，还为全球范围内的语音技术应用提供了更广泛的支持，尤其是在资源有限的环境中。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

FEVER

FEVER（Fact Extraction and VERification）数据集是一个用于事实验证任务的数据集，包含超过185,000个标注的声明，这些声明需要从维基百科中提取证据进行验证。数据集的目标是帮助开发和评估自动事实验证系统。

fever.ai 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。