openslr/openslr|语音识别数据集|多语言数据集

hugging_face2024-01-18 更新2024-05-25 收录

语音识别

多语言

下载链接：

https://hf-mirror.com/datasets/openslr/openslr

下载链接

链接失效反馈

资源简介：

OpenSLR是一个专注于提供语音和语言资源的网站，主要包括用于语音识别的训练语料库及相关软件。该数据集支持多种语言，涵盖了从南非到亚洲的多种语言，如南非语、斯瓦希里语、泰米尔语等。每个数据集配置（如SLR32、SLR35等）都详细说明了所包含的语言、数据质量以及是否经过人工质量检查。数据集由Google等机构与各地大学合作收集，并根据Creative Commons Attribution-ShareAlike 4.0 International Public License进行分发。

提供机构：

openslr

原始信息汇总

数据集概述

数据集名称: OpenSLR

语言:

支持多种语言，包括但不限于：af, bn, ca, en, es, eu, gl, gu, jv, km, kn, ml, mr, my, ne, si, st, su, ta, te, tn, ve, xh, yo
BCP47语言代码示例: en-GB, en-IE, en-NG, es-CL, es-CO, es-PE, es-PR

许可证: cc-by-sa-4.0

多语言支持: 多语言

大小分类: 1K<n<10K

源数据集: 原始数据

任务类别: 自动语音识别

数据集结构

数据实例

特征:
- path: 数据路径，数据类型为字符串。
- audio: 音频数据，采样率为48000，数据类型为音频。
- sentence: 句子文本，数据类型为字符串。

数据分割

训练集:
- SLR41: 5822个样本，数据大小为2423902字节。
- SLR42: 2906个样本，数据大小为1427984字节。
- SLR43: 2064个样本，数据大小为1074005字节。
- SLR44: 4213个样本，数据大小为1776827字节。
- SLR63: 4126个样本，数据大小为2016587字节。
- SLR64: 1569个样本，数据大小为810375字节。
- SLR65: 4284个样本，数据大小为2136447字节。
- SLR66: 4448个样本，数据大小为1898335字节。
- SLR69: 4240个样本，数据大小为1647263字节。
- SLR35: 185076个样本，数据大小为73565374字节。
- SLR36: 219156个样本，数据大小为88942337字节。
- SLR70: 3359个样本，数据大小为1339608字节。
- SLR71: 4374个样本，数据大小为1676273字节。
- SLR72: 4903个样本，数据大小为1876301字节。
- SLR73: 5447个样本，数据大小为2084052字节。
- SLR74: 617个样本，数据大小为237395字节。
- SLR75: 3357个样本，数据大小为1286937字节。
- SLR76: 7136个样本，数据大小为2756507字节。
- SLR77: 5587个样本，数据大小为2217652字节。
- SLR78: 4272个样本，数据大小为2121986字节。
- SLR79: 4400个样本，数据大小为2176539字节。
- SLR80: 2530个样本，数据大小为1308651字节。
- SLR86: 3583个样本，数据大小为1378801字节。
- SLR32: 9821个样本，数据大小为4544052380字节。
- SLR52: 185293个样本，数据大小为77369899字节。
- SLR53: 218703个样本，数据大小为88073248字节。
- SLR54: 157905个样本，数据大小为62735822字节。
- SLR83: 17877个样本，数据大小为7098985字节。

数据集配置名称

SLR32, SLR35, SLR36, SLR41, SLR42, SLR43, SLR44, SLR52, SLR53, SLR54, SLR63, SLR64, SLR65, SLR66, SLR69, SLR70, SLR71, SLR72, SLR73, SLR74, SLR75, SLR76, SLR77, SLR78, SLR79, SLR80, SLR83, SLR86

AI搜集汇总

数据集介绍

构建方式

OpenSLR数据集的构建基于多语言和多领域的语音资源，涵盖了从高音质文本到语音识别训练数据等多种类型。数据集的收集过程涉及多个合作机构，如Google、North West University、Gadjah Mada University等，通过协作确保数据的高质量和多样性。每个子数据集（如SLR32、SLR35等）都包含波形文件和相应的文本转录文件，这些文件经过手动质量检查，尽管可能仍存在少量错误。数据集的构建旨在支持语音识别和文本到语音转换等任务，为研究者和开发者提供丰富的训练资源。

特点

OpenSLR数据集的主要特点在于其多语言和多领域的覆盖，支持包括南非语、爪哇语、高棉语、马拉雅拉姆语等多种语言。此外，数据集的高质量转录和音频文件，以及详细的元数据信息，使其成为语音识别和文本到语音转换研究的宝贵资源。数据集的多样性不仅体现在语言上，还包括不同类型的语音数据，如多说话者的高质量录音和大规模的自动语音识别训练数据。这些特点使得OpenSLR成为跨语言和跨领域语音技术研究的重要基石。

使用方法

使用OpenSLR数据集时，用户首先需要根据具体任务选择合适的子数据集，如SLR32、SLR35等。每个子数据集包含波形音频文件和对应的文本转录文件，用户可以通过这些文件进行语音识别或文本到语音转换的模型训练。数据集的结构清晰，便于数据加载和处理。用户可以通过HuggingFace等平台直接访问和下载数据集，利用Python等编程语言进行数据预处理和模型训练。此外，数据集的许可证允许用户在遵守Creative Commons Attribution-ShareAlike 4.0 International Public License的前提下自由使用和分发数据。

背景与挑战

背景概述

OpenSLR数据集是一个专注于托管语音和语言资源的平台，旨在为语音识别训练提供丰富的语料库及相关软件。该数据集由Google等机构合作创建，涵盖了多种语言的高质量转录音频数据，包括南非语、爪哇语、高棉语、马拉雅拉姆语等。其核心研究问题在于如何通过大规模、多语言的语音数据集来提升自动语音识别（ASR）和文本到语音合成（TTS）系统的性能。自创建以来，OpenSLR已成为语音识别领域的重要资源，推动了多语言语音技术的研究与应用。

当前挑战

OpenSLR数据集在构建过程中面临多项挑战。首先，多语言数据的收集和转录需要跨越不同文化和语言背景，确保数据的质量和一致性是一大难题。其次，数据集的规模和多样性要求高效的存储和处理技术，以应对海量音频文件的管理和分析。此外，确保数据隐私和安全，特别是在涉及个人语音数据时，也是一项重要挑战。最后，如何持续更新和扩展数据集，以反映语言和语音技术的最新发展，是保持其前沿性和实用性的关键。

常用场景

经典使用场景

OpenSLR数据集在语音识别和文本转语音（TTS）领域具有广泛的应用。其经典使用场景包括训练多语言语音识别模型，通过丰富的音频数据和对应的转录文本，提升模型对不同语言和方言的识别能力。此外，该数据集还可用于开发高质量的TTS系统，通过多说话人的音频数据，增强合成语音的自然度和多样性。

实际应用

在实际应用中，OpenSLR数据集被广泛用于开发智能语音助手、语音翻译系统和语音识别软件。例如，通过训练基于该数据集的模型，企业可以构建支持多种语言的语音识别系统，提升用户体验。此外，该数据集还可用于教育、医疗和客服等领域，通过语音技术提高服务效率和质量。

衍生相关工作

基于OpenSLR数据集，研究者们开展了多项经典工作，如多语言语音识别模型的优化、跨语言语音合成技术的研究等。这些工作不仅提升了语音识别和TTS的性能，还推动了相关领域的技术进步。例如，有研究利用该数据集开发了能够自动适应不同语言和方言的语音识别系统，显著提高了系统的鲁棒性和适用性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录