albertvillanova/tmp-mention

Name: albertvillanova/tmp-mention
Creator: albertvillanova
Published: 2022-09-22 11:26:20
License: 暂无描述

Hugging Face2022-09-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/albertvillanova/tmp-mention

下载链接

链接失效反馈

官方服务：

资源简介：

MultiLingual LibriSpeech（MLS）数据集是一个适用于语音研究的大型多语言语料库。该数据集来源于LibriVox的朗读有声书，包含8种语言：英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语。该数据集可用于训练自动语音识别（ASR）模型，模型需要将音频文件转录为文本，常用的评估指标是词错误率（WER）。

提供机构：

albertvillanova

原始信息汇总

数据集概述：MultiLingual LibriSpeech

数据集描述

数据集总结

名称：Multilingual LibriSpeech (MLS)
类型：多语言语音数据集
来源：由LibriVox的读物衍生
语言：包含8种语言（英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语）
用途：适用于语音研究，特别是自动语音识别（ASR）和音频说话人识别

支持的任务和排行榜

任务：自动语音识别（ASR）、音频说话人识别
评估指标：词错误率（WER）
排行榜：可在Paperswithcode Leaderboard查看，根据WER排名

数据集结构

数据实例

描述：每个数据实例为音频文件及其对应的文本转录

数据字段

音频文件：包含语音数据
文本转录：音频内容的书面形式

数据分割

分割方式：数据集通常分为训练集、验证集和测试集

数据集创建

来源数据

原始数据：LibriVox的读物

注释

注释类型：音频文件的文本转录

个人和敏感信息

处理：数据集中不包含个人或敏感信息

使用数据的考虑

社会影响

影响：数据集的使用可能影响语音识别技术的发展

偏见讨论

讨论：数据集可能存在的语言和文化偏见

其他已知限制

限制：模型可能不支持快速标记器

附加信息

数据集管理者

管理者：未提供具体信息

许可信息

许可：CC-BY-4.0

引用信息

引用：未提供具体信息

贡献

贡献：未提供具体信息

5,000+

优质数据集

54 个

任务类型

进入经典数据集