albertvillanova/tmp-mention
收藏Hugging Face2022-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/albertvillanova/tmp-mention
下载链接
链接失效反馈官方服务:
资源简介:
MultiLingual LibriSpeech(MLS)数据集是一个适用于语音研究的大型多语言语料库。该数据集来源于LibriVox的朗读有声书,包含8种语言:英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语。该数据集可用于训练自动语音识别(ASR)模型,模型需要将音频文件转录为文本,常用的评估指标是词错误率(WER)。
提供机构:
albertvillanova
原始信息汇总
数据集概述:MultiLingual LibriSpeech
数据集描述
数据集总结
- 名称:Multilingual LibriSpeech (MLS)
- 类型:多语言语音数据集
- 来源:由LibriVox的读物衍生
- 语言:包含8种语言(英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语)
- 用途:适用于语音研究,特别是自动语音识别(ASR)和音频说话人识别
支持的任务和排行榜
- 任务:自动语音识别(ASR)、音频说话人识别
- 评估指标:词错误率(WER)
- 排行榜:可在Paperswithcode Leaderboard查看,根据WER排名
数据集结构
数据实例
- 描述:每个数据实例为音频文件及其对应的文本转录
数据字段
- 音频文件:包含语音数据
- 文本转录:音频内容的书面形式
数据分割
- 分割方式:数据集通常分为训练集、验证集和测试集
数据集创建
来源数据
- 原始数据:LibriVox的读物
注释
- 注释类型:音频文件的文本转录
个人和敏感信息
- 处理:数据集中不包含个人或敏感信息
使用数据的考虑
社会影响
- 影响:数据集的使用可能影响语音识别技术的发展
偏见讨论
- 讨论:数据集可能存在的语言和文化偏见
其他已知限制
- 限制:模型可能不支持快速标记器
附加信息
数据集管理者
- 管理者:未提供具体信息
许可信息
- 许可:CC-BY-4.0
引用信息
- 引用:未提供具体信息
贡献
- 贡献:未提供具体信息



