MLRS/masri_dev

Name: MLRS/masri_dev
Creator: MLRS
Published: 2024-08-03 18:54:09
License: 暂无描述

Hugging Face2024-08-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MLRS/masri_dev

下载链接

链接失效反馈

官方服务：

资源简介：

MASRI-DEV CORPUS是从马耳他大学YouTube频道提取的音频和转录文本数据集，主要用于自动语音识别（ASR）任务的开发和验证。数据集包含1小时的音频，性别平衡，包含9名男性和9名女性的录音。音频文件以16kHz@16bit单声道格式存储，转录文本为小写，仅允许使用破折号和撇号。数据集的创建涉及墨西哥国立自治大学和马耳他大学的合作，音频转录由马耳他大学的专家完成。数据集的使用受到CC-BY-NC-SA-4.0许可证的限制，并且强调了数据集中可能包含的个人信息问题。

提供机构：

MLRS

原始信息汇总

数据集概述

数据集名称

MASRI-DEV CORPUS

数据集描述

摘要：MASRI-DEV CORPUS包含从马耳他大学的YouTube频道提取的马耳他语音频和转录。数据集总时长为1小时，性别平衡，包含相同数量的男性和女性发言者。
语言：马耳他语（Maltese）
许可证：CC-BY-NC-SA-4.0
多语言性：单语种
数据集大小：小于1000条
源数据：原始数据
标签：masri, maltese, masri-project, malta, evaluation corpus, development corpus, dev
任务类别：自动语音识别

数据集结构

数据实例：每个实例包含音频ID、音频文件路径、音频数组、采样率、发言人ID、性别、持续时间和标准化文本转录。
数据字段：包括音频ID、音频信息、发言人ID、性别、持续时间和标准化文本。
数据分割：仅包含验证集，共有669个语音文件，来自9名男性和9名女性发言人，总时长1小时。

数据集创建

来源数据：数据选择和音频分割由CIEMPIESS-UNAM项目在墨西哥国立自治大学执行，音频转录和语料库编辑由MASRI团队在马耳他大学执行。
注释：音频转录由马耳他大学的专家本地发言人执行。
个人和敏感信息：数据集可能包含可识别发言者身份的名称，但所有录音来自公开的YouTube资源。

使用数据集的考虑

社会影响：数据集包含自发语音，有助于ASR社区验证其在马耳他语中的声学模型。
偏见讨论：数据集旨在性别平衡，包含9名男性和9名女性发言人。
其他已知限制：MASRI团队和CIEMPIESS-UNAM项目不保证语料库的准确性或其适用于任何特定目的。

附加信息

数据集管理员：Carlos Mena, Andrea De Marco, Claudia Borg
许可证信息：CC-BY-NC-SA-4.0
引用信息：请参考提供的引用信息进行正确引用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集