MLRS/masri_test

Name: MLRS/masri_test
Creator: MLRS
Published: 2023-03-30 11:08:22
License: 暂无描述

Hugging Face2023-03-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MLRS/masri_test

下载链接

链接失效反馈

官方服务：

资源简介：

MASRI-TEST CORPUS数据集包含从马耳他大学YouTube频道提取的音频和转录文本，主要用于自动语音识别（ASR）任务。数据集的语言为马耳他语，包含1小时的音频，性别平衡，有17名男性和17名女性的录音。数据集仅包含测试集，共668个音频文件。数据集的创建由墨西哥国立自治大学和马耳他大学的团队合作完成，音频转录由马耳他大学的专家完成。数据集的使用受到CC-BY-NC-SA-4.0许可证的限制。

提供机构：

MLRS

原始信息汇总

数据集概述

数据集名称

MASRI-TEST CORPUS

数据集描述

MASRI-TEST CORPUS 包含从马耳他大学YouTube频道提取的马耳语音频和转录文本。数据集总时长为1小时，性别平衡，包含相同数量的男性和女性发言者。

语言

马耳语

数据集大小

小于1千条

数据来源

原始数据

许可

CC-BY-NC-SA-4.0

任务类别

自动语音识别

数据集结构

数据实例：每个实例包含音频ID、音频文件路径、音频数组、采样率、发言人ID、性别、持续时间和标准化文本。
数据字段：包括音频ID、音频信息、发言人ID、性别、持续时间和标准化文本。
数据分割：仅包含测试集，共有668个语音文件，来自17名男性和17名女性发言者，总时长1小时。

数据集创建

来源数据：数据选择和音频分割由CIEMPIESS-UNAM项目在墨西哥国立自治大学进行，音频转录和语料库编辑由MASRI团队在马耳他大学进行。
注释：音频转录由马耳他大学的专家母语者执行。
个人和敏感信息：数据集可能包含揭示发言人身份的名称，但录音来自公开的YouTube资源库。

使用数据注意事项

社会影响：数据集包含自发语音，对评估马耳语的声学模型有帮助。
偏见讨论：数据集旨在性别平衡，包含17名男性和17名女性发言者。
其他已知限制：MASRI团队和CIEMPIESS-UNAM项目不保证语料库的准确性或适合任何特定目的。

数据集管理

数据集管理员：Carlos Mena, Andrea De Marco, Claudia Borg
贡献者：感谢Alberto Templos Carbajal, Elena Vera和Angélica Gutiérrez对社会服务项目的支持。

5,000+

优质数据集

54 个

任务类型

进入经典数据集