thennal/IMaSC

Name: thennal/IMaSC
Creator: thennal
Published: 2022-12-08 17:21:02
License: 暂无描述

Hugging Face2022-12-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/thennal/IMaSC

下载链接

链接失效反馈

官方服务：

资源简介：

IMaSC是由ICFOSS提供的马拉雅拉姆语文本和语音语料库，旨在开发马拉雅拉姆语的语音技术，特别是文本到语音转换。该数据集包含34,473个文本-音频对，由8位发言人朗读，总计约50小时的音频。数据集的文本来源于马拉雅拉姆语维基百科，发言人在工作室条件下朗读，并经过广泛的错误校正以确保数据的准确性和清洁度。数据集的结构包括文本、发言人和音频三个字段，音频为单声道，采样率为16kHz。所有数据都包含在一个训练分割中。

提供机构：

thennal

原始信息汇总

ICFOSS Malayalam Speech Corpus (IMaSC) 数据集概述

数据集基本信息

名称: ICFOSS Malayalam Speech Corpus (IMaSC)
语言: 马拉雅拉姆语 (ml)
许可证: Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
多语言性: 单语种
数据集大小: 10,000 < n < 100,000
数据来源: 原创数据集
任务类别:
- 文本到语音转换
- 自动语音识别

数据集描述

内容: 包含34,473个马拉雅拉姆语句子的文本-音频对，由8位不同年龄和性别的演讲者朗读，总时长约50小时。
结构: 数据集包含字段 text (文本)，speaker (演讲者)，和 audio (音频)。音频为单声道，采样率为16kHz。
数据实例: 每个实例包括文本转录、演讲者信息和音频数据。
数据分割: 所有数据作为一个 train 分割提供。

数据集创建

文本来源: 马拉雅拉姆语维基百科
录音条件: 专业录音室
质量控制: 经过广泛错误校正，确保数据库的准确性和清洁度。

联系信息

联系人: Thennal D K (thennal10@gmail.com)

引用信息

@misc{gopinath2022imasc, title={IMaSC -- ICFOSS Malayalam Speech Corpus}, author={Deepa P Gopinath and Thennal D K and Vrinda V Nair and Swaraj K S and Sachin G}, year={2022}, eprint={2211.12796}, archivePrefix={arXiv}, primaryClass={cs.SD} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集