wav2gloss/NINJAL-Ainu-Folklore
收藏Hugging Face2023-03-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wav2gloss/NINJAL-Ainu-Folklore
下载链接
链接失效反馈官方服务:
资源简介:
阿伊努语是一种在日本北海道使用的濒危语言(几乎灭绝)。该数据集包含两位阿伊努语使用者(木村喜美夫人和伊藤小田夫人)录制的38个传统阿伊努民间故事的录音,以及它们的拉丁字母转录、英文翻译和英文的底层和表层注释形式。总共有超过8小时(约7700个句子)的转录和注释语音。数据集中的注释是基于原始注释的,并进行了少量修改以适应通用注释格式。数据集的局限性包括说话者数量少、领域有限,以及音频数据中的噪声问题,这使得该数据集不适合用于训练TTS模型。
阿伊努语是一种在日本北海道使用的濒危语言(几乎灭绝)。该数据集包含两位阿伊努语使用者(木村喜美夫人和伊藤小田夫人)录制的38个传统阿伊努民间故事的录音,以及它们的拉丁字母转录、英文翻译和英文的底层和表层注释形式。总共有超过8小时(约7700个句子)的转录和注释语音。数据集中的注释是基于原始注释的,并进行了少量修改以适应通用注释格式。数据集的局限性包括说话者数量少、领域有限,以及音频数据中的噪声问题,这使得该数据集不适合用于训练TTS模型。
提供机构:
wav2gloss
原始信息汇总
数据集概述:NINJAL Ainu Folklore
数据集描述
数据集总结
- 语言:Ainu(濒危语言,几乎灭绝)
- 地点:日本北海道
- 内容:包含38个传统Ainu民间故事的录音,由两位Ainu演讲者(Kimi Kimura女士和Ito Oda女士)讲述。
- 附加信息:包括拉丁字母转录、英语翻译和英文字母的底层及表面注释。总共有超过8小时(约7.7k句子)的转录和注释语音。
注释
- 注释格式:使用Generalized Glossing Format,与原始Glossed Audio Corpus的注释相比有少量更改。
- 不确定性标记:原始注释者的不确定性用问号(?)表示。
额外信息
限制
- 演讲者数量:有限
- 适用范围:有限,不适合通用目的应用。
- 音频质量:包含不同程度的噪音,不适合用于训练TTS模型。
许可证
- 类型:Attribution-ShareAlike 4.0 International (cc-by-sa-4.0)
原始来源
- 标题:A Glossed Audio Corpus of Ainu Folklore
- 作者:Nakagawa, Hiroshi; Bugaeva, Anna; Kobayashi, Miki; Yoshikawa, Yoshimi
- 发布机构:The National Institute for Japanese Language and Linguistics (NINJAL)
- 时间范围:2016-2021



