five

wav2gloss/NINJAL-Ainu-Folklore

收藏
Hugging Face2023-03-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wav2gloss/NINJAL-Ainu-Folklore
下载链接
链接失效反馈
官方服务:
资源简介:
阿伊努语是一种在日本北海道使用的濒危语言(几乎灭绝)。该数据集包含两位阿伊努语使用者(木村喜美夫人和伊藤小田夫人)录制的38个传统阿伊努民间故事的录音,以及它们的拉丁字母转录、英文翻译和英文的底层和表层注释形式。总共有超过8小时(约7700个句子)的转录和注释语音。数据集中的注释是基于原始注释的,并进行了少量修改以适应通用注释格式。数据集的局限性包括说话者数量少、领域有限,以及音频数据中的噪声问题,这使得该数据集不适合用于训练TTS模型。

阿伊努语是一种在日本北海道使用的濒危语言(几乎灭绝)。该数据集包含两位阿伊努语使用者(木村喜美夫人和伊藤小田夫人)录制的38个传统阿伊努民间故事的录音,以及它们的拉丁字母转录、英文翻译和英文的底层和表层注释形式。总共有超过8小时(约7700个句子)的转录和注释语音。数据集中的注释是基于原始注释的,并进行了少量修改以适应通用注释格式。数据集的局限性包括说话者数量少、领域有限,以及音频数据中的噪声问题,这使得该数据集不适合用于训练TTS模型。
提供机构:
wav2gloss
原始信息汇总

数据集概述:NINJAL Ainu Folklore

数据集描述

数据集总结

  • 语言:Ainu(濒危语言,几乎灭绝)
  • 地点:日本北海道
  • 内容:包含38个传统Ainu民间故事的录音,由两位Ainu演讲者(Kimi Kimura女士和Ito Oda女士)讲述。
  • 附加信息:包括拉丁字母转录、英语翻译和英文字母的底层及表面注释。总共有超过8小时(约7.7k句子)的转录和注释语音。

注释

  • 注释格式:使用Generalized Glossing Format,与原始Glossed Audio Corpus的注释相比有少量更改。
  • 不确定性标记:原始注释者的不确定性用问号(?)表示。

额外信息

限制

  • 演讲者数量:有限
  • 适用范围:有限,不适合通用目的应用。
  • 音频质量:包含不同程度的噪音,不适合用于训练TTS模型。

许可证

  • 类型:Attribution-ShareAlike 4.0 International (cc-by-sa-4.0)

原始来源

  • 标题:A Glossed Audio Corpus of Ainu Folklore
  • 作者:Nakagawa, Hiroshi; Bugaeva, Anna; Kobayashi, Miki; Yoshikawa, Yoshimi
  • 发布机构:The National Institute for Japanese Language and Linguistics (NINJAL)
  • 时间范围:2016-2021
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作