five

junyinc/NINJAL-Ainu-Folklore|濒危语言数据集|民间故事数据集

收藏
hugging_face2023-05-24 更新2024-03-04 收录
濒危语言
民间故事
下载链接:
https://hf-mirror.com/datasets/junyinc/NINJAL-Ainu-Folklore
下载链接
链接失效反馈
资源简介:
阿伊努语是一种在日本北海道使用的濒危语言(几乎灭绝)。该数据集包含两位阿伊努语使用者(木村喜美夫人和伊藤小田夫人)讲述的38个传统阿伊努民间故事的录音,以及它们的拉丁字母转录、英文翻译和英文的底层及表层注释形式。(关于片假名转录和日文翻译/注释,请参见原始语料库网页。)总共有超过8小时(约7.7千句)的转录和注释语音。

阿伊努语是一种在日本北海道使用的濒危语言(几乎灭绝)。该数据集包含两位阿伊努语使用者(木村喜美夫人和伊藤小田夫人)讲述的38个传统阿伊努民间故事的录音,以及它们的拉丁字母转录、英文翻译和英文的底层及表层注释形式。(关于片假名转录和日文翻译/注释,请参见原始语料库网页。)总共有超过8小时(约7.7千句)的转录和注释语音。
提供机构:
junyinc
原始信息汇总

数据集概述:NINJAL Ainu Folklore

数据集描述

数据集总结

  • 语言: Ainu语,一种濒危(几乎灭绝)的语言,主要在日本北海道使用。
  • 内容: 包含38个传统Ainu民间故事的录音,由两位Ainu演讲者(Kimi Kimura女士和Ito Oda女士)讲述。
  • 附加信息: 提供这些故事的拉丁文转录、英文翻译以及英文的底层和表面注释。总共有超过8小时(约7.7k句子)的转录和注释语音。

注释

  • 注释格式: 使用Generalized Glossing Format,对原始注释进行了微调,如多词翻译现在用下划线分隔。
  • 不确定性标记: 原始注释者的不确定性用问号表示。

附加信息

限制

  • 演讲者数量: 数据集中的演讲者数量较少。
  • 领域限制: 数据集的领域有限,可能不适合通用目的的应用。
  • 音频质量: 音频数据包含不同程度的噪音,不适合用于训练TTS模型。

许可证

  • 许可证: Attribution-ShareAlike 4.0 International (cc-by-sa-4.0)
AI搜集汇总
数据集介绍
main_image_url
构建方式
NINJAL-Ainu-Folklore数据集的构建,是基于对日本北海道地区濒危语言Ainu民间故事的录音及其转录文本。该数据集搜集了两位Ainu语讲述者(Kimi Kimura女士和Ito Oda女士)讲述的38个传统民间故事,包含了拉丁字母转录、英译以及英语的底层和表层注释形式。总时长超过8小时,包含大约7.7k个句子,注释采用了通用的注释格式,并对原始注释进行了细微调整以适配。
特点
该数据集的特色在于,它不仅提供了Ainu民间故事的语音记录,还包含了详尽的转录和多种语言的翻译注释,为语言学研究、尤其是濒危语言的保护与研究提供了珍贵的资源。尽管数据集的讲述者数量有限,且主题域相对集中,但其丰富的注释形式和高质量的内容,为特定领域的应用提供了独到的研究价值。
使用方法
使用NINJAL-Ainu-Folklore数据集时,研究者需遵循Creative Commons BY-SA 4.0国际许可协议。该数据集适用于对Ainu语言及民间故事进行语音识别、自然语言处理和机器翻译等研究。用户在利用数据集时,应注意到音频数据中存在不同程度的噪声,这可能会对训练文本到语音合成模型(TTS)的适用性造成影响,因此在使用前应对数据集进行相应的预处理和质量控制。
背景与挑战
背景概述
NINJAL-Ainu-Folklore数据集是一项专注于阿伊努族民间传说的语言资源,该数据集的创建旨在保存这一濒临灭绝的语言及其文化遗产。阿伊努语是日本北海道地区的一种几乎灭绝的语言,该数据集由日本国立日语研究所(NINJAL)的Nakagawa Hiroshi等研究人员于2016年至2021年间整理完成,包含了两名阿伊努族讲述者Kimi Kimura和Ito Oda的38个传统民间故事录音,以及相应的拉丁字母转录、英文翻译和英文化释文本。该数据集不仅为语言学研究提供了珍贵的一手材料,也为文化人类学、社会学等多个领域的研究提供了支持。
当前挑战
尽管NINJAL-Ainu-Folklore数据集具有重要的研究价值,但也面临着一系列挑战。首先,数据集中讲述者的数量有限,且内容领域特定,这限制了模型在通用应用场景中的适用性。其次,音频数据中的噪声水平不一,这对训练文本到语音(TTS)模型构成了挑战。此外,由于数据集的规模和多样性有限,因此在构建过程中确保转录和翻译的准确性、一致性也具有一定的难度。在使用该数据集时,研究人员需注意其局限性,并在可能的情况下进行适当的预处理和模型调整。
常用场景
经典使用场景
在语言学与人类学领域,NINJAL-Ainu-Folklore数据集的经典使用场景主要涉及对阿伊努语的语音、语法及文化背景的深入研究。该数据集提供了丰富的语音记录与注解,为学者提供了研究阿伊努语这一濒危语言的珍贵资料,有助于通过语音识别与自然语言处理技术,挖掘阿伊努语的独特性及其与日语等语言的联系。
衍生相关工作
基于NINJAL-Ainu-Folklore数据集,衍生出了多项相关研究工作,包括对阿伊努语的语音识别算法改进、跨语言信息检索系统的开发,以及对阿伊努语言文化背景的深入分析等,这些研究进一步拓宽了该数据集的应用领域,丰富了濒危语言研究的方法论。
数据集最近研究
最新研究方向
鉴于NINJAL-Ainu-Folklore数据集是关于濒临灭绝的Ainu语言的珍贵录音与转录资料,近年来该数据集在语言学与计算语言学领域的研究方向主要集中在语言保存、自然语言处理和跨文化交流等方面。学者们致力于探索如何利用这一独特资源进行语言模型的训练,以促进Ainu语言的数字化保存和智能化理解。同时,该数据集也被用于研究Ainu文化与社会结构,进而揭示语言、文化与社会之间的相互影响。这些研究对于Ainu语言的保护与传承,以及对于全球语言多样性的维护具有重要的现实意义和深远的历史影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国车牌识别数据集(7类,33万张)

这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录