ZMaxwell-Smith/OIL
收藏Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZMaxwell-Smith/OIL
下载链接
链接失效反馈官方服务:
资源简介:
在线印度尼西亚学习(OIL)数据集目前包含三位印度尼西亚教师在YouTube上发布的课程内容。数据集中的视频以mp4和wav格式提供,部分课程配有ELAN文件,包含人类和机器生成的文字转录。几乎所有视频都包含多种语言的混合,有些视频主要使用印度尼西亚语或英语,有些则专注于印度尼西亚语的变体或其他语言的词汇。
在线印度尼西亚学习(OIL)数据集目前包含三位印度尼西亚教师在YouTube上发布的课程内容。数据集中的视频以mp4和wav格式提供,部分课程配有ELAN文件,包含人类和机器生成的文字转录。几乎所有视频都包含多种语言的混合,有些视频主要使用印度尼西亚语或英语,有些则专注于印度尼西亚语的变体或其他语言的词汇。
提供机构:
ZMaxwell-Smith
原始信息汇总
数据集概述
数据集名称
The Online Indonesian Learning (OIL) Dataset
数据集内容
- 包含来自三位印度尼西亚教师的YouTube课程内容。
- 部分课程提供mp4和wav格式的视频副本。
- 精选课程包含匹配的ELAN文件,提供人工和人工/机器生成的正字法转录,以及仅机器推断的tiers。
语言使用
- 几乎所有视频都包含多种语言,部分视频主要使用印度尼西亚语或英语。
- 一些视频专注于印度尼西亚语的变体或从其他语言混合到印度尼西亚语中的词汇。
引用信息
请使用以下.bib条目引用此数据集:
{@inproceedings{Maxwell-Smith_Foley_2023_Automated, title={{Automated speech recognition of Indonesian-English language lessons on YouTube using transfer learning}}, author={Maxwell-Smith, Zara and Foley, Ben}, booktitle={Proceedings of the {Second Workshop on NLP Applications to Field Linguistics (EACL)}}, pages={}, year={forthcoming} }



