five

ZMaxwell-Smith/OIL

收藏
Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZMaxwell-Smith/OIL
下载链接
链接失效反馈
官方服务:
资源简介:
在线印度尼西亚学习(OIL)数据集目前包含三位印度尼西亚教师在YouTube上发布的课程内容。数据集中的视频以mp4和wav格式提供,部分课程配有ELAN文件,包含人类和机器生成的文字转录。几乎所有视频都包含多种语言的混合,有些视频主要使用印度尼西亚语或英语,有些则专注于印度尼西亚语的变体或其他语言的词汇。

在线印度尼西亚学习(OIL)数据集目前包含三位印度尼西亚教师在YouTube上发布的课程内容。数据集中的视频以mp4和wav格式提供,部分课程配有ELAN文件,包含人类和机器生成的文字转录。几乎所有视频都包含多种语言的混合,有些视频主要使用印度尼西亚语或英语,有些则专注于印度尼西亚语的变体或其他语言的词汇。
提供机构:
ZMaxwell-Smith
原始信息汇总

数据集概述

数据集名称

The Online Indonesian Learning (OIL) Dataset

数据集内容

  • 包含来自三位印度尼西亚教师的YouTube课程内容。
  • 部分课程提供mp4和wav格式的视频副本。
  • 精选课程包含匹配的ELAN文件,提供人工和人工/机器生成的正字法转录,以及仅机器推断的tiers。

语言使用

  • 几乎所有视频都包含多种语言,部分视频主要使用印度尼西亚语或英语。
  • 一些视频专注于印度尼西亚语的变体或从其他语言混合到印度尼西亚语中的词汇。

引用信息

请使用以下.bib条目引用此数据集:

{@inproceedings{Maxwell-Smith_Foley_2023_Automated, title={{Automated speech recognition of Indonesian-English language lessons on YouTube using transfer learning}}, author={Maxwell-Smith, Zara and Foley, Ben}, booktitle={Proceedings of the {Second Workshop on NLP Applications to Field Linguistics (EACL)}}, pages={}, year={forthcoming} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作