five

VlogQA

收藏
arXiv2024-04-06 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2402.02655v2
下载链接
链接失效反馈
官方服务:
资源简介:
VlogQA是一个专注于越南口语的机器阅读理解数据集,由信息技术大学创建。该数据集包含10,076个基于YouTube视频转录文档的问答对,主要涉及食物和旅行主题。数据集的创建过程包括转录收集、问答对创建、数据集修改和质量保证四个主要阶段。VlogQA数据集旨在解决越南语口语阅读理解任务中的挑战,特别是在处理日常口语中的非正式语法和方言差异方面。

VlogQA is a machine reading comprehension dataset dedicated to Vietnamese spoken language, developed by the University of Information Technology. It comprises 10,076 question-answer pairs sourced from YouTube video transcripts, with the majority focusing on food and travel themes. The construction of the VlogQA dataset involves four core stages: transcript collection, question-answer pair creation, dataset refinement, and quality assurance. This dataset is designed to tackle the challenges inherent in Vietnamese spoken language machine reading comprehension tasks, especially those related to informal grammar and dialectal discrepancies in everyday spoken communication.
提供机构:
信息技术大学
创建时间:
2024-02-05
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作