five

KenSwQuAD

收藏
arXiv2023-07-09 更新2024-07-24 收录
下载链接:
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/OTL0LM
下载链接
链接失效反馈
官方服务:
资源简介:
KenSwQuAD是一个针对斯瓦希里语这种低资源语言的问答数据集,由内罗毕大学的研究团队开发。该数据集包含1,445个文本,每个文本至少有5个问答对,总计7,526个问答对。数据来源于Kencorpus项目收集的斯瓦希里语故事文本,通过人工标注形成问答对。KenSwQuAD旨在支持机器对自然语言的理解,特别是在互联网搜索和对话系统等任务中。该数据集的创建不仅丰富了斯瓦希里语的语言资源,也为低资源语言的研究提供了宝贵的数据支持。

KenSwQuAD is a question answering dataset for Swahili, a low-resource language, developed by a research team at the University of Nairobi. It consists of 1,445 text passages, each with a minimum of 5 question-answer pairs, resulting in a total of 7,526 question-answer pairs. The data is sourced from Swahili narrative texts collected under the Kencorpus project, with question-answer pairs generated via manual annotation. KenSwQuAD aims to support machine natural language understanding, particularly for tasks such as web search and dialogue systems. The development of this dataset not only enriches the linguistic resources of Swahili but also provides valuable data support for research on low-resource languages.
提供机构:
内罗毕大学
创建时间:
2022-05-05
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作