five

TigQA

收藏
github2024-05-11 更新2024-05-31 收录
下载链接:
https://github.com/hailaykidu/TigQA-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
TigQA是一个专家标注的提格里尼亚语问答数据集,该语言是一种低资源语言,约有1000万人在厄立特里亚和埃塞俄比亚的提格雷地区使用。该数据集包含2685个问答对,覆盖122个多样话题,如气候、水和交通。这些问答对来自537个公开可访问的提格里尼亚语和生物学书籍中的段落,答案由当地教师提供。

TigQA is an expert-annotated Tigrinya question-answering dataset, a low-resource language spoken by approximately 10 million people in the Tigray region of Eritrea and Ethiopia. The dataset comprises 2,685 question-answer pairs, covering 122 diverse topics such as climate, water, and transportation. These pairs are derived from 537 publicly accessible Tigrinya and biology book passages, with answers provided by local educators.
创建时间:
2023-09-20
原始信息汇总

数据集概述

名称: TIGQA

描述: TIGQA是一个专家标注的Tigrinya语言问答数据集,该语言主要在厄立特里亚和埃塞俄比亚的提格雷地区使用,约有1000万使用者。数据集包含2,685个问答对,覆盖122个多样化的主题,如气候、水和交通。这些问答对来自537个公开可访问的Tigrinya和生物学书籍的段落,答案由当地教师提供。

数据集大小: 2,685个问答对

主题覆盖: 122个主题,包括气候、水、交通等

来源: 来自公开可访问的Tigrinya和生物学书籍的537个段落

答案提供者: 当地教师

访问方式: 数据集发布在Zenodo平台,以确保数据的安全和长期存储。

更新状态: 数据集即将在Zenodo平台公开可用,README文件将随之更新。

搜集汇总
数据集介绍
main_image_url
构建方式
TigQA数据集的构建基于专家注释,旨在为提格里尼亚语这一低资源语言提供高质量的问答数据。该数据集包含了2,685个问题-答案对,涵盖了122个多样化的主题,如气候、水和交通等。这些问题和答案来源于537个公开可访问的提格里尼亚语和生物学书籍中的段落,并由该地区的教师提供答案。通过这种方式,TigQA不仅丰富了提格里尼亚语的语料库,还为低资源语言的问答系统研究提供了宝贵的资源。
特点
TigQA数据集的主要特点在于其专家注释的高质量和多样性。首先,数据集包含了多种类型的问题,如以‘什么’和‘为什么’开头的问题占据了59.2%,而‘哪里’、‘哪个’和‘谁’等问题类型则占31.4%。其次,数据集的答案由当地教师提供,确保了答案的准确性和文化相关性。此外,TigQA还特别关注低资源语言的处理,为提格里尼亚语的问答系统研究提供了独特的视角和数据支持。
使用方法
TigQA数据集可以通过Zenodo平台进行访问,用户可以下载数据集并用于构建和评估提格里尼亚语的问答系统。在使用数据集时,用户可以参考README文件中提供的LaTeX代码,以便在文档中正确显示提格里尼亚语的Ge'ez脚本。通过使用polyglossia包和特定的字体设置,用户可以在LaTeX文档中无缝集成提格里尼亚语文本,从而确保在学术研究中准确呈现数据集的内容。
背景与挑战
背景概述
TigQA数据集是由Teklehaymanot等人于2024年创建的,旨在为低资源语言Tigrinya提供一个专家标注的问答数据集。Tigrinya是一种在厄立特里亚和埃塞俄比亚的提格雷地区约有1000万使用者的语言。该数据集包含2685个问答对,涵盖122个多样化的主题,如气候、水和交通,这些问答对来自537个公开可访问的Tigrinya和生物学书籍的段落。TigQA的创建不仅填补了Tigrinya语言在自然语言处理领域的空白,还为低资源语言的问答系统研究提供了宝贵的资源。
当前挑战
TigQA数据集的构建面临多重挑战。首先,作为低资源语言,Tigrinya的语料库稀缺,导致数据收集和标注过程复杂且耗时。其次,由于Tigrinya使用的是Ge'ez脚本,将其整合到LaTeX等文档处理工具中存在技术难题,需要特定的字体和编译器设置。此外,确保数据集的多样性和代表性,以及在不同教育背景的教师间保持标注一致性,也是构建过程中需要克服的挑战。这些挑战不仅影响了数据集的构建效率,也对后续的研究和应用提出了更高的技术要求。
常用场景
经典使用场景
TigQA数据集在低资源语言处理领域中展现了其独特的价值,尤其是在Tigrinya语言的问答系统构建中。该数据集包含了2,685个专家标注的问答对,涵盖了气候、水资源、交通等122个多样化的主题。这些数据来源于537个公开可获取的Tigrinya和生物学书籍中的段落,由当地教师提供答案。通过这些丰富的问答对,研究者可以训练和评估问答模型,特别是在处理低资源语言时,提升模型的准确性和鲁棒性。
解决学术问题
TigQA数据集的推出,填补了低资源语言问答数据集的空白,为学术界提供了一个宝贵的研究资源。该数据集不仅解决了低资源语言在自然语言处理(NLP)领域中数据稀缺的问题,还为跨语言问答系统的研究提供了新的视角。通过TigQA,研究者可以探索如何在资源有限的情况下,构建高效、准确的问答系统,这对于推动NLP技术在低资源语言社区的应用具有重要意义。
衍生相关工作
TigQA数据集的发布激发了众多相关研究工作,尤其是在低资源语言处理和跨语言问答系统领域。基于TigQA,研究者们开发了多种问答模型,探索了如何在资源有限的情况下提升模型性能。此外,TigQA还促进了多语言学习资源的开发,推动了低资源语言在NLP领域的应用研究。这些衍生工作不仅丰富了Tigrinya语言的处理技术,也为其他低资源语言的研究提供了参考和借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作