UQA
收藏arXiv2024-05-03 更新2024-06-24 收录
下载链接:
https://github.com/sameearif/UQA
下载链接
链接失效反馈官方服务:
资源简介:
UQA是由拉合尔管理科学大学创建的一个针对乌尔都语的问答数据集,旨在解决乌尔都语这种低资源语言在自然语言处理领域的问题。该数据集通过翻译斯坦福问答数据集(SQuAD2.0)生成,使用了EATS技术来保留答案跨度。数据集包含124,745个问题,适用于训练和测试多语言NLP系统,特别是针对乌尔都语的应用。
UQA is a question answering dataset for Urdu created by the Lahore University of Management Sciences, aiming to address the challenges faced by low-resource languages such as Urdu in the field of natural language processing. This dataset is generated by translating the Stanford Question Answering Dataset (SQuAD 2.0), and adopts the EATS technique to preserve answer spans. It contains 124,745 questions, and is suitable for training and testing multilingual NLP systems, especially for Urdu-specific applications.
提供机构:
拉合尔管理科学大学
创建时间:
2024-05-03
原始信息汇总
UQA: Corpus for Urdu Question Answering
概述
UQA是一个用于乌尔都语问答和文本理解的新数据集,乌尔都语是一种拥有超过7000万母语使用者的低资源语言。该数据集通过使用EATS技术翻译斯坦福问答数据集(SQuAD2.0)生成,旨在为开发和测试乌尔都语的多语言NLP系统提供宝贵资源,并增强现有模型的跨语言可迁移性。
数据集
UQA数据集包含翻译后的上下文、问题和答案。它包括可回答和不可回答的问题,保持了原始SQuAD2.0数据集的结构和挑战。
下载
数据集和微调模型可以从以下链接下载:
代码
该仓库包括翻译过程中使用的脚本、数据集生成和模型基准测试。主要组件包括:
- 使用EATS技术的翻译脚本
- 模型性能评估脚本
- mBERT、XLM-RoBERTa和mT5等模型的基准测试结果
模型性能
下表总结了在UQA数据集上测试的各种模型的性能。报告的指标是精确匹配(EM)和F1分数。
| 模型 | 精确匹配(EM) | F1分数 |
|---|---|---|
| mBERT | 45.50% | 64.72% |
| mT5-Small | 52.37% | 67.24% |
| mT5-Large | 71.26% | 84.20% |
| XLM-RoBERTa | 65.67% | 78.00% |
| XLM-RoBERTa-Large | 72.24% | 84.42% |
| XLM-RoBERTa-XL | 74.56% | 85.99% |
引用
Samee Arif, Sualeha Farid, Awais Athar, and Agha Ali Raza. 2024. UQA: Corpus for Urdu Question Answering. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 17237–17244, Torino, Italia. ELRA and ICCL.



