Simanto123/BanglaRQA
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Simanto123/BanglaRQA
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- human
license: cc-by-nc-sa-4.0
task_categories:
- question-answering
task_ids:
- open-domain-qa
- extractive-qa
language:
- bn
size_categories:
- 10K<n<100K
---
# Dataset Card for `BanglaRQA`
## Table of Contents
- [Dataset Card for `BanglaRQA`](#dataset-card-for-BanglaRQA)
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Languages](#languages)
- [Usage](#usage)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Additional Information](#additional-information)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
## Dataset Description
- **Repository:** [https://github.com/sartajekram419/BanglaRQA](https://github.com/sartajekram419/BanglaRQA)
- **Paper:** [BanglaRQA: A Benchmark Dataset for Under-resourced Bangla Language Reading Comprehension-based Question Answering with Diverse Question-Answer Types](https://aclanthology.org/2022.findings-emnlp.186)
### Dataset Summary
This is a human-annotated Bangla Question Answering (QA) dataset with diverse question-answer types.
### Languages
* `Bangla`
### Usage
```python
from datasets import load_dataset
dataset = load_dataset("sartajekram/BanglaRQA")
```
## Dataset Structure
### Data Instances
One example from the dataset is given below in JSON format.
```
{
'passage_id': 'bn_wiki_2977',
'title': 'ফাজিল পরীক্ষা',
'context': 'ফাজিল পরীক্ষা বাংলাদেশ ও ভারতের আলিয়া মাদ্রাসায় অনুষ্ঠিত একটি সরকারি পরীক্ষা। ফাজিল পরীক্ষা বাংলাদেশে ডিগ্রি সমমানের, কখনো স্নাতক সমমানের একটি পরীক্ষা, যা একটি ফাজিল মাদ্রাসায় অনুষ্ঠিত হয়ে থাকে। তবে ভারতে ফাজিল পরীক্ষাকে উচ্চ মাধ্যমিক শ্রেণীর (১১ বা ১২ ক্লাস) মান বলে বিবেচিত করা হয়। ফাজিল পরীক্ষা বাংলাদেশ ভারত ও পাকিস্তানের সরকারি স্বীকৃত আলিয়া মাদরাসায় প্রচলিত রয়েছে। বাংলাদেশের ফাজিল পরীক্ষা ইসলামি আরবি বিশ্ববিদ্যালয়ের অধীনে অনুষ্ঠিত হয়ে থাকে ও ভারতের ফাজিল পরীক্ষা পশ্চিমবঙ্গ মাদ্রাসা শিক্ষা পর্ষদের অধীনে অনুষ্ঠিত হয়ে থাকে।\n\n১৯৪৭ সালে ঢাকা আলিয়া মাদ্রাসা ঢাকায় স্থানান্তরের পূর্বে বাংলাদেশ ও ভারতের ফাজিল পরীক্ষা কলকাতা আলিয়া মাদ্রাসার অধীনে অনুষ্ঠিত হতো। ফাযিল পরীক্ষা বর্তমানে ইসলামি আরবী বিশ্ববিদ্যালয়ের অধীনে অনুষ্ঠিত হয়। যা পূর্বে মাদরাসা বোর্ড ও ইসলামি বিশ্ববিদ্যালয়ের আধীনে অনুষ্ঠিত হত। মাদ্রাসা-ই-আলিয়া ঢাকায় স্থানান্তরিত হলে ১৯৪৮ সালে মাদ্রাসা বোর্ডের ফাজিলগুলো পরীক্ষা ঢাকা বিশ্ববিদ্যালয় কর্তৃক গৃহীত হতো। ১৯৭৫ সালের কুদরত-এ-খুদা শিক্ষা কমিশনের সুপারিশে মাদ্রাসা বোর্ড নিয়ন্ত্রিত আলিয়া মাদ্রাসাসমূহে জাতীয় শিক্ষাক্রম ও বহুমুখী পাঠ্যসূচি প্রবর্তিত করা হয়। ১৯৮০ সালে অনুষ্ঠিত ফাজিল পরীক্ষায় এই পাঠ্যসুচী কার্যকর হয়। এই শিক্ষা কমিশন অনুসারে ফাজিল শ্রেণীতে ইসলামি শিক্ষার পাশাপাশি সাধারণ পাঠ্যসূচী অন্তর্ভুক্ত করে ফাজিল পরীক্ষাকে সাধারণ উচ্চ মাধ্যমিক এইচ এস সির সমমান ঘোষণা করা হয়।\n\n১৯৭৮ সালে অধ্যাপক মুস্তফা বিন কাসিমের নেতৃত্বে সিনিয়র মাদ্রাসা শিক্ষা ব্যবস্থা কমিটি গঠিত হয়। এই কমিটির নির্দেশনায় ১৯৮৪ সালে সাধারণ শিক্ষার স্তরের সঙ্গে বাংলাদেশ মাদ্রাসা বোর্ড নিয়ন্ত্রিত আলিয়া মাদ্রাসা শিক্ষা স্তরের সামঞ্জস্য করা হয়। ফাজিল স্তরকে ২ বছর মেয়াদী কোর্সে উন্নিত করে, মোট ১৬ বছর ব্যাপী আলিয়া মাদ্রাসার পূর্ণাঙ্গ আধুনিক শিক্ষা ব্যবস্থা প্রবর্তন করা হয়। এই কমিশনের মাধ্যমেই সরকার ফাজিল পরীক্ষাকে সাধারণ ডিগ্রি মান ঘোষণা করে।',
'question_id': 'bn_wiki_2977_01',
'question_text': 'ফাজিল পরীক্ষা বাংলাদেশ ও ভারতের আলিয়া মাদ্রাসায় অনুষ্ঠিত একটি সরকারি পরীক্ষা ?',
'is_answerable': '1',
'question_type': 'confirmation',
'answers':
{
'answer_text': ['হ্যাঁ', 'হ্যাঁ '],
'answer_type': ['yes/no', 'yes/no']
},
}
```
### Data Splits
| split |count |
|----------|--------|
|`train`| 11,912 |
|`validation`| 1,484 |
|`test`| 1,493 |
## Additional Information
### Licensing Information
Contents of this repository are restricted to only non-commercial research purposes under the [Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)](https://creativecommons.org/licenses/by-nc-sa/4.0/). Copyright of the dataset contents belongs to the original copyright holders.
### Citation Information
If you use the dataset, please cite the following paper:
```
@inproceedings{ekram-etal-2022-banglarqa,
title = "{B}angla{RQA}: A Benchmark Dataset for Under-resourced {B}angla Language Reading Comprehension-based Question Answering with Diverse Question-Answer Types",
author = "Ekram, Syed Mohammed Sartaj and
Rahman, Adham Arik and
Altaf, Md. Sajid and
Islam, Mohammed Saidul and
Rahman, Mehrab Mustafy and
Rahman, Md Mezbaur and
Hossain, Md Azam and
Kamal, Abu Raihan Mostofa",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2022",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.findings-emnlp.186",
pages = "2518--2532",
abstract = "High-resource languages, such as English, have access to a plethora of datasets with various question-answer types resembling real-world reading comprehension. However, there is a severe lack of diverse and comprehensive question-answering datasets in under-resourced languages like Bangla. The ones available are either translated versions of English datasets with a niche answer format or created by human annotations focusing on a specific domain, question type, or answer type. To address these limitations, this paper introduces BanglaRQA, a reading comprehension-based Bangla question-answering dataset with various question-answer types. BanglaRQA consists of 3,000 context passages and 14,889 question-answer pairs created from those passages. The dataset comprises answerable and unanswerable questions covering four unique categories of questions and three types of answers. In addition, this paper also implemented four different Transformer models for question-answering on the proposed dataset. The best-performing model achieved an overall 62.42{\%} EM and 78.11{\%} F1 score. However, detailed analyses showed that the performance varies across question-answer types, leaving room for substantial improvement of the model performance. Furthermore, we demonstrated the effectiveness of BanglaRQA as a training resource by showing strong results on the bn{\_}squad dataset. Therefore, BanglaRQA has the potential to contribute to the advancement of future research by enhancing the capability of language models. The dataset and codes are available at https://github.com/sartajekram419/BanglaRQA",
}
```
提供机构:
Simanto123
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,针对低资源语言构建高质量数据集是推动技术进步的关键环节。BanglaRQA数据集的构建过程体现了严谨的学术方法,其基础来源于广泛的孟加拉语维基百科文章,确保了语料的真实性与覆盖面。通过专业的人工标注流程,研究团队从三千篇上下文中精心设计并标注了近一万五千个问答对。这一过程不仅确保了问题的多样性与上下文的深度关联,还特别纳入了无法回答的问题类型,以模拟真实世界阅读理解任务的复杂性,从而为模型评估提供了更具挑战性的基准。
特点
作为孟加拉语阅读理解任务的重要资源,BanglaRQA数据集展现出多方面的显著特征。其核心优势在于问答类型的丰富性,涵盖了确认型、事实型等多种问题类别,以及文本片段、是否判断等多样化的答案形式。数据集规模适中,包含近一万五千个实例,并严格划分为训练集、验证集和测试集,为模型开发与评估提供了可靠的数据支撑。尤为重要的是,数据集专门设计了部分无法根据上下文回答的问题,这一特性对于评估模型在开放域问答中的推理与拒答能力具有重要价值。
使用方法
对于致力于孟加拉语自然语言处理的研究者而言,BanglaRQA数据集提供了便捷的访问途径。通过Hugging Face的`datasets`库,用户可直接使用`load_dataset`函数加载该数据集,快速获取结构化的数据。数据实例以JSON格式组织,清晰定义了篇章ID、标题、上下文、问题及其可回答性、问题类型和答案等关键字段。研究者可利用其标准划分进行模型的训练、验证与测试,尤其适用于评估和提升Transformer架构模型在多样化阅读理解任务上的性能,推动低资源语言理解技术的发展。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的研究长期面临数据稀缺的挑战,孟加拉语作为全球使用人数众多的语言之一,其相关数据集尤为匮乏。BanglaRQA数据集于2022年由Syed Mohammed Sartaj Ekram等研究人员创建,旨在为孟加拉语阅读理解和问答任务提供一个综合性基准。该数据集包含约1.5万个问题-答案对,覆盖多种问答类型,如确认型、事实型等,其核心研究问题在于提升孟加拉语问答系统的多样性与泛化能力。通过填补该语言在多样化问答数据上的空白,BanglaRQA为后续模型训练与评估提供了关键资源,推动了低资源语言处理技术的发展。
当前挑战
BanglaRQA数据集致力于解决孟加拉语问答系统中多样化问题类型与答案格式的建模挑战,传统方法往往局限于单一问答模式,难以适应真实场景中复杂的语言交互需求。在构建过程中,研究人员面临低资源语言标注数据稀缺的困难,需通过人工标注确保数据的准确性与多样性,同时平衡不同问题类别与答案类型的分布。此外,数据集还需涵盖可回答与不可回答的问题,以模拟现实世界中的不确定性,这对标注的一致性与质量提出了更高要求。这些挑战共同构成了该数据集在推动孟加拉语自然语言处理研究中的关键障碍。
常用场景
衍生相关工作
基于BanglaRQA数据集,衍生了一系列经典研究工作,包括在EMNLP 2022会议上发表的原始论文中提出的Transformer模型评估,这些模型在数据集上实现了显著的EM和F1分数。后续研究可能进一步探索模型在特定问答类型上的性能优化,或将该数据集作为预训练资源,应用于其他孟加拉语任务如bn_squad数据集的增强,从而推动低资源语言处理技术的创新与发展。
数据集最近研究
最新研究方向
在低资源语言处理领域,孟加拉语作为全球使用人数众多的语言之一,其自然语言理解技术的发展长期受限于高质量数据集的稀缺。BanglaRQA数据集的发布为这一领域注入了新的活力,其最新研究方向聚焦于多类型问答系统的深度优化与跨语言迁移学习。研究者们正致力于利用该数据集丰富的问答类型,如确认型、事实型等,探索预训练语言模型在低资源语境下的适应性与泛化能力。前沿工作不仅关注模型在标准评测指标上的提升,更深入分析不同问答类型对模型性能的差异性影响,旨在构建更具鲁棒性的孟加拉语阅读理解系统。这一进展与全球多语言人工智能发展的热点趋势相呼应,为促进语言技术公平性及数字包容性提供了重要支撑,对推动南亚地区语言信息处理生态的成熟具有深远意义。
以上内容由遇见数据集搜集并总结生成



