Simanto123/BanglaRQA

Name: Simanto123/BanglaRQA
Creator: Simanto123
Published: 2026-04-11 02:14:04
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/Simanto123/BanglaRQA

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - human license: cc-by-nc-sa-4.0 task_categories: - question-answering task_ids: - open-domain-qa - extractive-qa language: - bn size_categories: - 10K<n<100K --- # Dataset Card for `BanglaRQA` ## Table of Contents - [Dataset Card for `BanglaRQA`](#dataset-card-for-BanglaRQA) - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Languages](#languages) - [Usage](#usage) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Additional Information](#additional-information) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) ## Dataset Description - **Repository:** [https://github.com/sartajekram419/BanglaRQA](https://github.com/sartajekram419/BanglaRQA) - **Paper:** [BanglaRQA: A Benchmark Dataset for Under-resourced Bangla Language Reading Comprehension-based Question Answering with Diverse Question-Answer Types](https://aclanthology.org/2022.findings-emnlp.186) ### Dataset Summary This is a human-annotated Bangla Question Answering (QA) dataset with diverse question-answer types. ### Languages * `Bangla` ### Usage ```python from datasets import load_dataset dataset = load_dataset("sartajekram/BanglaRQA") ``` ## Dataset Structure ### Data Instances One example from the dataset is given below in JSON format. ``` { 'passage_id': 'bn_wiki_2977', 'title': 'ফাজিল পরীক্ষা', 'context': 'ফাজিল পরীক্ষা বাংলাদেশ ও ভারতের আলিয়া মাদ্রাসায় অনুষ্ঠিত একটি সরকারি পরীক্ষা। ফাজিল পরীক্ষা বাংলাদেশে ডিগ্রি সমমানের, কখনো স্নাতক সমমানের একটি পরীক্ষা, যা একটি ফাজিল মাদ্রাসায় অনুষ্ঠিত হয়ে থাকে। তবে ভারতে ফাজিল পরীক্ষাকে উচ্চ মাধ্যমিক শ্রেণীর (১১ বা ১২ ক্লাস) মান বলে বিবেচিত করা হয়। ফাজিল পরীক্ষা বাংলাদেশ ভারত ও পাকিস্তানের সরকারি স্বীকৃত আলিয়া মাদরাসায় প্রচলিত রয়েছে। বাংলাদেশের ফাজিল পরীক্ষা ইসলামি আরবি বিশ্ববিদ্যালয়ের অধীনে অনুষ্ঠিত হয়ে থাকে ও ভারতের ফাজিল পরীক্ষা পশ্চিমবঙ্গ মাদ্রাসা শিক্ষা পর্ষদের অধীনে অনুষ্ঠিত হয়ে থাকে।\n\n১৯৪৭ সালে ঢাকা আলিয়া মাদ্রাসা ঢাকায় স্থানান্তরের পূর্বে বাংলাদেশ ও ভারতের ফাজিল পরীক্ষা কলকাতা আলিয়া মাদ্রাসার অধীনে অনুষ্ঠিত হতো। ফাযিল পরীক্ষা বর্তমানে ইসলামি আরবী বিশ্ববিদ্যালয়ের অধীনে অনুষ্ঠিত হয়। যা পূর্বে মাদরাসা বোর্ড ও ইসলামি বিশ্ববিদ্যালয়ের আধীনে অনুষ্ঠিত হত। মাদ্রাসা-ই-আলিয়া ঢাকায় স্থানান্তরিত হলে ১৯৪৮ সালে মাদ্রাসা বোর্ডের ফাজিলগুলো পরীক্ষা ঢাকা বিশ্ববিদ্যালয় কর্তৃক গৃহীত হতো। ১৯৭৫ সালের কুদরত-এ-খুদা শিক্ষা কমিশনের সুপারিশে মাদ্রাসা বোর্ড নিয়ন্ত্রিত আলিয়া মাদ্রাসাসমূহে জাতীয় শিক্ষাক্রম ও বহুমুখী পাঠ্যসূচি প্রবর্তিত করা হয়। ১৯৮০ সালে অনুষ্ঠিত ফাজিল পরীক্ষায় এই পাঠ্যসুচী কার্যকর হয়। এই শিক্ষা কমিশন অনুসারে ফাজিল শ্রেণীতে ইসলামি শিক্ষার পাশাপাশি সাধারণ পাঠ্যসূচী অন্তর্ভুক্ত করে ফাজিল পরীক্ষাকে সাধারণ উচ্চ মাধ্যমিক এইচ এস সির সমমান ঘোষণা করা হয়।\n\n১৯৭৮ সালে অধ্যাপক মুস্তফা বিন কাসিমের নেতৃত্বে সিনিয়র মাদ্রাসা শিক্ষা ব্যবস্থা কমিটি গঠিত হয়। এই কমিটির নির্দেশনায় ১৯৮৪ সালে সাধারণ শিক্ষার স্তরের সঙ্গে বাংলাদেশ মাদ্রাসা বোর্ড নিয়ন্ত্রিত আলিয়া মাদ্রাসা শিক্ষা স্তরের সামঞ্জস্য করা হয়। ফাজিল স্তরকে ২ বছর মেয়াদী কোর্সে উন্নিত করে, মোট ১৬ বছর ব্যাপী আলিয়া মাদ্রাসার পূর্ণাঙ্গ আধুনিক শিক্ষা ব্যবস্থা প্রবর্তন করা হয়। এই কমিশনের মাধ্যমেই সরকার ফাজিল পরীক্ষাকে সাধারণ ডিগ্রি মান ঘোষণা করে।', 'question_id': 'bn_wiki_2977_01', 'question_text': 'ফাজিল পরীক্ষা বাংলাদেশ ও ভারতের আলিয়া মাদ্রাসায় অনুষ্ঠিত একটি সরকারি পরীক্ষা ?', 'is_answerable': '1', 'question_type': 'confirmation', 'answers': { 'answer_text': ['হ্যাঁ', 'হ্যাঁ '], 'answer_type': ['yes/no', 'yes/no'] }, } ``` ### Data Splits | split |count | |----------|--------| |`train`| 11,912 | |`validation`| 1,484 | |`test`| 1,493 | ## Additional Information ### Licensing Information Contents of this repository are restricted to only non-commercial research purposes under the [Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)](https://creativecommons.org/licenses/by-nc-sa/4.0/). Copyright of the dataset contents belongs to the original copyright holders. ### Citation Information If you use the dataset, please cite the following paper: ``` @inproceedings{ekram-etal-2022-banglarqa, title = "{B}angla{RQA}: A Benchmark Dataset for Under-resourced {B}angla Language Reading Comprehension-based Question Answering with Diverse Question-Answer Types", author = "Ekram, Syed Mohammed Sartaj and Rahman, Adham Arik and Altaf, Md. Sajid and Islam, Mohammed Saidul and Rahman, Mehrab Mustafy and Rahman, Md Mezbaur and Hossain, Md Azam and Kamal, Abu Raihan Mostofa", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2022", month = dec, year = "2022", address = "Abu Dhabi, United Arab Emirates", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.findings-emnlp.186", pages = "2518--2532", abstract = "High-resource languages, such as English, have access to a plethora of datasets with various question-answer types resembling real-world reading comprehension. However, there is a severe lack of diverse and comprehensive question-answering datasets in under-resourced languages like Bangla. The ones available are either translated versions of English datasets with a niche answer format or created by human annotations focusing on a specific domain, question type, or answer type. To address these limitations, this paper introduces BanglaRQA, a reading comprehension-based Bangla question-answering dataset with various question-answer types. BanglaRQA consists of 3,000 context passages and 14,889 question-answer pairs created from those passages. The dataset comprises answerable and unanswerable questions covering four unique categories of questions and three types of answers. In addition, this paper also implemented four different Transformer models for question-answering on the proposed dataset. The best-performing model achieved an overall 62.42{\%} EM and 78.11{\%} F1 score. However, detailed analyses showed that the performance varies across question-answer types, leaving room for substantial improvement of the model performance. Furthermore, we demonstrated the effectiveness of BanglaRQA as a training resource by showing strong results on the bn{\_}squad dataset. Therefore, BanglaRQA has the potential to contribute to the advancement of future research by enhancing the capability of language models. The dataset and codes are available at https://github.com/sartajekram419/BanglaRQA", } ```

提供机构：

Simanto123

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对低资源语言构建高质量数据集是推动技术进步的关键环节。BanglaRQA数据集的构建过程体现了严谨的学术方法，其基础来源于广泛的孟加拉语维基百科文章，确保了语料的真实性与覆盖面。通过专业的人工标注流程，研究团队从三千篇上下文中精心设计并标注了近一万五千个问答对。这一过程不仅确保了问题的多样性与上下文的深度关联，还特别纳入了无法回答的问题类型，以模拟真实世界阅读理解任务的复杂性，从而为模型评估提供了更具挑战性的基准。

特点

作为孟加拉语阅读理解任务的重要资源，BanglaRQA数据集展现出多方面的显著特征。其核心优势在于问答类型的丰富性，涵盖了确认型、事实型等多种问题类别，以及文本片段、是否判断等多样化的答案形式。数据集规模适中，包含近一万五千个实例，并严格划分为训练集、验证集和测试集，为模型开发与评估提供了可靠的数据支撑。尤为重要的是，数据集专门设计了部分无法根据上下文回答的问题，这一特性对于评估模型在开放域问答中的推理与拒答能力具有重要价值。

使用方法

对于致力于孟加拉语自然语言处理的研究者而言，BanglaRQA数据集提供了便捷的访问途径。通过Hugging Face的`datasets`库，用户可直接使用`load_dataset`函数加载该数据集，快速获取结构化的数据。数据实例以JSON格式组织，清晰定义了篇章ID、标题、上下文、问题及其可回答性、问题类型和答案等关键字段。研究者可利用其标准划分进行模型的训练、验证与测试，尤其适用于评估和提升Transformer架构模型在多样化阅读理解任务上的性能，推动低资源语言理解技术的发展。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的研究长期面临数据稀缺的挑战，孟加拉语作为全球使用人数众多的语言之一，其相关数据集尤为匮乏。BanglaRQA数据集于2022年由Syed Mohammed Sartaj Ekram等研究人员创建，旨在为孟加拉语阅读理解和问答任务提供一个综合性基准。该数据集包含约1.5万个问题-答案对，覆盖多种问答类型，如确认型、事实型等，其核心研究问题在于提升孟加拉语问答系统的多样性与泛化能力。通过填补该语言在多样化问答数据上的空白，BanglaRQA为后续模型训练与评估提供了关键资源，推动了低资源语言处理技术的发展。

当前挑战

BanglaRQA数据集致力于解决孟加拉语问答系统中多样化问题类型与答案格式的建模挑战，传统方法往往局限于单一问答模式，难以适应真实场景中复杂的语言交互需求。在构建过程中，研究人员面临低资源语言标注数据稀缺的困难，需通过人工标注确保数据的准确性与多样性，同时平衡不同问题类别与答案类型的分布。此外，数据集还需涵盖可回答与不可回答的问题，以模拟现实世界中的不确定性，这对标注的一致性与质量提出了更高要求。这些挑战共同构成了该数据集在推动孟加拉语自然语言处理研究中的关键障碍。

常用场景

衍生相关工作

基于BanglaRQA数据集，衍生了一系列经典研究工作，包括在EMNLP 2022会议上发表的原始论文中提出的Transformer模型评估，这些模型在数据集上实现了显著的EM和F1分数。后续研究可能进一步探索模型在特定问答类型上的性能优化，或将该数据集作为预训练资源，应用于其他孟加拉语任务如bn_squad数据集的增强，从而推动低资源语言处理技术的创新与发展。

数据集最近研究