Bangla Passage-based Question-Answering Dataset

Name: Bangla Passage-based Question-Answering Dataset
Creator: 布拉茨大学数据与科学学院计算机科学与工程系
Published: 2024-12-24 21:59:23
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

http://arxiv.org/abs/2412.18440v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由布拉茨大学的研究团队创建，旨在支持孟加拉语问答系统的开发。数据集包含约3000个段落问答对，数据来源于孟加拉国国家课程与教科书委员会（NCTB）的6至10年级教科书。每个段落平均包含387个单词，提供了丰富的上下文信息。数据集经过人工标注，确保了其可靠性和多样性，涵盖了多种问题类型。该数据集主要用于训练和评估问答模型，特别是在教育领域的文本理解任务中，旨在通过自动化评估系统提升孟加拉语文本理解的准确性和效率。

This dataset was constructed by a research team from Bratz University to facilitate the development of Bengali question answering systems. It contains approximately 3,000 paragraph-level question-answer pairs, which are sourced from textbooks for grades 6 to 10 published by the National Curriculum and Textbook Board (NCTB) of Bangladesh. Each paragraph averages 387 words, offering ample contextual information. The dataset has undergone manual annotation to guarantee its reliability and diversity, covering diverse question types. Primarily intended for training and evaluating question answering models, particularly for text understanding tasks in the educational domain, this dataset aims to enhance the accuracy and efficiency of Bengali text comprehension via automated evaluation systems.

提供机构：

布拉茨大学数据与科学学院计算机科学与工程系

创建时间：

2024-12-24

搜集汇总

数据集介绍

构建方式

Bangla Passage-based Question-Answering Dataset的构建过程体现了对教育文本理解的深度关注。该数据集从孟加拉国国家课程与教科书委员会（NCTB）的6至10年级教材中精选了约3000个段落-问题-答案对。这些数据由人工标注者精心挑选，确保了问题的多样性和答案的准确性。每个段落平均包含387个单词，为问题提供了丰富的上下文信息。数据集被划分为训练集和验证集，并以CSV文件的形式组织，便于后续的模型训练与评估。

特点

该数据集的特点在于其针对孟加拉语教育文本的深度定制化。数据集涵盖了多种问题类型，确保了其在训练和评估中的广泛适用性。每个段落与问题对都经过人工标注，确保了答案的准确性和上下文的相关性。此外，数据集的构建充分考虑了孟加拉语的语法和语义特点，使其在处理孟加拉语文本理解任务时表现出色。数据集的结构化设计也为模型的输入输出提供了清晰的框架，便于后续的模型训练与评估。

使用方法

该数据集的使用方法主要围绕模型训练与评估展开。首先，数据集通过预处理步骤进行清洗，包括去除空值、标点符号和停用词，并进行分词处理。随后，数据集被划分为训练集和验证集，采用70%-30%的比例以确保模型的泛化能力。在模型训练阶段，使用了BERT Base、Bangla-BERT和RoBERTa等多种预训练模型，并通过调整超参数（如批次大小、学习率和训练轮数）来优化模型性能。评估阶段则采用精确匹配（EM）和F1分数作为主要指标，以衡量模型在孟加拉语问答任务中的表现。

背景与挑战

背景概述

Bangla Passage-based Question-Answering Dataset 是由 Brac University 的计算机科学与工程系研究人员于2023年创建的，旨在解决孟加拉语教育领域中的文本理解与自动评估问题。该数据集包含约3,000个基于孟加拉语国家课程与教科书委员会（NCTB）教材的问答对，涵盖了6至10年级的内容。研究人员通过对比 RoBERTa Base、Bangla-BERT 和 BERT Base 等先进语言模型的性能，探索了这些模型在孟加拉语问答任务中的表现。研究结果表明，Bangla-BERT 在 F1 分数和精确匹配（EM）分数上表现最佳，分别为0.75和0.53。该数据集为孟加拉语自然语言处理（NLP）领域提供了重要的资源，推动了教育领域自动化评估系统的发展。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，孟加拉语作为一种低资源语言，缺乏足够的 NLP 工具和资源，导致模型在处理复杂问题时表现不佳。其次，数据集中存在拼写不一致和非事实类问题，影响了模型的准确性和可靠性。此外，数据集的规模相对较小，限制了模型的泛化能力。在构建过程中，研究人员还面临了计算资源的限制，尤其是在处理大规模数据和训练复杂模型时。这些挑战凸显了进一步扩展数据集、优化模型性能以及开发更适合孟加拉语特性的 NLP 工具的必要性。

常用场景

经典使用场景

Bangla Passage-based Question-Answering Dataset 主要用于评估孟加拉语阅读理解能力，特别是在教育领域中的应用。该数据集通过从孟加拉国家课程与教科书委员会（NCTB）的6至10年级教材中提取的约3000个段落-问题-答案对，为研究人员提供了一个标准化的测试平台。通过使用F1分数和精确匹配（EM）等指标，研究人员可以评估不同语言模型在孟加拉语问答任务中的表现，从而推动孟加拉语自然语言处理技术的发展。

衍生相关工作

该数据集衍生了一系列相关研究，特别是在孟加拉语问答系统领域。例如，BanglaRQA 数据集进一步扩展了孟加拉语问答任务的多样性，涵盖了可回答和不可回答的问题类型。此外，基于该数据集的研究还推动了诸如Bangla-BERT等专门针对孟加拉语的语言模型的开发，为低资源语言的自然语言处理研究提供了新的方向。

数据集最近研究