five

Bangla Passage-based Question-Answering Dataset

收藏
arXiv2024-12-24 更新2024-12-26 收录
下载链接:
http://arxiv.org/abs/2412.18440v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由布拉茨大学的研究团队创建,旨在支持孟加拉语问答系统的开发。数据集包含约3000个段落问答对,数据来源于孟加拉国国家课程与教科书委员会(NCTB)的6至10年级教科书。每个段落平均包含387个单词,提供了丰富的上下文信息。数据集经过人工标注,确保了其可靠性和多样性,涵盖了多种问题类型。该数据集主要用于训练和评估问答模型,特别是在教育领域的文本理解任务中,旨在通过自动化评估系统提升孟加拉语文本理解的准确性和效率。

This dataset was constructed by a research team from Bratz University to facilitate the development of Bengali question answering systems. It contains approximately 3,000 paragraph-level question-answer pairs, which are sourced from textbooks for grades 6 to 10 published by the National Curriculum and Textbook Board (NCTB) of Bangladesh. Each paragraph averages 387 words, offering ample contextual information. The dataset has undergone manual annotation to guarantee its reliability and diversity, covering diverse question types. Primarily intended for training and evaluating question answering models, particularly for text understanding tasks in the educational domain, this dataset aims to enhance the accuracy and efficiency of Bengali text comprehension via automated evaluation systems.
提供机构:
布拉茨大学数据与科学学院计算机科学与工程系
创建时间:
2024-12-24
搜集汇总
数据集介绍
main_image_url
构建方式
Bangla Passage-based Question-Answering Dataset的构建过程体现了对教育文本理解的深度关注。该数据集从孟加拉国国家课程与教科书委员会(NCTB)的6至10年级教材中精选了约3000个段落-问题-答案对。这些数据由人工标注者精心挑选,确保了问题的多样性和答案的准确性。每个段落平均包含387个单词,为问题提供了丰富的上下文信息。数据集被划分为训练集和验证集,并以CSV文件的形式组织,便于后续的模型训练与评估。
特点
该数据集的特点在于其针对孟加拉语教育文本的深度定制化。数据集涵盖了多种问题类型,确保了其在训练和评估中的广泛适用性。每个段落与问题对都经过人工标注,确保了答案的准确性和上下文的相关性。此外,数据集的构建充分考虑了孟加拉语的语法和语义特点,使其在处理孟加拉语文本理解任务时表现出色。数据集的结构化设计也为模型的输入输出提供了清晰的框架,便于后续的模型训练与评估。
使用方法
该数据集的使用方法主要围绕模型训练与评估展开。首先,数据集通过预处理步骤进行清洗,包括去除空值、标点符号和停用词,并进行分词处理。随后,数据集被划分为训练集和验证集,采用70%-30%的比例以确保模型的泛化能力。在模型训练阶段,使用了BERT Base、Bangla-BERT和RoBERTa等多种预训练模型,并通过调整超参数(如批次大小、学习率和训练轮数)来优化模型性能。评估阶段则采用精确匹配(EM)和F1分数作为主要指标,以衡量模型在孟加拉语问答任务中的表现。
背景与挑战
背景概述
Bangla Passage-based Question-Answering Dataset 是由 Brac University 的计算机科学与工程系研究人员于2023年创建的,旨在解决孟加拉语教育领域中的文本理解与自动评估问题。该数据集包含约3,000个基于孟加拉语国家课程与教科书委员会(NCTB)教材的问答对,涵盖了6至10年级的内容。研究人员通过对比 RoBERTa Base、Bangla-BERT 和 BERT Base 等先进语言模型的性能,探索了这些模型在孟加拉语问答任务中的表现。研究结果表明,Bangla-BERT 在 F1 分数和精确匹配(EM)分数上表现最佳,分别为0.75和0.53。该数据集为孟加拉语自然语言处理(NLP)领域提供了重要的资源,推动了教育领域自动化评估系统的发展。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,孟加拉语作为一种低资源语言,缺乏足够的 NLP 工具和资源,导致模型在处理复杂问题时表现不佳。其次,数据集中存在拼写不一致和非事实类问题,影响了模型的准确性和可靠性。此外,数据集的规模相对较小,限制了模型的泛化能力。在构建过程中,研究人员还面临了计算资源的限制,尤其是在处理大规模数据和训练复杂模型时。这些挑战凸显了进一步扩展数据集、优化模型性能以及开发更适合孟加拉语特性的 NLP 工具的必要性。
常用场景
经典使用场景
Bangla Passage-based Question-Answering Dataset 主要用于评估孟加拉语阅读理解能力,特别是在教育领域中的应用。该数据集通过从孟加拉国家课程与教科书委员会(NCTB)的6至10年级教材中提取的约3000个段落-问题-答案对,为研究人员提供了一个标准化的测试平台。通过使用F1分数和精确匹配(EM)等指标,研究人员可以评估不同语言模型在孟加拉语问答任务中的表现,从而推动孟加拉语自然语言处理技术的发展。
衍生相关工作
该数据集衍生了一系列相关研究,特别是在孟加拉语问答系统领域。例如,BanglaRQA 数据集进一步扩展了孟加拉语问答任务的多样性,涵盖了可回答和不可回答的问题类型。此外,基于该数据集的研究还推动了诸如Bangla-BERT等专门针对孟加拉语的语言模型的开发,为低资源语言的自然语言处理研究提供了新的方向。
数据集最近研究
最新研究方向
在自然语言处理领域,特别是针对低资源语言的问答系统研究,Bangla Passage-based Question-Answering Dataset的引入为孟加拉语文本理解提供了重要的数据支持。该数据集基于孟加拉国家课程与教科书委员会(NCTB)的教材,涵盖了6至10年级的约3000个问答对,为评估学生文本理解能力提供了丰富的资源。最新研究聚焦于利用先进的预训练语言模型(如RoBERTa、Bangla-BERT和BERT Base)进行自动问答评估,探索超参数配置对模型性能的影响。研究表明,Bangla-BERT在较小的批量大小、包含停用词和中等学习率的情况下表现最佳,F1分数达到0.75,精确匹配分数为0.53。这一发现不仅为孟加拉语教育领域的自动化评估系统奠定了基础,也为低资源语言的NLP研究提供了新的方向。未来研究可进一步扩展数据集规模,优化模型对非事实类问题的处理能力,并探索更多适用于孟加拉语的语言模型和预处理技术。
相关研究论文
  • 1
    Unlocking the Potential of Multiple BERT Models for Bangla Question Answering in NCTB Textbooks布拉茨大学数据与科学学院计算机科学与工程系 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作