NCTB-QA
收藏arXiv2026-03-06 更新2026-03-07 收录
下载链接:
https://nctb.gov.bd/site/page/934d6561-1fb4-466c-a0e9-330b748098e6
下载链接
链接失效反馈官方服务:
资源简介:
NCTB-QA是由孟加拉国国家课程与教科书委员会发布的孟加拉语教育问答数据集,包含87,805条问答对,源自1-10年级的50本教材。该数据集独特地平衡了可回答(57.25%)与不可回答问题(42.75%)的分布,并包含对抗性设计的干扰项问题。数据通过自动化流程从教材中提取文本段落,并基于Gemini模型生成问答对,最终以SQuAD格式存储。其覆盖科学、人文等17个学科,旨在推动低资源语言环境下教育问答系统的鲁棒性研究,特别是模型对无答案场景的识别能力。
NCTB-QA is a Bengali educational question-answering dataset released by the National Curriculum and Textbook Board (NCTB) of Bangladesh. It contains 87,805 question-answer pairs sourced from 50 textbooks for grades 1 through 10. This dataset uniquely balances the distribution of answerable questions (57.25%) and unanswerable questions (42.75%), and includes adversarially designed distractor questions. Text passages are extracted from the textbooks via an automated workflow, and question-answer pairs are generated based on the Gemini model, with the final dataset stored in the SQuAD format. It covers 17 academic disciplines including natural sciences, humanities and other fields. This dataset aims to advance robustness research of educational question-answering systems in low-resource language environments, with a particular focus on models' ability to identify unanswerable scenarios.
提供机构:
达卡大学·计算机科学与工程系
创建时间:
2026-03-06
搜集汇总
数据集介绍

构建方式
在低资源语言阅读理解领域,构建能够有效处理不可回答问题的高质量数据集至关重要。NCTB-QA的构建始于从孟加拉国国家课程与教科书委员会官方网站系统化采集1至10年级的50本教科书,通过自动化网络爬虫流程确保数据的一致性与可复现性。随后,原始Markdown格式的教材经过多阶段清洗与分割,移除页码、习题等非教学元素,并依据语义连贯性划分为长度适中的上下文片段。在此基础上,利用Gemini 2.5 Pro模型从每个上下文中生成多样化的问答对,严格控制可回答与不可回答问题的比例接近平衡,其中不可回答问题更经过对抗性设计,包含语义相关的干扰项以提升模型推理能力。最终生成的87,805个问答对均经过自动化验证,确保答案跨度准确性与数据格式符合SQuAD标准,从而形成一个规模庞大且教育领域针对性的孟加拉语问答语料库。
特点
NCTB-QA数据集在孟加拉语教育问答资源中展现出若干鲜明特征。其核心优势在于大规模与领域特异性,涵盖87,805个问答对,源自50本官方教科书,确保了内容与真实课程的高度对齐。数据集独特地保持了可回答问题(57.25%)与不可回答问题(42.75%)的平衡分布,这一设计迫使模型必须同时掌握答案提取与答案性检测的双重能力。此外,数据集中包含对抗性构造的不可回答问题,这些问题与上下文主题相关但包含合理干扰项,有效挑战模型进行深层语义推理而非依赖表面线索。数据在17个学科间分布广泛且比例均衡,问题类型涵盖事实性、因果性、比较性及否定性等多种推理模式,辅以详尽的链式思维标注,为评估孟加拉语阅读理解系统提供了全面而富有挑战性的基准。
使用方法
NCTB-QA数据集主要用于训练与评估基于阅读理解的问答系统,尤其适用于低资源语言场景下的模型适配研究。使用者可按照标准的80/10/10比例划分训练集、验证集与测试集,确保各集合在问题类型、学科分布及可回答性上保持平衡。在模型训练前,需进行数据预处理,包括修正答案跨度偏移、处理超出模型长度限制的上下文窗口化分割,以及对不可回答问题进行标准化标注。该数据集兼容SQuAD格式,便于直接集成至主流Transformer架构(如BERT、RoBERTa、ELECTRA)的微调流程中。评估时,除精确匹配与F1分数外,还可利用其内置的链式思维标注探索生成式模型的推理能力,或通过跨学科性能分析检验模型的领域泛化性,从而推动孟加拉语教育技术及鲁棒性问答系统的研发。
背景与挑战
背景概述
在低资源语言的自然语言处理领域,孟加拉语作为全球第七大语言,其教育领域的问答系统长期面临数据稀缺的挑战。NCTB-QA数据集由达卡大学的研究团队于2026年创建,旨在填补这一空白。该数据集从孟加拉国国家课程与教科书委员会出版的50本教科书中提取了87,805个问答对,覆盖1至10年级的广泛学科。其核心研究问题聚焦于如何让问答系统在缺乏答案的语境中可靠地识别不可回答问题,从而减少模型幻觉现象。通过平衡可回答(57.25%)与不可回答(42.75%)问题的分布,并引入包含合理干扰项的对抗性实例,NCTB-QA为孟加拉语教育问答建立了首个大规模基准,显著推动了低资源语言阅读理解研究的发展。
当前挑战
NCTB-QA数据集致力于解决孟加拉语教育领域问答任务的核心挑战,即模型在上下文缺失正确答案时倾向于生成不可靠回答的幻觉问题。这一挑战要求系统不仅具备精准的信息抽取能力,还需学会在无法作答时主动弃权。在数据集构建过程中,研究者面临多重困难:首先,从原始教科书内容中自动化提取高质量、语义连贯的上下文片段,需克服格式噪声与结构异质性;其次,生成兼具平衡性与多样性的问答对,特别是设计对抗性不可回答问题,需确保其与上下文主题相关但答案缺失,避免简单的词汇不匹配;此外,处理孟加拉语特有的语言现象(如SOV语序、粘着性)以及跨学科的广泛覆盖,进一步增加了数据标注与质量控制的复杂性。
常用场景
经典使用场景
在孟加拉语自然语言处理领域,NCTB-QA数据集为教育场景下的阅读理解任务提供了经典基准。该数据集源自孟加拉国国家课程与教科书委员会出版的官方教材,覆盖从一年级到十年级的广泛学科内容,其核心应用在于训练和评估模型在给定教育文本中准确回答问题的能力。通过包含大量不可回答问题并引入对抗性设计实例,数据集迫使模型不仅学习答案提取,还需掌握在上下文缺乏信息时拒绝回答的判别能力,从而模拟真实教育环境中智能助手的实际需求。
衍生相关工作
NCTB-QA的发布催生并衔接了多项围绕孟加拉语理解的研究工作。在数据集构建层面,它与此前的BanglaRQA、TigerLLM和BEnQA等基准形成了互补与超越关系。在模型研究方面,论文中基于BERT、RoBERTa和ELECTRA的微调实验展示了预训练模型在特定领域适应上的巨大潜力,为后续研究如利用其链式思维注释进行生成式模型推理、探索单语预训练或适配器方法以缩小性能差距指明了方向。这些工作共同推动了低资源语言教育问答技术生态的演进。
数据集最近研究
最新研究方向
在低资源语言处理领域,孟加拉语教育问答数据集NCTB-QA的推出,标志着该领域研究正朝着构建大规模、领域特定且平衡可答与不可答问题的基准方向深化。前沿探索聚焦于利用Transformer架构进行领域自适应微调,以应对孟加拉语特有的语言现象,如SOV语序和丰富的形态变化。研究热点包括对抗性不可答问题的设计,旨在提升模型在缺失信息场景下的拒答能力,减少幻觉生成。此外,数据集中蕴含的思维链注释为可解释推理研究开辟了新路径,推动生成式模型在个性化教育系统中的应用。这些进展不仅夯实了孟加拉语NLP的基础设施,也为全球低资源语言的教育技术发展提供了重要参考。
相关研究论文
- 1NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance达卡大学·计算机科学与工程系 · 2026年
以上内容由遇见数据集搜集并总结生成



