NCTBText

Name: NCTBText
Creator: 达卡大学IIT
Published: 2025-08-01 21:08:26
License: 暂无描述

arXiv2025-08-01 更新2025-08-05 收录

下载链接：

http://www.nctb.gov.bd

下载链接

链接失效反馈

官方服务：

资源简介：

NCTBText数据集是从孟加拉国国家课程和教科书委员会（NCTB）网站上提供的材料中收集的。该数据集包括宗教、孟加拉语、科学、农业、信息和通信技术（ICT）、商业、社会科学和家庭科学等多个主题的文本。NCTBText的创建旨在丰富和多样化目前以报纸为中心的孟加拉语语料库，为孟加拉语主题建模研究提供一个新的基准数据集。

提供机构：

达卡大学IIT

创建时间：

2025-08-01

搜集汇总

数据集介绍

构建方式

NCTBText数据集构建于孟加拉国国家课程与教科书委员会（NCTB）提供的教材材料，旨在丰富当前以新闻为主的孟加拉语语料库。该数据集涵盖了宗教、孟加拉语、科学、农业、信息与通信技术（ICT）、商业、社会科学和家政学等多个学科领域。通过严格的预处理步骤，包括分词、停用词去除和词形还原，确保了数据的质量和一致性。数据集的构建不仅填补了孟加拉语主题建模领域缺乏多样化语料库的空白，还为后续研究提供了可靠的基准数据。

特点

NCTBText数据集以其多样化的学科覆盖和高质量的文本预处理脱颖而出。相较于传统的新闻语料库，该数据集包含了教材中的专业术语和结构化内容，为主题建模提供了更丰富的语义信息。数据集的平均词数较高（271.73词/文档），词汇量达到84,269，确保了模型的训练充分性和主题表达的深度。此外，数据集未标注的特性使其特别适合无监督学习任务，如主题建模和文档聚类。

使用方法

NCTBText数据集适用于多种自然语言处理任务，尤其在主题建模领域表现突出。研究人员可通过加载预处理后的分词列表或原始句子，结合TF-IDF、GloVe等嵌入方法进行向量化。对于基于图的模型（如GHTM），需先构建KNN文档相似度图，再通过GCN生成语义增强的嵌入。使用NMF等矩阵分解技术可从嵌入中提取主题分布。该数据集还可用于评估模型的跨领域主题泛化能力，或作为低资源语言标注任务的初始数据来源。

背景与挑战

背景概述

NCTBText数据集由孟加拉国达卡大学的研究团队于2025年创建，旨在解决孟加拉语自然语言处理领域中主题建模资源匮乏的问题。该数据集源自孟加拉国国家课程与教科书委员会（NCTB）的教材文本，涵盖宗教、科学、农业等多元学科，首次突破了传统孟加拉语语料库以新闻为主的局限。作为论文《GHTM: A Graph based Hybrid Topic Modeling Approach in Low-Resource Bengali Language》的核心贡献之一，该数据集为开发基于图卷积网络（GCN）与非负矩阵分解（NMF）的混合主题模型提供了重要基础，显著提升了低资源语言的主题连贯性与多样性评估能力。

当前挑战

NCTBText数据集面临双重挑战：在领域问题层面，需解决孟加拉语形态复杂性和语义稀疏性导致的主题边界模糊问题，传统概率模型（如LDA）难以捕捉其非线性语义关系；在构建层面，教材文本特有的长程依赖结构和学科术语密度，要求设计兼顾TF-IDF统计特征与GloVe语义嵌入的混合向量化策略。同时，数据标注过程中需平衡学科领域分布，避免新闻语料中常见的主题倾斜现象，这对无监督主题发现算法的泛化能力提出了更高要求。

常用场景

经典使用场景

NCTBText数据集作为孟加拉语教材文本的集合，主要用于自然语言处理领域中的主题建模研究。该数据集通过提供多样化的主题内容，如宗教、科学、农业等，为研究者提供了一个丰富的语料库，用于开发和评估主题建模算法。特别是在低资源语言环境下，NCTBText数据集通过其多样性和代表性，成为评估模型性能的重要基准。

衍生相关工作

NCTBText数据集的推出催生了一系列相关研究。例如，基于该数据集的GHTM模型结合了图卷积网络和非负矩阵分解，显著提升了主题建模的性能。此外，研究者还利用NCTBText开发了多种主题建模算法，如LDA2Vec和BERT-LDA，进一步推动了孟加拉语自然语言处理的发展。这些工作不仅验证了数据集的实用性，还为未来的研究提供了新的方向。

数据集最近研究