MultiBanAbs
收藏arXiv2025-11-25 更新2025-11-26 收录
下载链接:
https://www.kaggle.com/datasets/naeem711chowdhury/multibanabs
下载链接
链接失效反馈官方服务:
资源简介:
MultiBanAbs是由孟加拉国领先大学构建的首个多领域孟加拉语抽象文本摘要数据集,涵盖新闻、商业和影视博客等多元场景。该数据集包含54,620篇高质量文章-摘要对,词汇总量达346,869个独立词元,文章平均长度262词,摘要平均压缩比为9.61倍。通过专业网络爬虫从Samakal新闻、The Business Standard商业媒体和Cinegolpo博客平台系统采集,并经过标准化清洗与长度统计分析处理。本资源旨在解决孟加拉语自然语言处理中领域适应性不足的难题,为构建鲁棒性摘要系统提供关键基准数据支撑。
MultiBanAbs is the first multi-domain Bengali abstractive text summarization dataset developed by a leading university in Bangladesh, covering diverse scenarios including news, business, and film and television blogs. This dataset contains 54,620 high-quality article-summary pairs, with a total of 346,869 unique lemmas, an average article length of 262 words, and an average summary compression ratio of 9.61 times. It was systematically collected via professional web crawling from Samakal news outlet, The Business Standard business media, and the Cinegolpo blog platform, and processed through standardized cleaning and length statistical analysis. This resource aims to address the challenge of insufficient domain adaptability in Bengali natural language processing, providing critical benchmark data support for building robust summarization systems.
提供机构:
领先大学
创建时间:
2025-11-25
原始信息汇总
MultiBanAbs数据集概述
数据集基本信息
- 数据集名称:MultiBanAbs
- 创建者:Naeem Ahsan Chowdhury
- 最后更新时间:21天前
- 数据集大小:280.95 MB
- 文件格式:JSON
- 文件数量:1个
数据集描述
MultiBanAbs是一个大规模孟加拉语数据集,专门用于抽象文本摘要任务。该数据集包含来自多个领域(包括新闻、娱乐和体育)的孟加拉语文本数据及其人工编写的抽象摘要。
数据内容结构
每个数据样本包含两个主要部分:
- 源文本:原始孟加拉语文档
- 参考摘要:人工或半人工编写的抽象摘要
应用领域
- 自然语言处理(NLP)
- 文本摘要
- 序列到序列建模
- 孟加拉语理解
技术特性
- 数据来源:公开可用的孟加拉语新闻门户网站和在线资源
- 数据规模:大规模
- 语言:孟加拉语
许可信息
- 许可证:Attribution 4.0 International (CC BY 4.0)
数据集标签
- NLP
- Transformers
- Summarization
数据文件详情
- 文件名:MultiBanAbs_article_summary.json
- 文件大小:280.95 MB
- 版本:Version 1
使用统计
- 最近30天浏览量:36次
- 最近30天下载量:1次
- 用户参与度:0.02778(每次浏览的下载次数)
- 评论数量:0条
搜集汇总
数据集介绍

构建方式
在孟加拉语自然语言处理领域,传统摘要数据集多局限于新闻领域,难以适应多样化文本的生成需求。MultiBanAbs通过构建多领域语料库突破这一局限,从三大来源系统采集数据:采用网络爬虫技术从Samakal新闻平台获取41,675篇正式新闻报道,从商业媒体The Business Standard提取12,255篇经济类内容,并通过博客平台Cinegolpo收集690篇电影评论等非正式文本。所有原始数据经过严格清洗流程,剔除广告与不完整条目,最终形成包含54,620对文章-摘要的标准化数据集,实现了跨领域的语言风格覆盖。
特点
该数据集展现出显著的多样性与规模优势,其文本来源涵盖新闻、商业、娱乐三大领域,有效捕捉了孟加拉语在正式报道、专业分析与休闲写作中的语言变异。统计特征显示文章长度分布广泛,平均262词且标准差达164.59,其中8.34%的文本超过512词,为长文本建模提供挑战。摘要平均长度为30词,压缩比达9.61倍,词汇表包含34万余个词条,罕见词占比50.3%,充分体现了孟加拉语丰富的形态变化。与现有单领域资源相比,该数据集在保持规模优势的同时,首次实现了多领域文本的有机整合。
使用方法
作为孟加拉语抽象摘要任务的重要基准,该数据集支持端到端的神经网络训练流程。研究人员可基于标准数据划分方案,采用序列到序列架构进行模型训练,其中BanglaT5-small等预训练模型经微调后展现优异性能。评估阶段推荐使用ROUGE与BLEU指标体系,通过n-gram重叠度与最长公共子序列计算来量化生成质量。针对长文本处理需求,建议采用分段编码或层次化建模策略。数据集提供的标准格式便于直接接入主流深度学习框架,为低资源语言生成任务提供可复现的实验基础。
背景与挑战
背景概述
孟加拉语作为全球第七大语言,其自然语言处理资源长期处于匮乏状态,尤其在文本摘要领域面临数据稀缺的困境。MultiBanAbs数据集由孟加拉国领航大学计算机科学与工程系的研究团队于2023年创建,旨在突破传统单领域摘要数据集的局限。该数据集整合了来自新闻媒体、商业财经和影视博客等多元领域的54,620篇原文与摘要对,通过融合萨马卡尔报社的专业新闻、商业标准报的经济分析和Cinegolpo平台的娱乐内容,构建了当前规模最大、领域覆盖最广的孟加拉语生成式摘要资源。其多域特性显著提升了模型对真实场景中复杂语言风格的适应能力,为低资源语言的智能化信息处理奠定了坚实基础。
当前挑战
在领域问题层面,孟加拉语摘要技术需应对语言形态复杂性和词汇多样性带来的语义理解难题,同时需克服跨领域文本风格差异对摘要一致性的影响。数据集构建过程中,研究团队面临三大挑战:其一是数据采集障碍,博客平台因公开访问限制仅能获取少量样本;其二是文本长度差异显著,8.34%的文章超过512词阈值,对序列模型构成处理压力;其三是语言资源稀缺,数据集中50.3%的词汇属于低频词,加剧了模型对长尾语言现象的建模难度。这些挑战共同凸显了低资源语言处理中数据质量与规模平衡的核心矛盾。
常用场景
实际应用
在实际应用层面,MultiBanAbs支撑的摘要系统可广泛应用于孟加拉语新闻聚合平台、商业情报分析和社交媒体内容过滤。其多领域特性使系统能适应不同场景的摘要需求,例如自动生成财经报道精要或影视评论概要。这类技术有助于降低信息过载,提升非母语读者对孟加拉语内容的获取效率,对促进数字包容具有现实意义。
衍生相关工作
该数据集已催生多项创新研究,包括基于BanglaT5的领域自适应摘要框架和跨语言迁移学习方案。后续工作如Miazee等人提出的神经摘要架构,通过引入稳定性训练机制进一步优化了生成质量。这些研究不仅扩展了数据集的应用边界,还为低资源语言处理社区建立了可复现的基准范式。
以上内容由遇见数据集搜集并总结生成



