Bangla Key2Text
收藏arXiv2026-04-21 更新2026-04-23 收录
下载链接:
https://github.com/TonmoyTalukder/Bangla-Key2Text
下载链接
链接失效反馈官方服务:
资源简介:
Bangla Key2Text是由阿赫桑乌拉科技大学和加州大学河滨分校联合构建的大规模孟加拉语关键词-文本对数据集,包含260万条数据,关键词平均每文本9.38个,文本平均长度15.14词。数据源自公开的孟加拉新闻语料库,通过BERT关键词提取管道处理原始文章构建而成,旨在解决低资源语言环境下基于关键词的文本生成问题,为孟加拉语自然语言生成任务提供基准资源。
Bangla Key2Text is a large-scale Bangla keyword-text pair dataset jointly constructed by Ahsanullah University of Science and Technology and the University of California, Riverside. It contains 2.6 million instances, with an average of 9.38 keywords per text and an average text length of 15.14 words. The dataset is derived from public Bangla news corpora, and is built by processing original articles through a BERT-based keyword extraction pipeline. It aims to address keyword-based text generation challenges in low-resource language scenarios, providing benchmark resources for Bangla natural language generation tasks.
提供机构:
阿赫桑乌拉科技大学; 加州大学河滨分校
创建时间:
2026-04-21
原始信息汇总
Bangla Key2Text 数据集概述
数据集基本信息
- 数据集名称:Bangla Key2Text 2.6 Million
- 主要用途:用于从关键词生成孟加拉语文本(Text Generation from Keywords)。
- 语言:孟加拉语(Bangla)。
- 资源类型:低资源语言(Low Resource Language)。
数据集内容与规模
- 数据量:包含约260万条数据。
- 数据生成方法:使用项目自行开发的 Bangla Keyword Extractor(孟加拉语关键词提取器)构建。
- 数据格式:可通过Hugging Face的
datasets库加载。
数据集访问与使用
- 访问地址:https://anonymous.4open.science/r/Bangla-Key2Text-ACL
- 当前状态:处于私有模式(private mode)。论文被接受后,将转为公开模式。
- 加载代码示例: python from datasets import load_dataset dataset = load_dataset("/", split="train") # 或 split="test"
相关模型与工具
- 文本生成模型:与数据集配套的孟加拉语关键词到文本生成模型。访问地址与数据集相同,当前亦为私有模式。
- 关键词提取器:用于构建数据集的孟加拉语关键词提取工具
bn-keyword-extractor。已作为PyPI项目发布,论文接受后将公开。
学术背景
- 关联论文:"Bangla Key2Text: Text Generation from Keywords for a Low Resource Language"。
- 提交会议:2025年北美计算语言学协会年会(The 2025 Annual Conference of the North American Chapter of the Association for Computational Linguistics)。
搜集汇总
数据集介绍

构建方式
在低资源语言自然语言生成领域,构建高质量数据集是推动研究的关键。Bangla Key2Text 数据集通过系统化流程从公开的孟加拉语新闻语料中构建,首先从 Bangla Newspaper Dataset 中随机选取 260 万条文本,经过去除特殊字符和 HTML 标签等预处理。随后,采用基于 BanglaBERT 的关键词提取流水线,通过计算词嵌入与文本平均嵌入的余弦相似度来评估词语重要性,并依据文本长度动态设定阈值筛选关键词,最终形成结构化的关键词-文本对。数据集按 200 万、50 万和 10 万的比例划分为训练、验证和测试集,并额外包含人工标注的评估子集以支持方法验证。
特点
作为孟加拉语首个大规模型关键词到文本生成数据集,Bangla Key2Text 具备显著特点。其规模达到 260 万对关键词-文本,平均每文本包含 9.38 个关键词和 15.14 个词语,关键词与文本长度比约为 0.60,为监督学习提供了充足样本。数据集关键词呈现无序排列,模拟了真实场景中灵活的语言生成需求。此外,数据源自新闻领域,涵盖了丰富的主题和语言风格,为模型提供了多样化的语言上下文。数据集的公开发布包括完整的划分与基准模型,为低资源语言生成任务建立了可复现的研究基准。
使用方法
该数据集主要用于孟加拉语关键词到文本生成任务的模型训练与评估。研究人员可使用其训练集对序列到序列模型进行微调,如论文中采用的 mT5 和 BanglaT5,通过编码关键词序列并解码生成连贯文本。在评估阶段,测试集支持使用 BERTScore、ROUGE、BLEU 等自动指标衡量生成文本的语义对齐与表面相似性。数据集中的人工标注子集可用于验证关键词提取效果或进行人工评估。此外,数据集支持跨语言和方言生成探索,以及解码策略如束搜索、采样技术的实验,为低资源语言生成研究提供了多功能实验平台。
背景与挑战
背景概述
Bangla Key2Text数据集由Ahsanullah科技大学与加州大学河滨分校的研究团队于2026年创建,旨在解决孟加拉语这一低资源语言在关键词驱动文本生成领域的数据匮乏问题。该数据集包含260万对孟加拉语关键词-文本样本,通过基于BERT的关键词提取流程从海量新闻文本中构建而成,为监督学习提供了结构化资源。其核心研究问题聚焦于如何基于无序关键词生成语义连贯、忠实于原意的孟加拉语文本,填补了该语言在序列到序列生成任务上的空白,对推动低资源语言的自然语言生成研究具有重要基准价值。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,关键词到文本生成任务需确保生成文本在语义上与输入关键词高度对齐,同时保持语法正确性和上下文连贯性,这对低资源语言尤为困难;在构建过程层面,大规模高质量关键词的自动提取面临技术瓶颈,需设计适应孟加拉语形态特点的提取算法,并从异构新闻文本中清洗和标注海量数据,同时需克服领域偏差问题,确保模型能泛化至新闻以外的对话及方言场景。
常用场景
经典使用场景
在低资源语言自然语言生成领域,Bangla Key2Text数据集为孟加拉语关键词到文本生成任务提供了首个大规模基准。该数据集通过BERT关键词提取管道从数百万新闻文本中构建,形成了260万对关键词-文本结构化数据,为监督学习模型训练奠定了坚实基础。其经典使用场景主要体现在训练序列到序列模型,如mT5和BanglaT5,以生成语义连贯且忠实于关键词的孟加拉语句子。这一过程不仅验证了任务特定微调的有效性,还为低资源语言生成任务提供了可复现的实验框架。
解决学术问题
该数据集主要解决了低资源语言在关键词驱动文本生成领域缺乏高质量标注数据的关键问题。通过提供大规模结构化语料,它使得研究者能够系统评估不同生成模型在孟加拉语上的性能,弥补了以往研究集中于英语、日语等高资源语言的空白。其意义在于推动了跨语言自然语言生成研究的均衡发展,为低资源语言处理提供了可扩展的方法论。数据集的公开释放进一步促进了学术界对孟加拉语生成任务的探索,加速了相关模型优化与技术创新。
衍生相关工作
该数据集的发布催生了多项围绕低资源语言生成的前沿研究。基于其构建的基线模型mT5和BanglaT5已成为后续工作的性能参照标准,启发了对孟加拉语方言生成、跨语言混合关键词生成等方向的深入探索。相关衍生工作包括对约束束搜索解码策略的改进、温度参数对生成质量影响的量化分析,以及针对孟加拉语大型语言模型的零样本性能评估。这些研究共同拓展了低资源语言生成的技术边界,为多语言自然语言处理生态的完善提供了重要案例。
以上内容由遇见数据集搜集并总结生成



