BeliN
收藏arXiv2025-01-02 更新2025-01-06 收录
下载链接:
https://github.com/akabircs/BeliN
下载链接
链接失效反馈官方服务:
资源简介:
BeliN数据集是一个专注于孟加拉宗教新闻标题生成的语料库,由吉大港工程技术大学等机构的研究人员创建。该数据集包含2520条新闻文章及其标题,涵盖了伊斯兰教、印度教、基督教、佛教等多个宗教类别,并标注了新闻的情感极性(正面、负面、中性)和内容方面(宗教报告、节日、教育、文化等)。数据集的创建过程包括从多个孟加拉新闻网站和宗教门户手动收集文章,并进行详细的标注和统计分析。BeliN数据集的应用领域包括标题生成、文本摘要、新闻分类、情感分析和方面分类等,旨在解决低资源语言(如孟加拉语)在自然语言处理中的挑战,特别是宗教新闻领域的标题生成问题。
The BeliN Dataset is a corpus dedicated to Bengali religious news headline generation, developed by researchers from institutions including Chittagong University of Engineering & Technology and other organizations. Comprising 2520 news articles paired with their corresponding headlines, the dataset covers diverse religious categories such as Islam, Hinduism, Christianity, and Buddhism. Each entry is annotated with two dimensions: news sentiment polarity (positive, negative, neutral) and content aspect (religious reporting, festivals, education, culture, etc.). The dataset was constructed through manual collection of articles from multiple Bengali news websites and religious portals, followed by detailed annotation and statistical analysis. Application scenarios of the BeliN Dataset include headline generation, text summarization, news classification, sentiment analysis, and aspect classification, among others. It aims to address the challenges faced by low-resource languages such as Bengali in natural language processing, particularly the headline generation task in the religious news domain.
提供机构:
吉大港工程技术大学计算机科学与工程系, 孟加拉国陆军科技大学计算机科学与工程系, 查尔斯特大学计算、数学与工程学院
创建时间:
2025-01-02
搜集汇总
数据集介绍

构建方式
BeliN数据集的构建过程始于从多个孟加拉语新闻网站和宗教新闻门户手动收集新闻文章及其对应的标题,确保数据的多样性和高质量。随后,文章被手动标注,包括宗教类别、内容方面和情感极性等元数据,以增强数据的上下文信息。最终,数据集经过详细的统计分析,确保其适用于生成模型的训练和评估。这一过程确保了数据集的高质量和上下文丰富性,为孟加拉语宗教新闻的标题生成提供了坚实的基础。
使用方法
BeliN数据集的使用方法主要包括将其用于训练和评估生成模型,特别是基于Transformer的预训练语言模型(如BanglaT5、mBART、mT5和mT0)。通过将新闻内容与类别、方面和情感等上下文特征融合,模型能够生成更具上下文相关性的标题。数据集被划分为训练集、验证集和测试集,分别用于模型训练、超参数调优和性能评估。实验结果表明,结合上下文特征的多输入方法显著提升了标题生成的准确性和相关性,为低资源语言的标题生成提供了新的研究方向。
背景与挑战
背景概述
BeliN数据集是一个专注于孟加拉语宗教新闻标题生成的创新语料库,由孟加拉国吉大港工程技术大学和查尔斯斯特大学的研究团队于2025年创建。该数据集旨在解决低资源语言(如孟加拉语)在自动文本摘要和标题生成领域的不足,特别是针对宗教新闻的上下文特征融合问题。BeliN包含了来自孟加拉国主要在线报纸的2520篇宗教新闻文章及其对应标题,并通过引入类别、情感和内容方面等上下文特征,显著提升了标题生成的准确性和相关性。该数据集的发布为孟加拉语自然语言处理领域的研究提供了重要资源,推动了低资源语言在新闻摘要和标题生成方面的技术进步。
当前挑战
BeliN数据集在构建和应用过程中面临多重挑战。首先,低资源语言的特性使得数据收集和标注变得复杂,尤其是在宗教新闻领域,缺乏高质量的标注数据限制了模型的训练效果。其次,传统的标题生成方法通常仅依赖新闻内容,忽略了情感、类别和内容方面等关键上下文信息,导致生成的标题缺乏多样性和情感共鸣。此外,孟加拉语的复杂形态和句法结构增加了模型处理的难度,容易导致生成标题的语义不准确。在构建过程中,研究团队还面临硬件资源的限制,影响了大规模生成模型的微调效率。这些挑战凸显了在低资源语言中引入多输入特征融合方法的重要性,同时也为未来的研究提供了改进方向。
常用场景
经典使用场景
BeliN数据集主要用于孟加拉语宗教新闻标题生成任务。该数据集通过融合新闻内容、类别、情感和方面等多重上下文特征,显著提升了标题生成的准确性和相关性。其经典使用场景包括利用预训练语言模型(如BanglaT5、mBART等)进行新闻标题的自动生成,特别是在低资源语言环境下,BeliN为研究者提供了一个高质量的训练和评估平台。
解决学术问题
BeliN数据集解决了传统标题生成方法中忽略上下文特征的问题。传统方法通常仅依赖新闻内容生成标题,忽略了情感、类别和方面等关键信息,导致生成的标题缺乏多样性和上下文相关性。BeliN通过引入多输入特征融合方法,显著提升了标题生成的性能,特别是在低资源语言(如孟加拉语)中,填补了相关研究的空白。
实际应用
BeliN数据集在实际应用中具有广泛的前景,特别是在新闻媒体和自然语言处理领域。它可以用于自动化新闻标题生成系统,帮助新闻编辑快速生成吸引读者注意力的标题。此外,BeliN还可用于新闻分类、情感分析和文本摘要等任务,为新闻推荐系统和信息检索系统提供支持,提升用户体验和信息获取效率。
数据集最近研究
最新研究方向
近年来,BeliN数据集在孟加拉语宗教新闻标题生成领域引起了广泛关注。该数据集通过融合上下文特征(如类别、方面和情感)来提升标题生成的准确性和相关性。最新的研究方向集中在利用预训练语言模型(如BanglaT5、mBART、mT5和mT0)进行多输入特征融合,以捕捉传统方法中常被忽略的关键上下文信息。实验结果表明,MultiGen方法在BLEU和ROUGE-L评分上显著优于仅依赖新闻内容的基线方法,分别达到了18.61和24.19的评分。这一研究不仅填补了低资源语言在标题生成领域的空白,还为孟加拉语及其他低资源语言的自然语言处理提供了新的研究思路。通过公开数据集和实现代码,该研究进一步推动了该领域的可重复性和深入探索。
相关研究论文
- 1BeliN: A Novel Corpus for Bengali Religious News Headline Generation using Contextual Feature Fusion吉大港工程技术大学计算机科学与工程系, 孟加拉国陆军科技大学计算机科学与工程系, 查尔斯特大学计算、数学与工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成



