BanMANI

Name: BanMANI
Creator: 南佛罗里达大学
Published: 2023-11-05 13:49:57
License: 暂无描述

arXiv2023-11-05 更新2024-06-21 收录

下载链接：

https://github.com/kamruzzaman15/BanMANI

下载链接

链接失效反馈

官方服务：

资源简介：

BanMANI是一个针对孟加拉语社交媒体新闻操纵识别的数据集，由南佛罗里达大学等机构创建。该数据集包含800条社交媒体内容，与500篇参考新闻文章相关联，用于训练和评估模型识别新闻操纵的能力。数据集通过半自动方法生成，利用ChatGPT和孟加拉语NER系统辅助，由人工标注者验证。BanMANI旨在解决孟加拉语社交媒体中新闻操纵的问题，为低资源语言提供数据支持，以提升现有NLP系统的性能和训练新模型。

BanMANI is a dataset dedicated to identifying news manipulation in Bengali social media, developed by institutions including the University of South Florida. It contains 800 social media content entries associated with 500 reference news articles, and is utilized for training and evaluating models' capacity to recognize news manipulation. The dataset was generated via a semi-automatic method, assisted by ChatGPT and Bengali NER systems, and validated by human annotators. BanMANI aims to address the issue of news manipulation in Bengali social media, providing data support for low-resource languages to enhance the performance of existing NLP systems and support the training of new models.

提供机构：

南佛罗里达大学

创建时间：

2023-11-05

搜集汇总

数据集介绍

构建方式

在孟加拉语信息操纵检测领域，现有资源匮乏，BanMANI数据集的构建采用了一种半自动化的创新方法。该过程以BanFakeNews数据集中的2300篇新闻文章为种子，利用ChatGPT生成相关的社交媒体内容。首先，通过孟加拉语命名实体识别系统提取可替换的实体集合，并辅以人工筛选以确保准确性。随后，设计特定提示模板指导模型生成操纵与非操纵的社交媒体帖子及评论。生成的内容经过人工标注者严格验证，剔除不相关或低质量数据，最终形成包含800个社交媒体项目与500篇参考文章的高质量数据集。

特点

BanMANI数据集作为孟加拉语首个针对社交媒体新闻操纵识别的基准，具有鲜明的特色。其核心在于区分社交媒体内容是否对可靠新闻源进行了信息篡改，并进一步定位被操纵的文本片段。数据集包含530个操纵样本与270个非操纵样本，涵盖政治、国家、国际等多个易于发生信息操纵的领域。尤为重要的是，数据集中同时提供了社交媒体文本中的“篡改片段”与原文中的“原始片段”标注，支持细粒度的信息对比分析，为模型理解语义层面的操纵行为提供了结构化基础。

使用方法

该数据集主要用于评估和训练模型在孟加拉语新闻操纵识别任务上的性能。研究者和开发者可将其应用于三个逐级深入的子任务：首先进行社交媒体项目是否被操纵的二元分类；若被操纵，则需识别项目中的具体篡改文本片段；最后，定位参考新闻文章中与之对应的原始信息片段。数据集已划分为训练集与测试集，支持零样本评估、微调训练等多种实验设置。通过该数据集，能够系统检验自然语言处理模型在低资源语言环境下对复杂语义不一致现象的检测与推理能力。

背景与挑战

背景概述

在信息传播日益依赖社交媒体的时代，虚假与篡改新闻的泛滥已成为全球性挑战，尤其对语言资源匮乏的语种构成严重威胁。BanMANI数据集由南佛罗里达大学与拉杰沙希工程技术大学的研究团队于2023年共同创建，旨在填补孟加拉语在社交媒体新闻篡改检测领域的空白。该数据集包含800条社交媒体内容与500篇参考新闻文章，通过半自动方法构建，重点关注政治、国际事务等高风险领域。作为孟加拉语首个针对新闻篡改识别的专项资源，BanMANI不仅为低资源语言的自然语言处理研究提供了范式，更通过揭示大型语言模型在此任务上的局限，推动了跨语言虚假信息治理技术的发展。

当前挑战

BanMANI数据集致力于解决社交媒体中新闻内容篡改的识别问题，其核心挑战在于区分恶意篡改与合理观点表达，并精准定位篡改片段与原新闻的对应关系。这一任务要求模型具备深度的语义推理与跨文本对齐能力，而孟加拉语复杂的语言形态与稀缺的语言工具进一步放大了技术难度。在构建过程中，研究团队面临双重困境：其一，孟加拉语缺乏类似FakeNewsNet的基准数据源，需从零收集新闻与社交媒体对应关系；其二，可用的命名实体识别等自然语言处理工具错误率较高，迫使研究者引入人工过滤与补充实体替换集，以半自动化流程平衡数据规模与质量。这些挑战凸显了低资源语言数据集建设中工具链薄弱与标注成本高昂的普遍难题。

常用场景

经典使用场景

在孟加拉语社交媒体信息操纵检测领域，BanMANI数据集为研究者提供了一个标准化的评估平台。该数据集通过标注社交媒体内容相对于参考新闻文章的操纵情况，支持模型在零样本和微调设置下的性能测试。其经典使用场景集中于自然语言处理任务，特别是针对孟加拉语社交媒体新闻的操纵识别，为低资源语言环境下的信息验证研究奠定了数据基础。

衍生相关工作

BanMANI数据集衍生了多项相关经典工作，其构建方法借鉴了英语领域的ManiTweet数据集，并扩展至低资源语言环境。该数据集促进了孟加拉语自然语言处理工具的开发，如命名实体识别系统的优化，同时也为后续研究提供了基准，推动了针对其他低资源语言类似数据集的创建与模型评估工作的发展。

数据集最近研究