five

BanMANI

收藏
arXiv2023-11-05 更新2024-06-21 收录
下载链接:
https://github.com/kamruzzaman15/BanMANI
下载链接
链接失效反馈
官方服务:
资源简介:
BanMANI是一个针对孟加拉语社交媒体新闻操纵识别的数据集,由南佛罗里达大学等机构创建。该数据集包含800条社交媒体内容,与500篇参考新闻文章相关联,用于训练和评估模型识别新闻操纵的能力。数据集通过半自动方法生成,利用ChatGPT和孟加拉语NER系统辅助,由人工标注者验证。BanMANI旨在解决孟加拉语社交媒体中新闻操纵的问题,为低资源语言提供数据支持,以提升现有NLP系统的性能和训练新模型。

BanMANI is a dataset dedicated to identifying news manipulation in Bengali social media, developed by institutions including the University of South Florida. It contains 800 social media content entries associated with 500 reference news articles, and is utilized for training and evaluating models' capacity to recognize news manipulation. The dataset was generated via a semi-automatic method, assisted by ChatGPT and Bengali NER systems, and validated by human annotators. BanMANI aims to address the issue of news manipulation in Bengali social media, providing data support for low-resource languages to enhance the performance of existing NLP systems and support the training of new models.
提供机构:
南佛罗里达大学
创建时间:
2023-11-05
搜集汇总
数据集介绍
main_image_url
构建方式
在孟加拉语信息操纵检测领域,现有资源匮乏,BanMANI数据集的构建采用了一种半自动化的创新方法。该过程以BanFakeNews数据集中的2300篇新闻文章为种子,利用ChatGPT生成相关的社交媒体内容。首先,通过孟加拉语命名实体识别系统提取可替换的实体集合,并辅以人工筛选以确保准确性。随后,设计特定提示模板指导模型生成操纵与非操纵的社交媒体帖子及评论。生成的内容经过人工标注者严格验证,剔除不相关或低质量数据,最终形成包含800个社交媒体项目与500篇参考文章的高质量数据集。
特点
BanMANI数据集作为孟加拉语首个针对社交媒体新闻操纵识别的基准,具有鲜明的特色。其核心在于区分社交媒体内容是否对可靠新闻源进行了信息篡改,并进一步定位被操纵的文本片段。数据集包含530个操纵样本与270个非操纵样本,涵盖政治、国家、国际等多个易于发生信息操纵的领域。尤为重要的是,数据集中同时提供了社交媒体文本中的“篡改片段”与原文中的“原始片段”标注,支持细粒度的信息对比分析,为模型理解语义层面的操纵行为提供了结构化基础。
使用方法
该数据集主要用于评估和训练模型在孟加拉语新闻操纵识别任务上的性能。研究者和开发者可将其应用于三个逐级深入的子任务:首先进行社交媒体项目是否被操纵的二元分类;若被操纵,则需识别项目中的具体篡改文本片段;最后,定位参考新闻文章中与之对应的原始信息片段。数据集已划分为训练集与测试集,支持零样本评估、微调训练等多种实验设置。通过该数据集,能够系统检验自然语言处理模型在低资源语言环境下对复杂语义不一致现象的检测与推理能力。
背景与挑战
背景概述
在信息传播日益依赖社交媒体的时代,虚假与篡改新闻的泛滥已成为全球性挑战,尤其对语言资源匮乏的语种构成严重威胁。BanMANI数据集由南佛罗里达大学与拉杰沙希工程技术大学的研究团队于2023年共同创建,旨在填补孟加拉语在社交媒体新闻篡改检测领域的空白。该数据集包含800条社交媒体内容与500篇参考新闻文章,通过半自动方法构建,重点关注政治、国际事务等高风险领域。作为孟加拉语首个针对新闻篡改识别的专项资源,BanMANI不仅为低资源语言的自然语言处理研究提供了范式,更通过揭示大型语言模型在此任务上的局限,推动了跨语言虚假信息治理技术的发展。
当前挑战
BanMANI数据集致力于解决社交媒体中新闻内容篡改的识别问题,其核心挑战在于区分恶意篡改与合理观点表达,并精准定位篡改片段与原新闻的对应关系。这一任务要求模型具备深度的语义推理与跨文本对齐能力,而孟加拉语复杂的语言形态与稀缺的语言工具进一步放大了技术难度。在构建过程中,研究团队面临双重困境:其一,孟加拉语缺乏类似FakeNewsNet的基准数据源,需从零收集新闻与社交媒体对应关系;其二,可用的命名实体识别等自然语言处理工具错误率较高,迫使研究者引入人工过滤与补充实体替换集,以半自动化流程平衡数据规模与质量。这些挑战凸显了低资源语言数据集建设中工具链薄弱与标注成本高昂的普遍难题。
常用场景
经典使用场景
在孟加拉语社交媒体信息操纵检测领域,BanMANI数据集为研究者提供了一个标准化的评估平台。该数据集通过标注社交媒体内容相对于参考新闻文章的操纵情况,支持模型在零样本和微调设置下的性能测试。其经典使用场景集中于自然语言处理任务,特别是针对孟加拉语社交媒体新闻的操纵识别,为低资源语言环境下的信息验证研究奠定了数据基础。
衍生相关工作
BanMANI数据集衍生了多项相关经典工作,其构建方法借鉴了英语领域的ManiTweet数据集,并扩展至低资源语言环境。该数据集促进了孟加拉语自然语言处理工具的开发,如命名实体识别系统的优化,同时也为后续研究提供了基准,推动了针对其他低资源语言类似数据集的创建与模型评估工作的发展。
数据集最近研究
最新研究方向
在孟加拉语社交媒体信息操纵检测领域,BanMANI数据集的推出标志着对低资源语言虚假新闻研究的重要突破。该数据集聚焦于识别社交媒体内容中相对于可靠新闻文章的特定信息篡改行为,其构建采用了半自动化方法,结合ChatGPT生成与人工标注,以克服孟加拉语自然语言处理工具稀缺的挑战。前沿研究方向包括利用大型语言模型进行零样本和微调设置下的多任务学习,涵盖篡改检测、篡改片段定位及原始文章对应部分识别等子任务。热点事件如2012年Ramu事件凸显了孟加拉语社交媒体操纵的现实危害,使得该数据集在提升信息完整性、支持多语言NLP系统开发以及促进跨语言技术迁移方面具有深远意义,为全球低资源语言社区的信息治理提供了可复制的框架。
相关研究论文
  • 1
    BanMANI: A Dataset to Identify Manipulated Social Media News in Bangla南佛罗里达大学 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作