nepal-ooc-misinformation

Hugging Face2026-03-29 更新2026-03-30 收录

下载链接：

https://huggingface.co/datasets/theonlysanjeev/nepal-ooc-misinformation

下载链接

链接失效反馈

官方服务：

资源简介：

尼泊尔政治背景错误信息数据集（Nepal OOC Political Misinformation Dataset）是一个用于检测尼泊尔政治新闻中背景错误信息（Out-of-Context Misinformation）的双语（尼泊尔语/英语）数据集。该数据集包含773个标注的图像-标题对，收集自尼泊尔的事实核查平台。数据集分为训练集（541条）、验证集（115条）和测试集（117条），其中545条记录包含可下载的图像。数据标注包括背景正确（0）和背景错误（1）两类，并进一步细分为五种错误类型：捏造（Fabricated）、错误标注（Miscaptioned）、时间不匹配（Temporal Mismatch）、地理不匹配（Geographic Mismatch）和身份不匹配（Identity Mismatch）。数据集支持多模态（图像+文本）和纯文本实验，包含丰富的元数据字段，如唯一标识符、分割标签、原始标题、完整声明、真实背景、图像URL、语言类型、来源网站、发布日期等。该数据集适用于多标签分类和事实核查任务，特别关注低资源环境下的政治错误信息检测。

创建时间：

2026-03-22

原始信息汇总

Nepal OOC Political Misinformation Dataset 数据集概述

数据集基本信息

数据集名称：Nepal OOC Political Misinformation Dataset
发布者：Sanjeev Khatiwada
发布年份：2025
发布平台：HuggingFace
数据集地址：https://huggingface.co/datasets/theonlysanjeev/nepal-ooc-misinformation
许可协议：CC BY 4.0
联系方式：Sanjeev Khatiwada (skhatiwada558@gmail.com, https://github.com/SanjeevKCodes)

数据集描述

核心任务：检测尼泊尔政治新闻中的上下文外（Out-of-Context, OOC）虚假信息。
内容：包含773条带标注的图片-标题对，收集自尼泊尔事实核查平台。
语言：双语（尼泊尔语/英语）。
模态：多模态（文本与图像）。
领域：政治新闻。
资源类型：低资源语言。

任务与标签

任务类别：文本分类、图像-文本到文本。
任务ID：多标签分类、事实核查。
标签：
- 0 / in_context：上下文内（真实）。
- 1 / out_of_context：上下文外（虚假信息）。

数据划分与统计

划分	总样本数	上下文内 (0)	上下文外 (1)	可用图像数
训练集	541	306	235	387
验证集	115	66	49	70
测试集	117	66	51	88
总计	773	438	335	545

注：773条数据中有545条在收集时图像URL可访问。image_available列（0/1）标记了哪些行有可下载的图像。多模态实验使用image_available = 1的数据，纯文本实验可使用全部773条数据。

上下文外（OOC）虚假信息类型分布

类型	数量
捏造	409
错误配文	188
时间错配	86
地理错配	60
身份错配	20

语言分布

语言	数量
尼泊尔语 (ne)	539
英语 (en)	196
双语 (ne-en)	38

数据字段说明

字段名	描述
`post_id`	唯一行标识符
`split`	数据划分：train / validation / test
`label`	数字标签：0 = 上下文内，1 = 上下文外
`label_text`	文本标签：in_context / out_of_context
`caption`	原始图片标题
`full_claim`	完整的声明文本
`true_context`	经过核实的真实背景
`image_url`	源图片URL
`image_available`	图像是否可下载：1=是，0=死链
`misinformation_type`	OOC虚假信息类型类别
`verdict`	双语核查结论（如 False / झुटो）
`language`	语言：ne / en / ne-en
`source_site`	事实核查来源网站
`posted_date`	发布日期
`categories`	主题类别
`named_entities`	关键人物、地点、组织

数据来源

收集自28个事实核查平台，包括NepalFactCheck, TechPana, Khabarhub, BoomLive, Newschecker Nepal, South Asia Check等。

引用格式

bibtex @dataset{khatiwada2025nepooc, author = {Sanjeev Khatiwada}, title = {Nepal OOC Political Misinformation Dataset}, year = {2025}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/theonlysanjeev/nepal-ooc-misinformation} }

搜集汇总

数据集介绍

构建方式

在低资源语言环境下构建高质量数据集面临诸多挑战，尼泊尔政治背景下的虚假信息检测尤为复杂。该数据集通过系统采集尼泊尔本土事实核查平台的公开内容，精心筛选出773个图像-标题对作为基础样本。标注过程严格遵循多维度验证原则，不仅区分上下文匹配状态，还细致标注了五种具体的脱语境虚假信息类型，包括捏造内容、错误标注、时空错位等典型模式。数据划分采用标准的三分法，确保训练集、验证集和测试集的平衡分布，为模型评估提供可靠基础。

特点

该数据集最显著的特征在于其多模态与双语混合的复合结构，同时涵盖尼泊尔语、英语及双语混合文本，为跨语言虚假信息研究提供了珍贵素材。样本标注体系具有精细的层次结构，除了基础的二分类标签外，还包含完整的真实上下文描述、多类型虚假信息分类以及细粒度的话题类别标记。数据集的另一个突出特点是其真实场景代表性，所有样本均源自实际传播的政治新闻内容，并保留了原始图像链接与元数据信息，为研究社交媒体虚假信息的传播机制提供了实证基础。

使用方法

研究者可通过标准数据加载接口便捷获取该数据集，根据实验需求灵活选择多模态或纯文本分析路径。对于需要图像特征参与的任务，可通过筛选可用图像子集构建多模态训练样本；而纯文本分析则可利用完整的标注信息进行深度挖掘。在模型训练过程中，建议充分利用数据集中丰富的辅助字段，如命名实体识别结果和话题分类标签，以提升模型对政治语境的理解能力。该数据集特别适合用于开发针对低资源语言的虚假信息检测算法，以及探索多模态内容在跨文化语境下的语义一致性验证方法。

背景与挑战

背景概述

随着社交媒体和数字新闻平台的兴起，政治领域中的虚假信息传播已成为全球性挑战，尤其在多语言和低资源环境中，其检测与治理尤为复杂。尼泊尔作为一个多语言国家，其政治新闻中的图文脱节（Out-of-Context, OOC）错误信息现象日益凸显，严重影响了公众舆论与社会稳定。在此背景下，研究人员Sanjeev Khatiwada于2025年创建了尼泊尔OOC政治错误信息数据集，该数据集聚焦于尼泊尔政治新闻中的双语（尼泊尔语/英语）图文脱节检测问题，旨在通过773条标注的图文对，为低资源语言环境下的多模态错误信息识别提供关键资源。该数据集从28个事实核查平台收集数据，涵盖了多种OOC类型，如捏造、错误标注、时空错位等，不仅推动了尼泊尔本土错误信息研究的发展，也为全球低资源语言地区的多模态自然语言处理任务提供了重要参考。

当前挑战

该数据集致力于解决政治新闻中图文脱节错误信息的检测挑战，这一领域问题面临多重困难：首先，低资源语言如尼泊尔语缺乏大规模标注数据，导致模型训练中的语义理解与泛化能力受限；其次，多模态信息融合要求模型同时处理文本与图像特征，但图文不一致性往往隐含于细微语境中，增加了识别复杂度；此外，政治内容的动态性与文化特异性使得错误信息类型多样，如身份错位或地理误标，需精细的领域知识支撑。在构建过程中，研究者遭遇了数据采集与标注的实践挑战：尼泊尔本地事实核查平台分布分散，数据格式不一，需进行大量清洗与对齐工作；同时，部分图像链接失效，导致多模态实验仅能基于545个可用图像展开，影响了数据完整性；双语标注还需协调语言差异，确保尼泊尔语与英语语境下的标签一致性，这对标注者的语言能力提出了较高要求。

常用场景

经典使用场景

在低资源语言环境下，虚假信息检测研究常面临数据稀缺的挑战。Nepal OOC Political Misinformation Dataset 作为首个专注于尼泊尔政治新闻的双语数据集，其经典使用场景在于为研究者提供了一个标准化的基准，用于开发和评估针对脱离上下文（OOC）虚假信息的检测模型。该数据集包含773个带注释的图像-标题对，涵盖了多种OOC类型，如捏造、错误标注、时空错位等，使得模型能够在多模态（图像与文本）和纯文本两种模式下进行训练与验证，尤其适用于探索双语或多语言环境下的信息真实性验证任务。

解决学术问题

该数据集有效解决了多个关键学术研究问题。首先，它填补了尼泊尔语等低资源语言在虚假信息检测领域的数据空白，为跨语言和低资源自然语言处理研究提供了宝贵资源。其次，通过标注详细的OOC类型和真实上下文，数据集支持对虚假信息传播机制进行细粒度分析，有助于深入理解不同文化政治背景下虚假信息的构成与演变。最后，其多模态特性促进了计算机视觉与自然语言处理的交叉研究，推动了更鲁棒、可解释的虚假信息检测方法的发展，对维护数字时代的信息生态安全具有重要理论意义。

衍生相关工作

围绕该数据集，已衍生出一系列相关经典研究工作。在学术领域，研究者利用其多模态和双语特性，开发了基于Transformer的跨模态融合模型，用于提升OOC检测的准确率。同时，针对低资源语言处理挑战，出现了结合迁移学习和少样本学习的方法，以优化模型在数据稀缺场景下的性能。此外，该数据集还启发了对南亚地区特定政治语境下虚假信息传播模式的比较研究，推动了区域化虚假信息分析框架的构建。这些工作不仅深化了对OOC虚假信息的理解，也为全球范围内的多语言虚假信息治理提供了可借鉴的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集