five

OBSINFOX

收藏
arXiv2024-04-11 更新2024-06-21 收录
下载链接:
https://github.com/obs-info/obsinfox
下载链接
链接失效反馈
官方服务:
资源简介:
OBSINFOX数据集由索邦大学LIP6实验室和法国国家科学研究中心创建,包含100篇被专家机构认为不可靠的法语新闻文档。该数据集通过11个标签进行标注,涉及虚假新闻的多个维度,如事实、观点、主观性等。数据集的创建过程涉及从大量文章中筛选并由8位标注者进行详细标注。OBSINFOX数据集主要用于研究虚假新闻的特征识别和自动分类器的性能对比,旨在提高对虚假新闻的识别准确性。

The OBSINFOX dataset was created by the LIP6 Laboratory at Sorbonne University and the French National Centre for Scientific Research (CNRS). It contains 100 French news documents deemed unreliable by expert institutions. The dataset is annotated with 11 labels covering multiple dimensions of misinformation, such as facts, opinions and subjectivity. The dataset's development process involved screening from a large corpus of articles and detailed annotation work carried out by 8 annotators. The OBSINFOX dataset is primarily used for research on misinformation feature recognition and performance comparison of automatic classifiers, aiming to improve the accuracy of misinformation detection.
提供机构:
索邦大学LIP6实验室,法国国家科学研究中心,法国
创建时间:
2024-03-24
搜集汇总
数据集介绍
main_image_url
构建方式
在虚假新闻检测领域,多维标注的匮乏长期制约着研究的深入。OBSINFOX数据集正是为回应这一挑战而构建,它从NewsGuard和Conspiracy Watch等权威机构认定的17个不可靠法语新闻源中,精选出100篇文档。这些文档源自一个包含54,845篇文章的初始语料库,通过TfidfVectorizer进行预测筛选,最终保留49篇被预测为虚假新闻和51篇非虚假新闻的文章。标注过程邀请了8位标注者,基于11个精心设计的标签(涵盖虚假信息、主观性、夸张、暗示等维度)进行二元标注,每个文档均获得8份独立标注,从而捕捉个体差异与集体共识。
特点
该数据集的核心特色在于其丰富的标注维度与精细的分析潜力。与仅依赖二元标签的常见数据集不同,OBSINFOX通过11个标签揭示了虚假新闻的多面性,如“虚假信息”与“虚假新闻”的区分,以及“夸张”与“暗示”等风格化特征。标注者间的中等一致性(Fleiss's κ=0.466)表明标签定义清晰且具区分度,其中“事实”标签一致性最高,“暗示”最低。此外,数据集不提供聚合标签,而是保留每位标注者的原始判断,为研究个体标注偏差与标签间复杂关联(如“主观性”与“虚假新闻”的高度相关)提供了独特窗口。
使用方法
OBSINFOX数据集适用于多种研究场景,尤其擅长支持回归分析与跨标签关联研究。研究者可利用其丰富的标注信息,通过VAGO等主观性分析工具,探索语言标记(如模糊性、意见强度)与人类标注间的相关性,从而揭示虚假新闻的典型语言线索。尽管数据量有限(100篇),但它在训练分类器时仍具价值,可用于验证多标签分类模型或分析特定标签(如“夸张”)对虚假新闻判定的贡献。数据集以开源形式发布在GitHub上,便于下载与复现,并附有详细的README说明源列表与标注流程。
背景与挑战
背景概述
在虚假新闻检测领域,现有数据集多采用二元标签(如“偏见”与“合法”),难以捕捉虚假新闻的多维语义特征,尤其是风格化信息与主观性线索的缺失制约了检测算法的可解释性。2024年,由索邦大学、法国国家科研中心及空中客车等机构的研究人员共同构建的OBSINFOX数据集应运而生。该数据集从17家被专家机构认定为不可靠的法语新闻源中精选100篇文档,由8名标注员依据11个标签进行多标签标注,涵盖虚假信息、夸张、主观性、影射等维度。其核心研究问题在于:人类标注者如何识别虚假新闻的典型特征,以及这些特征能否被自动化分类器复现。OBSINFOX虽规模有限,却以丰富的标注体系揭示了虚假新闻的语言学规律,为法语虚假新闻检测提供了独特的细粒度基准,并推动了主观性与虚假性之间关联的量化分析。
当前挑战
OBSINFOX数据集面临的核心挑战首先来自领域问题的复杂性:虚假新闻本身具有多维性,涵盖捏造、讽刺、偏见与夸张等不同形态,而现有二元标签数据集(如ISOT)无法区分这些类别,导致分类器缺乏对虚假新闻风格化线索的识别能力。其次,在构建过程中,标注一致性成为显著难题——8名标注员对11个标签的Fleiss's kappa均值仅为0.466,表明中等程度的一致性,尤其“影射”标签的认可度最低。此外,数据集规模仅100篇文档,虽利于深度分析却不足以训练鲁棒的分类器。标注员群体高度同质(均拥有高等教育学历),限制了结果的可推广性。最后,自动化工具(如VAGO)虽能捕捉主观性线索,但其与“虚假新闻”标签的相关性较弱,表明语言主观性仅是虚假性的一部分,而非充分条件,这为多标签推理带来了额外挑战。
常用场景
经典使用场景
OBSINFOX数据集专为法语虚假新闻的多标签分类任务而设计,其经典使用场景在于对新闻文本进行细粒度的语义标注与特征分析。研究者可利用该数据集中的11个标签——涵盖虚假信息、主观性、夸张、暗示性表述及标题误导性等维度——来训练和评估多标签分类模型,从而实现对假新闻的精准识别与类型划分。该数据集特别适用于分析主观性、情感倾向与虚假性之间的关联,为跨语言的假新闻检测研究提供了宝贵的法语标注资源。
解决学术问题
在学术研究中,OBSINFOX数据集有效解决了假新闻检测中标签单一化与标注维度不足的难题。传统数据集往往仅使用二元标签(如真假),难以捕捉假新闻的多维特征。该数据集通过引入11个细粒度标签,系统性地探讨了主观性、夸张、暗示与虚假信息之间的内在关联,并借助VAGO工具验证了语言主观性标记与假新闻标注之间的统计相关性。这一工作推动了多标签假新闻分类的理论发展,为理解人类与机器在假新闻判定上的认知差异提供了实证基础。
衍生相关工作
OBSINFOX数据集衍生了多项经典研究工作,包括基于VAGO工具的主观性检测方法及其神经网络变体VAGO-N,后者在法语讽刺语料库FreSaDa上训练,实现了对文本模糊性与主观性的量化分析。此外,该数据集催生了后续关于宣传性新闻风格线索的研究(Faye et al., 2024),通过调整标签集分析操纵性说服技巧。这些工作进一步拓展了多标签标注在假新闻检测中的应用,推动了法语自然语言处理领域在虚假信息识别、主观性建模及跨领域迁移学习方面的进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作