five

LIAR

收藏
arXiv2017-05-02 更新2024-06-21 收录
下载链接:
https://www.cs.ucsb.edu/~william/data/liar_dataset.zip
下载链接
链接失效反馈
官方服务:
资源简介:
LIAR数据集是由加州大学圣塔芭芭拉分校计算机科学系创建的一个公开可用数据集,专门用于假新闻检测。该数据集包含从2007年至2016年收集的12,836条手动标记的简短声明,这些声明来自POLITIFACT.COM,涵盖了广泛的政治话题。数据集不仅规模大,而且内容丰富,包括新闻发布、电视/广播采访、竞选演讲等多种场合的声明。每个声明都附有详细的分析报告和源文档链接,确保了数据的真实性和可靠性。LIAR数据集的应用领域主要集中在自动假新闻检测和事实核查研究,旨在通过计算方法提高对虚假信息的识别能力。

The LIAR dataset is a publicly available dataset created by the Department of Computer Science at the University of California, Santa Barbara, specifically for fake news detection. It contains 12,836 manually labeled short claims collected from POLITIFACT.COM between 2007 and 2016, covering a wide range of political topics. The dataset not only has a large scale but also rich content, including claims from various scenarios such as news releases, TV/radio interviews, campaign speeches and other occasions. Each claim is accompanied by detailed analysis reports and links to source documents, ensuring the authenticity and reliability of the data. The main application fields of the LIAR dataset focus on automatic fake news detection and fact-checking research, aiming to improve the ability to identify misinformation through computational methods.
提供机构:
加州大学圣塔芭芭拉分校计算机科学系
创建时间:
2017-05-02
搜集汇总
数据集介绍
main_image_url
构建方式
在虚假新闻检测领域,数据稀缺长期制约着算法模型的演进。LIAR数据集的构建依托于权威事实核查平台POLITIFACT.COM,通过其公开接口采集了跨越十年时间跨度的12,836条短文本陈述。每条陈述均由平台专业编辑进行人工标注,依据证据分析报告赋予六档真实性标签,涵盖“完全虚假”至“完全真实”的细粒度分类。数据采集过程注重语境多样性,涵盖电视辩论、社交媒体帖子、新闻发布会等多种真实场景,并整合了说话者背景、历史可信度等丰富的元数据,为模型提供了多维度分析基础。
特点
LIAR数据集以其规模与质量的双重优势,成为虚假新闻检测领域的里程碑式资源。其核心特征在于细粒度的六分类真实性标注体系,突破了传统二分类的局限,更贴合现实世界中言论真实性的连续光谱。数据集覆盖政治、经济、医疗等多领域主题,说话者背景兼顾民主、共和两党及社交媒体匿名用户,确保了样本的多样性与代表性。尤为突出的是,每条数据均附带详细的事实核查报告与原始文档链接,为可解释性研究提供了坚实支撑。
使用方法
该数据集主要服务于虚假新闻检测与自动事实核查任务,可构建为六分类文本识别问题。研究者可基于陈述文本内容,结合说话者身份、历史记录、语境等元数据,设计融合多源信息的神经网络模型。典型应用流程包括:利用预训练词向量编码文本特征,通过卷积或循环神经网络提取语义模式;同时将元数据嵌入向量空间,与文本表征进行层次化融合,最终通过分类器输出真实性概率分布。数据集已划分训练、验证与测试子集,支持端到端的模型训练与评估。
背景与挑战
背景概述
在信息时代,虚假新闻的泛滥对新闻业的公信力与社会稳定构成了严峻挑战。为应对这一难题,加州大学圣塔芭芭拉分校的研究团队于2017年推出了LIAR数据集,旨在为虚假新闻检测研究提供高质量的基准资源。该数据集从权威事实核查网站POLITIFACT.COM收集了跨越十年、共计12.8K条人工标注的简短声明,覆盖政治辩论、社交媒体帖子等多种语境。其核心研究问题聚焦于通过表面语言模式与元数据融合,实现细粒度的虚假新闻自动识别。作为当时规模最大的同类公开数据集,LIAR显著推动了自然语言处理领域在虚假新闻检测与自动事实核查方向的发展,为后续机器学习模型的训练与评估奠定了坚实基础。
当前挑战
虚假新闻检测领域面临的核心挑战在于,政治语言与社交媒体文本通常篇幅短小、语境复杂,使得基于语言特征的模型难以捕捉深层次的欺骗模式。LIAR数据集旨在解决这一细粒度分类问题,但构建过程中亦遭遇多重困难:首先,数据标注依赖专业新闻工作者的手动核查,需耗费大量时间与人力成本以确保标签的准确性与一致性;其次,声明来源的多样性,如电视访谈、推特帖子等,导致文本风格与主题分布高度异构,增加了模型泛化的难度;此外,元数据(如演讲者历史记录)的整合虽能提升性能,却需精细处理以避免数据泄露,如从信用历史中剔除当前语句的影响。这些挑战共同凸显了在真实、复杂语境下构建高质量虚假新闻数据集的艰巨性。
常用场景
经典使用场景
在虚假新闻检测领域,LIAR数据集作为一项重要基准资源,常被用于训练和评估基于深度学习的多类别文本分类模型。研究者利用该数据集中的12.8K条带有多级真实性标签的短文本语句,探索从表面语言特征中识别虚假信息的有效性。通过结合文本内容与丰富的元数据(如说话者背景、历史记录和语境信息),该数据集支持开发能够整合多源信息的混合神经网络架构,从而提升模型在细粒度真实性判断上的性能。
解决学术问题
LIAR数据集有效解决了虚假新闻检测研究中缺乏大规模、高质量标注数据的瓶颈问题。其提供的十年跨度、多语境真实语句,使得机器学习模型能够从丰富的语言模式和元数据中学习欺骗性特征。该数据集推动了自动事实核查、立场分类和谣言检测等研究方向的发展,为自然语言处理社区提供了评估模型泛化能力和鲁棒性的标准化平台,显著促进了虚假信息识别技术的进步。
衍生相关工作
围绕LIAR数据集,学术界衍生了一系列经典研究工作,包括基于混合卷积神经网络的元数据整合方法、针对短文本的细粒度分类模型优化,以及跨领域虚假信息检测框架的探索。这些工作不仅提升了虚假新闻检测的准确率,还推动了立场分析、论据挖掘和政治自然语言处理等相邻领域的发展,为后续大规模多模态虚假信息数据集的构建提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作