LIAR

Name: LIAR
Creator: OpenDataLab
Published: 2026-05-17 05:30:14
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/LIAR

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了骗子：一个新的、公开可用的假新闻检测数据集。我们从 PolitiFact.com 收集了长达十年、12800 条人工标记的各种上下文的简短陈述，该网站提供了详细的分析报告和每个案例的源文件链接。该数据集也可用于事实检查研究。值得注意的是，这个新数据集比以前最大的类似类型的公共假新闻数据集大一个数量级。根据经验，我们研究了基于表面语言模式的自动假新闻检测。我们设计了一种新颖的混合卷积神经网络来整合元数据和文本。我们展示了这种混合方法可以改进纯文本深度学习模型。

We introduce Pianzi: a new, publicly available fake news detection dataset. We collected 12,800 manually labeled short statements across various contexts over a decade from PolitiFact.com, a website that provides detailed analytical reports and source file links for each case. This dataset can also be used for fact-checking research. Notably, this new dataset is an order of magnitude larger than the largest public fake news dataset of its kind previously available. Empirically, we investigated automated fake news detection based on surface-level linguistic patterns. We designed a novel hybrid convolutional neural network that integrates metadata and text. We demonstrate that this hybrid approach outperforms pure-text deep learning models.

提供机构：

OpenDataLab

创建时间：

2022-05-30

搜集汇总

数据集介绍

构建方式

LIAR数据集的构建基于对政治演讲和新闻报道的广泛收集与分析。该数据集从多个新闻源和政治辩论中提取了大量语句，并通过人工标注的方式，将这些语句分类为六个不同的真实性级别：完全真实、大部分真实、半真半假、大部分虚假、完全虚假以及无事实依据。这种多层次的分类方法使得LIAR数据集能够更细致地反映语句的真实性程度，从而为研究者提供了一个丰富的数据资源。

特点

LIAR数据集的主要特点在于其多层次的真实性分类系统，这一系统不仅区分了语句的真实与虚假，还进一步细化了真实性的程度，从而提供了更为精细的分析维度。此外，该数据集涵盖了广泛的政治和新闻领域，包括但不限于总统辩论、新闻发布会和新闻文章，确保了数据的多样性和代表性。这种全面性和细致性使得LIAR数据集在研究假新闻检测、信息真实性评估等领域具有显著的优势。

使用方法

LIAR数据集的使用方法多样，主要应用于自然语言处理和机器学习领域。研究者可以利用该数据集训练和评估假新闻检测模型，通过分析语句的真实性分类，提升模型的准确性和鲁棒性。此外，LIAR数据集还可用于研究信息传播机制，探索不同真实性级别的语句在社交媒体和新闻平台上的传播模式。通过这些应用，研究者能够更深入地理解信息的真实性评估和传播规律，从而为相关领域的研究和实践提供有力支持。

背景与挑战

背景概述

在信息爆炸的时代，虚假信息的传播成为了一个严重的社会问题。LIAR数据集由William Yang Wang等人于2017年创建，旨在解决自动识别虚假新闻的挑战。该数据集包含了超过12,000条新闻记录，每条记录都标注了其真实性类别。LIAR数据集的发布为研究者提供了一个标准化的测试平台，推动了自然语言处理和机器学习领域在虚假新闻检测方面的研究进展。

当前挑战

LIAR数据集的构建过程中面临了多重挑战。首先，数据标注的准确性是一个关键问题，因为虚假新闻的定义和识别标准在不同情境下可能有所不同。其次，数据集的多样性也是一个挑战，包括不同来源、不同主题和不同语言风格的新闻。此外，如何处理新闻内容中的隐含信息和上下文依赖关系，也是提高检测模型性能的重要课题。

发展历史

创建时间与更新

LIAR数据集由William Yang Wang于2017年创建，旨在为自然语言处理领域提供一个用于检测虚假新闻的标准数据集。该数据集自创建以来未有官方更新记录。

重要里程碑

LIAR数据集的发布标志着虚假新闻检测领域的一个重要里程碑。它首次引入了多源数据集成的概念，包含了从PolitiFact网站上收集的12,836条陈述，涵盖了六个不同的真实性类别。这一数据集的推出极大地推动了基于机器学习的虚假新闻检测研究，为后续研究提供了丰富的实验数据和基准。

当前发展情况

当前，LIAR数据集已成为虚假新闻检测研究中的标准基准之一，广泛应用于各种机器学习和深度学习模型中。其对多源数据的有效整合和详尽的标注，使得研究人员能够更准确地评估和改进虚假新闻检测算法。此外，LIAR数据集的成功应用也激发了更多关于数据集扩展和细化的研究，进一步推动了该领域的技术进步和应用深化。

发展历程

LIAR数据集首次发表在《Fact or Fiction: Verifying Scientific Claims》论文中，由William Yang Wang等人提出，旨在评估自动事实核查系统。
2017年
LIAR数据集被广泛应用于多个研究项目中，包括自然语言处理和机器学习领域，以测试和改进事实核查算法。
2018年
随着数据集的普及，LIAR成为事实核查研究的标准基准之一，促进了相关技术的进一步发展。
2019年
LIAR数据集的影响力持续扩大，被用于多个国际会议和竞赛中，推动了事实核查技术的创新和应用。
2020年
LIAR数据集的持续使用和更新，使其在事实核查领域保持了重要的地位，并继续为相关研究提供支持。
2021年

常用场景

经典使用场景

在自然语言处理领域，LIAR数据集被广泛用于谎言检测和事实核查任务。该数据集包含了从政治演讲、新闻报道等多种来源中提取的陈述，每个陈述都标有其真实性标签。研究人员利用这一数据集开发和评估各种机器学习模型，以识别和分类文本中的虚假信息。通过对比不同模型的性能，LIAR数据集为谎言检测技术的发展提供了宝贵的基准。

衍生相关工作

基于LIAR数据集，许多后续研究工作得以展开，形成了丰富的研究成果。例如，有研究者提出了结合上下文信息和用户行为数据的谎言检测模型，显著提高了检测的准确性。此外，还有工作探索了跨语言的谎言检测方法，使得模型能够处理不同语言环境下的虚假信息。这些衍生工作不仅扩展了LIAR数据集的应用范围，也为谎言检测技术的多样化和全球化发展提供了新的思路和方法。

数据集最近研究