LIAR

github2024-04-04 更新2024-05-31 收录

下载链接：

https://github.com/thiagorainmaker77/liar_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

LIAR是一个用于假新闻检测的基准数据集，包含多种真实性标签的陈述，用于研究和分析。

LIAR is a benchmark dataset designed for fake news detection, comprising statements annotated with various truthfulness labels, intended for research and analysis purposes.

创建时间：

2019-02-03

原始信息汇总

数据集概述

名称: LIAR: A BENCHMARK DATASET FOR FAKE NEWS DETECTION

作者: William Yang Wang

发表会议: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017)

数据集格式: TSV

数据集结构:

Column 1: 语句ID ([ID].json)
Column 2: 标签
Column 3: 语句内容
Column 4: 主题
Column 5: 发言人
Column 6: 发言人职位
Column 7: 州信息
Column 8: 党派归属
Column 9-13: 信用历史计数
- 9: 几乎不真实计数
- 10: 虚假计数
- 11: 半真计数
- 12: 大部分真实计数
- 13: 极度虚假计数
Column 14: 上下文（演讲或声明的场合/地点）

版权与使用:

原始数据源保留版权。
数据集仅限于研究使用。
数据集提供“原样”，不提供任何保证。

联系方式:

作者: William Wang
邮箱: william@cs.ucsb.edu

版本: v1.0 (2017-04-23)

搜集汇总

数据集介绍

构建方式

LIAR数据集的构建基于对政治声明的详细分析，通过从Politifact网站收集的声明数据，每条记录包含声明的ID、标签、声明内容、主题、发言人、发言人职位、州信息、党派归属以及发言人的信用历史统计。这些数据通过TSV格式存储，确保了数据的结构化和易处理性。此外，数据集还提供了访问完整判决报告的命令，增强了数据的可追溯性和完整性。

特点

LIAR数据集的显著特点在于其详细且多维度的信息记录，不仅涵盖了声明的基本信息，还包含了发言人的信用历史和上下文信息，这为假新闻检测提供了丰富的特征。数据集的标签系统细致，包括从‘barely true’到‘pants on fire’等多个层次，使得分类任务更加精细和具有挑战性。

使用方法

使用LIAR数据集进行研究时，首先需下载数据集并解析TSV文件，提取所需信息。研究者可以利用声明的文本内容、发言人信息及其信用历史等多维度特征进行模型训练。此外，通过提供的命令，研究者可以进一步获取完整的判决报告，以验证和丰富分析结果。数据集仅限用于研究目的，使用时应遵守相关版权和使用规定。

背景与挑战

背景概述

在信息爆炸的时代，虚假新闻的泛滥已成为一个严峻的社会问题。为了应对这一挑战，William Yang Wang及其团队于2017年创建了LIAR数据集，旨在为虚假新闻检测提供一个基准。该数据集收录了大量政治领域的陈述，通过详细的标签和背景信息，帮助研究人员开发和评估虚假新闻检测算法。LIAR数据集的发布不仅推动了自然语言处理领域的发展，也为公众提供了更为可靠的信息来源，具有重要的学术和社会价值。

当前挑战

尽管LIAR数据集在虚假新闻检测领域取得了显著进展，但其构建过程中仍面临诸多挑战。首先，数据的真实性依赖于外部来源，如Politifact，这可能导致数据的一致性和准确性问题。其次，数据集的标签依赖于人工判断，可能存在主观偏差。此外，数据集的规模和多样性有限，难以覆盖所有类型的虚假新闻。这些挑战要求研究人员在利用该数据集时，需谨慎处理数据的不确定性和局限性，以确保研究结果的可靠性和普适性。

常用场景

经典使用场景

在信息爆炸的时代，虚假新闻的检测成为了一个紧迫的挑战。LIAR数据集通过提供大量标注的虚假新闻样本，为研究者提供了一个经典的使用场景。研究者可以利用该数据集训练和评估虚假新闻检测模型，探索如何通过自然语言处理技术自动识别和分类新闻的真实性。

实际应用

在实际应用中，LIAR数据集为新闻媒体和社交媒体平台提供了一个重要的工具，帮助它们自动过滤和标记潜在的虚假信息。这不仅有助于提升信息的真实性和可信度，还能有效减少虚假新闻对公众舆论和社会稳定的负面影响。此外，政府和监管机构也可以利用该数据集开发相应的监控和预警系统。

衍生相关工作

基于LIAR数据集，许多后续研究工作得以展开，推动了虚假新闻检测领域的快速发展。例如，研究者们提出了多种改进的机器学习模型和深度学习架构，以提高检测的准确性和效率。同时，该数据集也激发了对新闻内容生成和传播机制的深入研究，促进了跨学科的合作与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集