LIAR
收藏github2024-04-04 更新2024-05-31 收录
下载链接:
https://github.com/thiagorainmaker77/liar_dataset
下载链接
链接失效反馈官方服务:
资源简介:
LIAR是一个用于假新闻检测的基准数据集,包含多种真实性标签的陈述,用于研究和分析。
LIAR is a benchmark dataset designed for fake news detection, comprising statements annotated with various truthfulness labels, intended for research and analysis purposes.
创建时间:
2019-02-03
原始信息汇总
数据集概述
名称: LIAR: A BENCHMARK DATASET FOR FAKE NEWS DETECTION
作者: William Yang Wang
发表会议: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017)
数据集格式: TSV
数据集结构:
- Column 1: 语句ID ([ID].json)
- Column 2: 标签
- Column 3: 语句内容
- Column 4: 主题
- Column 5: 发言人
- Column 6: 发言人职位
- Column 7: 州信息
- Column 8: 党派归属
- Column 9-13: 信用历史计数
- 9: 几乎不真实计数
- 10: 虚假计数
- 11: 半真计数
- 12: 大部分真实计数
- 13: 极度虚假计数
- Column 14: 上下文(演讲或声明的场合/地点)
版权与使用:
- 原始数据源保留版权。
- 数据集仅限于研究使用。
- 数据集提供“原样”,不提供任何保证。
联系方式:
- 作者: William Wang
- 邮箱: william@cs.ucsb.edu
版本: v1.0 (2017-04-23)
搜集汇总
数据集介绍

构建方式
LIAR数据集的构建基于对政治声明的详细分析,通过从Politifact网站收集的声明数据,每条记录包含声明的ID、标签、声明内容、主题、发言人、发言人职位、州信息、党派归属以及发言人的信用历史统计。这些数据通过TSV格式存储,确保了数据的结构化和易处理性。此外,数据集还提供了访问完整判决报告的命令,增强了数据的可追溯性和完整性。
特点
LIAR数据集的显著特点在于其详细且多维度的信息记录,不仅涵盖了声明的基本信息,还包含了发言人的信用历史和上下文信息,这为假新闻检测提供了丰富的特征。数据集的标签系统细致,包括从‘barely true’到‘pants on fire’等多个层次,使得分类任务更加精细和具有挑战性。
使用方法
使用LIAR数据集进行研究时,首先需下载数据集并解析TSV文件,提取所需信息。研究者可以利用声明的文本内容、发言人信息及其信用历史等多维度特征进行模型训练。此外,通过提供的命令,研究者可以进一步获取完整的判决报告,以验证和丰富分析结果。数据集仅限用于研究目的,使用时应遵守相关版权和使用规定。
背景与挑战
背景概述
在信息爆炸的时代,虚假新闻的泛滥已成为一个严峻的社会问题。为了应对这一挑战,William Yang Wang及其团队于2017年创建了LIAR数据集,旨在为虚假新闻检测提供一个基准。该数据集收录了大量政治领域的陈述,通过详细的标签和背景信息,帮助研究人员开发和评估虚假新闻检测算法。LIAR数据集的发布不仅推动了自然语言处理领域的发展,也为公众提供了更为可靠的信息来源,具有重要的学术和社会价值。
当前挑战
尽管LIAR数据集在虚假新闻检测领域取得了显著进展,但其构建过程中仍面临诸多挑战。首先,数据的真实性依赖于外部来源,如Politifact,这可能导致数据的一致性和准确性问题。其次,数据集的标签依赖于人工判断,可能存在主观偏差。此外,数据集的规模和多样性有限,难以覆盖所有类型的虚假新闻。这些挑战要求研究人员在利用该数据集时,需谨慎处理数据的不确定性和局限性,以确保研究结果的可靠性和普适性。
常用场景
经典使用场景
在信息爆炸的时代,虚假新闻的检测成为了一个紧迫的挑战。LIAR数据集通过提供大量标注的虚假新闻样本,为研究者提供了一个经典的使用场景。研究者可以利用该数据集训练和评估虚假新闻检测模型,探索如何通过自然语言处理技术自动识别和分类新闻的真实性。
实际应用
在实际应用中,LIAR数据集为新闻媒体和社交媒体平台提供了一个重要的工具,帮助它们自动过滤和标记潜在的虚假信息。这不仅有助于提升信息的真实性和可信度,还能有效减少虚假新闻对公众舆论和社会稳定的负面影响。此外,政府和监管机构也可以利用该数据集开发相应的监控和预警系统。
衍生相关工作
基于LIAR数据集,许多后续研究工作得以展开,推动了虚假新闻检测领域的快速发展。例如,研究者们提出了多种改进的机器学习模型和深度学习架构,以提高检测的准确性和效率。同时,该数据集也激发了对新闻内容生成和传播机制的深入研究,促进了跨学科的合作与创新。
以上内容由遇见数据集搜集并总结生成



