ucsbnlp/liar
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ucsbnlp/liar
下载链接
链接失效反馈官方服务:
资源简介:
LIAR是一个用于虚假新闻检测的数据集,包含了12.8K条来自politifact.com API的短语句,每条语句都由politifact.com的编辑评估其真实性。数据集的标签分布相对均衡,除了1,050条pants-fire标签外,其他标签的实例数量在2,063到2,638之间。每条语句的标签都附有详细的分析报告。数据集的特征包括id、label、statement、subject、speaker、job_title、state_info、party_affiliation、barely_true_counts、false_counts、half_true_counts、mostly_true_counts、pants_on_fire_counts和context。数据集分为训练集、测试集和验证集,分别包含10,269、1,283和1,284条实例。
LIAR是一个用于虚假新闻检测的数据集,包含了12.8K条来自politifact.com API的短语句,每条语句都由politifact.com的编辑评估其真实性。数据集的标签分布相对均衡,除了1,050条pants-fire标签外,其他标签的实例数量在2,063到2,638之间。每条语句的标签都附有详细的分析报告。数据集的特征包括id、label、statement、subject、speaker、job_title、state_info、party_affiliation、barely_true_counts、false_counts、half_true_counts、mostly_true_counts、pants_on_fire_counts和context。数据集分为训练集、测试集和验证集,分别包含10,269、1,283和1,284条实例。
提供机构:
ucsbnlp
原始信息汇总
数据集概述
数据集名称
- 名称: LIAR
- 别名: N/A
数据集基本信息
- 语言: 英语
- 许可证: 未知
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别: 文本分类
- 标签: 假新闻检测
数据集特征
- 特征列表:
- id: 字符串
- label: 分类标签(false, half-true, mostly-true, true, barely-true, pants-fire)
- statement: 字符串
- subject: 字符串
- speaker: 字符串
- job_title: 字符串
- state_info: 字符串
- party_affiliation: 字符串
- barely_true_counts: 浮点数
- false_counts: 浮点数
- half_true_counts: 浮点数
- mostly_true_counts: 浮点数
- pants_on_fire_counts: 浮点数
- context: 字符串
数据集分割
- 训练集: 10269个样本,2730651字节
- 测试集: 1283个样本,341414字节
- 验证集: 1284个样本,341592字节
训练评估指标
- 任务: 文本分类
- 评估指标:
- 准确率
- F1分数(宏平均、微平均、加权)
- 精确率(宏平均、微平均、加权)
- 召回率(宏平均、微平均、加权)
搜集汇总
数据集介绍

构建方式
LIAR数据集的构建,是基于从politifact.com的API中获取的12.8K条人类标注的简短声明。每一条声明都由politifact.com的编辑对其真实性进行评估,并提供了详尽的分析报告以支撑每一个判断,确保了数据集的质量与标注的可靠性。
特点
该数据集的特点在于其针对虚假新闻检测任务进行了专门设计,标签分布相对平衡,涵盖了从完全不真实到完全真实的多个级别,为研究虚假新闻的识别提供了丰富的标注数据。此外,数据集中的标注由专业人士生成,保证了标注的权威性和准确性。
使用方法
使用LIAR数据集时,用户可以依据其提供的训练集、测试集和验证集进行文本分类任务,特别是针对多类分类问题。数据集的字段包括声明内容、主题、发言人信息等,以及各类标签的计数,方便用户进行复杂的数据分析和模型训练。
背景与挑战
背景概述
在信息时代,虚假新闻的传播对社会的健康运行构成了严重威胁。LIAR数据集在这样的背景下应运而生,旨在为虚假新闻检测领域提供高质量的研究资源。该数据集由加州大学圣 Barbara分校的学者创建于2017年,收录了12.8K条来自politifact.com的短语句,每条语句均由politifact.com的编辑对其真实性进行评估并标注。数据集的标签分布相对均衡,为研究者和开发者提供了一项宝贵的资源,推动了相关领域的研究进展。
当前挑战
尽管LIAR数据集在虚假新闻检测领域具有重要价值,但其构建和运用过程中也面临诸多挑战。首先,数据集的构建依赖于人工标注,这不仅耗费大量时间和资源,也可能引入主观偏见。其次,数据集的规模限制了其在更大范围内的适用性。此外,由于涉及政治敏感内容,数据集的使用需谨慎处理,以避免社会和法律风险。
常用场景
经典使用场景
在信息传播日益迅速的当下,LIAR数据集成为了学术研究中用于文本分类任务的一个重要资源。该数据集通过其精细标注的标签,如真实、半真半假、大部分真实等,使得研究者能够训练出能够识别虚假新闻的模型,从而在经典使用场景中,对网络上的新闻进行自动化的真伪鉴别。
解决学术问题
LIAR数据集针对学术研究中自动化虚假新闻检测的难题提供了有力的解决方案。它通过专家生成的标注,使得模型训练更为准确,解决了传统方法中标注质量参差不齐的问题,对于提高新闻检测模型的准确性和鲁棒性具有重要意义。
衍生相关工作
基于LIAR数据集的研究成果已经衍生出了一系列相关工作,如改进的虚假新闻检测算法、新闻可信度评估模型等。这些工作进一步推动了虚假信息检测领域的发展,为构建健康的信息生态提供了技术支持。
以上内容由遇见数据集搜集并总结生成



