five

LIAR|假新闻检测数据集|信息真实性分析数据集

收藏
github2024-04-04 更新2024-05-31 收录
假新闻检测
信息真实性分析
下载链接:
https://github.com/thiagorainmaker77/liar_dataset
下载链接
链接失效反馈
资源简介:
LIAR是一个用于假新闻检测的基准数据集,包含多种真实性标签的陈述,用于研究和分析。

LIAR is a benchmark dataset designed for fake news detection, comprising statements annotated with various truthfulness labels, intended for research and analysis purposes.
创建时间:
2019-02-03
原始信息汇总

数据集概述

名称: LIAR: A BENCHMARK DATASET FOR FAKE NEWS DETECTION

作者: William Yang Wang

发表会议: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017)

数据集格式: TSV

数据集结构:

  • Column 1: 语句ID ([ID].json)
  • Column 2: 标签
  • Column 3: 语句内容
  • Column 4: 主题
  • Column 5: 发言人
  • Column 6: 发言人职位
  • Column 7: 州信息
  • Column 8: 党派归属
  • Column 9-13: 信用历史计数
    • 9: 几乎不真实计数
    • 10: 虚假计数
    • 11: 半真计数
    • 12: 大部分真实计数
    • 13: 极度虚假计数
  • Column 14: 上下文(演讲或声明的场合/地点)

版权与使用:

  • 原始数据源保留版权。
  • 数据集仅限于研究使用。
  • 数据集提供“原样”,不提供任何保证。

联系方式:

  • 作者: William Wang
  • 邮箱: william@cs.ucsb.edu

版本: v1.0 (2017-04-23)

AI搜集汇总
数据集介绍
main_image_url
构建方式
LIAR数据集的构建基于对政治声明的详细分析,通过从Politifact网站收集的声明数据,每条记录包含声明的ID、标签、声明内容、主题、发言人、发言人职位、州信息、党派归属以及发言人的信用历史统计。这些数据通过TSV格式存储,确保了数据的结构化和易处理性。此外,数据集还提供了访问完整判决报告的命令,增强了数据的可追溯性和完整性。
特点
LIAR数据集的显著特点在于其详细且多维度的信息记录,不仅涵盖了声明的基本信息,还包含了发言人的信用历史和上下文信息,这为假新闻检测提供了丰富的特征。数据集的标签系统细致,包括从‘barely true’到‘pants on fire’等多个层次,使得分类任务更加精细和具有挑战性。
使用方法
使用LIAR数据集进行研究时,首先需下载数据集并解析TSV文件,提取所需信息。研究者可以利用声明的文本内容、发言人信息及其信用历史等多维度特征进行模型训练。此外,通过提供的命令,研究者可以进一步获取完整的判决报告,以验证和丰富分析结果。数据集仅限用于研究目的,使用时应遵守相关版权和使用规定。
背景与挑战
背景概述
在信息爆炸的时代,虚假新闻的泛滥已成为一个严峻的社会问题。为了应对这一挑战,William Yang Wang及其团队于2017年创建了LIAR数据集,旨在为虚假新闻检测提供一个基准。该数据集收录了大量政治领域的陈述,通过详细的标签和背景信息,帮助研究人员开发和评估虚假新闻检测算法。LIAR数据集的发布不仅推动了自然语言处理领域的发展,也为公众提供了更为可靠的信息来源,具有重要的学术和社会价值。
当前挑战
尽管LIAR数据集在虚假新闻检测领域取得了显著进展,但其构建过程中仍面临诸多挑战。首先,数据的真实性依赖于外部来源,如Politifact,这可能导致数据的一致性和准确性问题。其次,数据集的标签依赖于人工判断,可能存在主观偏差。此外,数据集的规模和多样性有限,难以覆盖所有类型的虚假新闻。这些挑战要求研究人员在利用该数据集时,需谨慎处理数据的不确定性和局限性,以确保研究结果的可靠性和普适性。
常用场景
经典使用场景
在信息爆炸的时代,虚假新闻的检测成为了一个紧迫的挑战。LIAR数据集通过提供大量标注的虚假新闻样本,为研究者提供了一个经典的使用场景。研究者可以利用该数据集训练和评估虚假新闻检测模型,探索如何通过自然语言处理技术自动识别和分类新闻的真实性。
实际应用
在实际应用中,LIAR数据集为新闻媒体和社交媒体平台提供了一个重要的工具,帮助它们自动过滤和标记潜在的虚假信息。这不仅有助于提升信息的真实性和可信度,还能有效减少虚假新闻对公众舆论和社会稳定的负面影响。此外,政府和监管机构也可以利用该数据集开发相应的监控和预警系统。
衍生相关工作
基于LIAR数据集,许多后续研究工作得以展开,推动了虚假新闻检测领域的快速发展。例如,研究者们提出了多种改进的机器学习模型和深度学习架构,以提高检测的准确性和效率。同时,该数据集也激发了对新闻内容生成和传播机制的深入研究,促进了跨学科的合作与创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Awesome JSON Datasets

一个精选的无需认证的JSON数据集列表。

github 收录

农业农作物生长全周期数据集

农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。

浙江大数据交易服务平台 收录