five

FineFake|假新闻检测数据集|多模态学习数据集

收藏
github2024-05-31 收录
假新闻检测
多模态学习
下载链接:
https://github.com/Accuser907/FineFake
下载链接
链接失效反馈
资源简介:
FineFake是由北京航空航天大学与中国北京邮电大学联合创建的一个用于细粒度多领域假新闻检测的知识增强型数据集。该数据集包含了16,909个数据样本,覆盖了6个语义主题和8个不同的平台。每个新闻样本都富含多模态内容,如文本、图片和潜在的社交环境信息,并且通过半手动方式验证了常见的知识。此外,FineFake数据集的注释不仅仅局限于传统的二元真假标签,而是提供了更细粒度的分类,这有助于更精确地揭示假新闻背后的策略。FineFake旨在解决假新闻检测中的领域适应性问题,通过提供跨主题和平台的数据,促进研究者开发出能够准确识别和适应不同新闻领域的检测模型。
提供机构:
北京航空航天大学、北京邮电大学
原始信息汇总

数据集概述

数据集名称

  • FineFake:知识增强的细粒度多领域假新闻检测数据集。

数据集内容

  • 包含文本数据、元数据、图像数据和知识数据。
  • 数据集分为六个主题和八个平台:
    • 主题:政治、娱乐、商业、健康、社会、冲突。
    • 平台:Snopes, Twitter, Reddit, CNN, Apnews, Cdc.gov, Nytimes, Washingtonpos。

数据集结构

  • 数据存储为pickle文件,包含13个列:
    • 文本、图像路径、实体ID、主题、标签、细粒度标签、知识嵌入、描述、关系、平台、作者、日期、评论。

标签说明

  • 二元标签:
    • "0"代表假新闻,"1"代表真实新闻。
  • 细粒度标签:
    • 0: 真实
    • 1: 文本-图像不一致
    • 2: 内容-知识不一致
    • 3: 基于文本的假新闻
    • 4: 基于图像的假新闻
    • 5: 其他

数据集下载

  • 数据集及图像可通过此链接下载。
AI搜集汇总
数据集介绍
main_image_url
构建方式
FineFake数据集的构建基于多源新闻数据,涵盖了六个主要领域:政治、娱乐、商业、健康、社会和冲突。数据集整合了来自八个不同平台的信息,包括Snopes、Twitter、Reddit、CNN、Apnews、Cdc.gov、Nytimes和Washingtonpos。构建过程中,不仅收集了新闻文本和图像数据,还嵌入了知识图谱的实体信息,以增强数据集的知识丰富性。此外,数据集还包含了详细的元数据,如新闻来源、作者和发布日期,以及用户评论,从而为细粒度的假新闻检测提供了全面的数据支持。
特点
FineFake数据集的显著特点在于其细粒度标签和知识嵌入。数据集不仅提供了二元标签(假新闻和真实新闻),还进一步细分为六个细粒度标签,包括文本与图像不一致、内容与知识不一致、基于文本的假新闻、基于图像的假新闻等。此外,数据集中的每条新闻都关联了知识图谱的嵌入信息,这使得模型能够更好地理解新闻内容背后的知识背景,从而提高假新闻检测的准确性和深度。
使用方法
使用FineFake数据集时,用户可以通过提供的代码示例轻松加载数据。数据以pickle文件格式存储,包含13个属性列,涵盖新闻文本、图像路径、实体ID、主题、标签等信息。用户需确保安装了pickle和pandas库,并按照示例代码加载数据。此外,数据集的下载链接和详细的使用指南可在GitHub页面找到。在使用过程中,用户应遵守数据集的使用准则,确保研究活动的公平性和隐私保护,避免任何可能的恶意用途。
背景与挑战
背景概述
FineFake数据集是由一支专注于假新闻检测的研究团队创建的,旨在通过细粒度的多领域知识丰富数据集,提升假新闻检测的准确性和可靠性。该数据集的构建时间可追溯至2024年,主要研究人员和机构通过整合来自多个平台(如Snopes、Twitter、Reddit等)的新闻数据,涵盖了政治、娱乐、商业、健康、社会和冲突等六个主题。FineFake不仅提供了文本数据,还包括图像数据和知识嵌入,以支持多模态假新闻检测。该数据集的核心研究问题是如何在多领域和多模态数据中准确识别和分类假新闻,其对假新闻检测领域的贡献在于提供了更为精细和全面的分析工具。
当前挑战
FineFake数据集在构建过程中面临多重挑战。首先,整合来自不同平台和主题的数据,确保数据的一致性和质量是一个复杂的过程。其次,细粒度标签的定义和应用,如文本与图像的不一致性、内容与知识的不一致性等,需要精确的算法和模型支持。此外,数据集的隐私保护和匿名化处理也是一大挑战,确保在利用公共数据的同时,不侵犯个人隐私。最后,如何有效利用知识嵌入来增强假新闻检测的准确性,仍需进一步研究和优化。
常用场景
经典使用场景
在信息泛滥的时代背景下,FineFake数据集以其精细化的多领域假新闻检测能力,成为研究者和开发者的重要工具。该数据集通过整合文本、图像、元数据和知识嵌入,能够有效区分不同类型的假新闻,如文本与图像不一致、内容与知识不一致等。其经典使用场景包括构建和训练假新闻检测模型,通过多模态数据分析提升检测精度,以及在多个新闻平台上进行实时假新闻识别。
衍生相关工作
FineFake数据集的发布催生了一系列相关研究和工作。研究者们基于该数据集开发了多种假新闻检测模型,如基于深度学习的分类器和多模态融合算法,显著提升了检测性能。此外,FineFake还激发了对假新闻生成机制的深入研究,推动了对抗生成网络(GAN)在假新闻检测中的应用。在学术界,FineFake已成为假新闻检测领域的基准数据集,促进了该领域的快速发展和创新。
数据集最近研究
最新研究方向
在虚假新闻检测领域,FineFake数据集的引入标志着对多领域细粒度检测的深入探索。该数据集不仅涵盖了政治、娱乐、商业等多个主题,还整合了来自不同平台如Twitter、CNN等的新闻内容,为研究者提供了丰富的数据资源。其独特的知识嵌入和细粒度标签设计,使得模型能够更精准地识别新闻的真实性及其背后的知识一致性问题。这一研究方向不仅有助于提升虚假新闻检测的准确性,还为跨平台和跨领域的信息验证提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录