five

MCFEND

收藏
arXiv2024-03-14 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2403.09092v1
下载链接
链接失效反馈
官方服务:
资源简介:
MCFEND是一个针对中文假新闻检测的多源基准数据集,由来自社交媒体平台、消息应用和传统在线新闻出口的新闻组成,这些新闻已经过全球14家权威事实核查机构的核实。

MCFEND is a multi-source benchmark dataset for Chinese fake news detection. It consists of news sourced from social media platforms, messaging applications, and traditional online news outlets, all of which have been verified by 14 authoritative fact-checking institutions worldwide.
创建时间:
2024-03-14
搜集汇总
数据集介绍
main_image_url
构建方式
MCFEND数据集的构建方式是通过从14个权威事实核查机构收集新闻,包括社交平台、消息应用和传统在线新闻来源。数据集分为三个主要类别:第一组包含九个活跃的中国事实核查机构,第二组对应于四个现有的英文事实核查数据集,第三组仅包括微博社区管理中心。数据集收集了从2015年3月到2023年3月之间的23,974篇经过验证的真实世界中文新闻。对于每个新闻片段,收集了多模态新闻内容和多模态社交环境信息,包括文本、图像、元数据、帖子、评论、表情符号、用户资料等。
特点
MCFEND数据集的特点是它包含了来自多个来源的真实和假新闻,这使其成为中文假新闻检测领域的首个多源基准数据集。数据集的规模是现有数据集的2.63倍以上,提供了更广泛的数据多样性。此外,数据集包含了多模态内容和社会环境信息,这使得它对于开发能够在现实世界中有效检测假新闻的模型至关重要。
使用方法
MCFEND数据集可用于训练和评估中文假新闻检测模型。数据集提供了多源数据,包括来自不同新闻来源的新闻,这有助于提高模型的鲁棒性和泛化能力。用户可以使用数据集中的多模态内容和社交环境信息来训练模型,并使用交叉源、多源和未见源评估方法来评估模型的性能。此外,数据集还提供了详细的统计数据和标签映射策略,方便用户进行数据分析和模型训练。
背景与挑战
背景概述
在当今社会,虚假新闻的泛滥对公众舆论产生了深远的影响。现有的中文虚假新闻检测数据集大多局限于单一来源,例如微博。然而,来自多个来源的虚假新闻在内容和社会背景方面展现出多样性。针对这一问题,Yupeng Li等人于2024年3月14日发表了题为《MCFEND:面向中文虚假新闻检测的多源基准数据集》的论文,旨在构建一个包含来自不同来源的新闻数据集,以促进中文虚假新闻检测方法的发展。MCFEND数据集由来自14个权威事实核查机构的23,974条真实世界中文新闻组成,旨在为中文虚假新闻检测方法提供基准数据集,并在真实世界场景中进行评估。
当前挑战
MCFEND数据集面临的挑战主要包括:1) 所解决的领域问题:现有的中文虚假新闻检测数据集大多局限于单一来源,例如微博。然而,来自多个来源的虚假新闻在内容和社会背景方面展现出多样性。2) 构建过程中所遇到的挑战:MCFEND数据集的构建过程中,需要从多个来源收集数据,并进行清洗、去重和标签映射等处理,以保证数据的质量和一致性。
常用场景
经典使用场景
MCFEND数据集旨在通过提供多源新闻数据,促进中文假新闻检测方法的开发。该数据集涵盖了从社交平台、即时通讯应用和传统新闻网站等多个来源收集的23,974条真实世界中文新闻,这些新闻已由14个权威事实核查机构进行核实。MCFEND数据集的经典使用场景是在跨源、多源和未见源的情况下对现有中文假新闻检测方法进行全面评估。该数据集为研究假新闻检测方法在不同来源新闻上的鲁棒性和泛化能力提供了宝贵的资源。
实际应用
MCFEND数据集在实际应用场景中具有广泛的应用价值。例如,社交媒体平台可以利用MCFEND数据集训练假新闻检测模型,以识别和过滤平台上的虚假信息,保护用户的利益。此外,新闻机构可以使用MCFEND数据集评估其新闻报道的真实性,提高新闻报道的质量和可信度。政府机构和非营利组织也可以利用MCFEND数据集开展假新闻传播的监测和研究,制定有效的政策来应对假新闻的挑战。总之,MCFEND数据集为实际应用场景中的假新闻检测提供了重要的支持。
衍生相关工作
MCFEND数据集的构建为假新闻检测领域的研究提供了新的方向和思路。例如,研究者可以利用MCFEND数据集研究不同来源新闻的特征差异,探索如何提高假新闻检测方法的鲁棒性和泛化能力。此外,MCFEND数据集还可以用于开发新的假新闻检测模型和算法,例如,基于多模态内容的检测模型和基于社交语境的检测模型。这些新的研究和应用将有助于推动假新闻检测技术的发展,为解决假新闻带来的挑战提供更有效的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作