five

MuMiN

收藏
OpenDataLab2026-04-05 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MuMiN
下载链接
链接失效反馈
资源简介:
MuMiN 是一个错误信息图数据集,包含丰富的社交媒体数据(推文、回复、用户、图像、文章、主题标签),涵盖属于 26000 个 Twitter 线程的 2100 万条推文,每条推文都在语义上与 13000 个经过事实检查的声明相关联跨越数十个主题、事件和领域,使用 41 种不同的语言,跨越十多年。 MuMiN 以多种方式填补了现有错误信息数据集的空白:通过拥有大量社交媒体信息,这些信息在语义上与个人事实核查的声明相关联。通过采用 41 种语言,可以评估多语言错误信息检测模型。通过同时展示推文、文章、图像、社交联系和主题标签,启用多模式方法来检测错误信息。 MuMiN 具有两个与声明的真实性相关的节点分类任务: 声明分类:根据其社交网络上下文确定声明的真实性。推文分类:根据其社交网络背景,确定要进行事实核查的社交媒体帖子讨论误导性声明的可能性。要使用数据集,请参阅 MuMiN 网站上的“入门”指南和教程。

MuMiN is a misinformation graph dataset containing rich social media data (tweets, replies, users, images, articles, and hashtags). It covers 21 million tweets belonging to 26,000 Twitter threads, with each tweet semantically linked to 13,000 fact-checked claims. Spanning dozens of topics, events and domains, the dataset uses 41 distinct languages and spans over ten years. MuMiN fills the gaps of existing misinformation datasets in multiple aspects: it provides massive social media data semantically associated with individually fact-checked claims; it supports 41 different languages, enabling the evaluation of multilingual misinformation detection models; and it incorporates tweets, articles, images, social connections and hashtags, enabling multimodal approaches for misinformation detection. MuMiN includes two node classification tasks related to claim veracity: 1. Claim Classification: Determine the veracity of a claim based on its social network context. 2. Tweet Classification: Determine the likelihood that a social media post to be fact-checked discusses misleading claims based on its social network context. To use this dataset, please refer to the "Getting Started" guide and tutorials on the MuMiN website.
提供机构:
OpenDataLab
创建时间:
2022-08-16
AI搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MuMiN是一个大规模多语言多模态错误信息社交网络数据集,包含2100万条推文和26000个Twitter线程,与13000个事实检查声明相关联,覆盖41种语言和十多年时间。该数据集通过整合文本、图像、社交联系和主题标签,支持多语言错误信息检测和多模态方法,并提供声明分类和推文分类两个节点任务,用于评估错误信息检测模型。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作