ReINTEL

Hugging Face2024-11-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ReliableAI/ReINTEL

下载链接

链接失效反馈

官方服务：

资源简介：

ReINTEL数据集是一个多模态数据挑战，用于识别社交网络站点上的负责任信息。数据集包含超过10,000条从越南社交网络收集的新闻，每条新闻包含文本、视觉内容和元数据。目标是分类新闻是否可靠，标签为1表示不可靠，0表示可靠。数据集分为训练集和测试集，分别有4372和3288个样本。每个样本包含多个特征，如用户名、帖子内容、发布时间、图片、点赞数、评论数、分享数和标签。

创建时间：

2024-11-22

原始信息汇总

ReINTEL: A Multimodal Data Challenge for Responsible Information Identification on Social Network Sites

数据集概述

数据集名称: ReINTEL
数据集类型: 多模态数据集
数据集用途: 用于社交网络站点上的负责任信息识别挑战

数据集特征

特征列表:
- id: 新闻帖子的唯一ID，数据类型为 int64
- image_0 至 image_11: 与新闻相关的图像，数据类型为 image
- post_message: 新闻的文本内容，数据类型为 string
- user_name: 新闻发布者的匿名ID，数据类型为 string
- timestamp_post: 新闻发布的时间戳，数据类型为 float64
- num_like_post: 新闻获得的点赞数，数据类型为 float64
- num_comment_post: 新闻获得的评论数，数据类型为 string
- num_share_post: 新闻获得的分享数，数据类型为 string
- label: 新闻的标签，标记新闻是否可能不可靠，数据类型为 int64
  - 1: 不可靠
  - 0: 可靠

数据集分割

训练集:
- 样本数量: 4372
- 数据大小: 266237686.984 字节
测试集:
- 样本数量: 3288
- 数据大小: 188399599.28 字节

数据集大小

下载大小: 453773802 字节
数据集总大小: 454637286.264 字节

数据集配置

配置名称: default
- 数据文件路径:
  - 训练集: data/train-*
  - 测试集: data/test-*

数据加载

使用 datasets 库加载数据集: python from datasets import load_dataset

train_dataset = load_dataset("ReliableAI/ReINTEL", split="train") # 包含真实标签 test_dataset = load_dataset("ReliableAI/ReINTEL", split="test") # 不包含真实标签

搜集汇总

数据集介绍

构建方式

ReINTEL数据集的构建基于越南社交网络平台上收集的新闻数据，涵盖了文本、视觉内容及元数据等多模态信息。为确保数据的公正性与可靠性，数据集通过人工标注的方式对超过10,000条新闻进行了分类，标记为‘可靠’或‘不可靠’。数据集的构建过程严格遵循科学规范，旨在为信息可靠性识别任务提供高质量的基准数据。

特点

ReINTEL数据集的特点在于其多模态性，每条数据不仅包含新闻的文本内容，还附带了多张相关图片及丰富的元数据，如发布时间、点赞数、评论数和分享数等。此外，数据集还提供了每条新闻的二进制标签，便于进行监督学习。数据集的多样性和复杂性使其成为研究社交网络信息可靠性的理想选择。

使用方法

使用ReINTEL数据集时，可通过Python的`datasets`库进行加载。训练集和测试集分别包含带有标签和无标签的数据，便于模型训练与评估。每条数据包含唯一ID、用户匿名ID、新闻文本、发布时间、多张图片及相关元数据。通过分析这些多模态信息，研究人员可以构建模型以识别社交网络中的不可靠信息，并利用AUC-ROC指标进行性能评估。

背景与挑战

背景概述

ReINTEL数据集由越南语言与语音处理年度研讨会（VLSP 2020）发布，旨在解决社交媒体上信息的可靠性识别问题。该数据集由越南社交网络上收集的超过10,000条新闻组成，每条新闻包含文本、视觉内容和元数据，并由人工标注其可靠性。该数据集的创建为研究人员提供了一个公平的基准，用于评估和开发多模态分类模型。ReINTEL数据集不仅推动了越南语信息处理领域的发展，还为全球范围内的社交媒体信息可靠性研究提供了重要参考。

当前挑战

ReINTEL数据集面临的挑战主要集中在两个方面。首先，社交媒体信息的可靠性识别本身具有复杂性，因为虚假信息往往与真实信息在文本和视觉内容上高度相似，难以区分。其次，数据集的构建过程中，如何确保标注的一致性和准确性是一个关键问题。由于新闻内容的多样性和复杂性，人工标注过程中可能出现主观偏差，影响数据集的整体质量。此外，多模态数据的融合与处理也对模型的性能提出了更高的要求，如何在文本、图像和元数据之间找到有效的关联，是当前研究中的一大难点。

常用场景

经典使用场景

ReINTEL数据集在社交媒体信息可靠性识别领域具有重要应用。该数据集通过整合文本、图像和元数据，为研究人员提供了一个多模态的基准测试平台。经典使用场景包括利用机器学习模型对社交媒体上的新闻进行可靠性分类，特别是在越南社交网络环境中，数据集的高质量标注为模型训练和评估提供了坚实基础。

衍生相关工作

ReINTEL数据集衍生了一系列经典研究工作，特别是在多模态信息处理领域。基于该数据集的研究成果包括多模态融合模型、深度学习分类算法以及信息可信度评估框架。这些工作不仅在学术界产生了广泛影响，也为实际应用中的虚假新闻检测提供了技术基础，推动了社交媒体信息可靠性研究的深入发展。

数据集最近研究