Social-Media-Dataset

github2024-11-07 更新2024-11-08 收录

下载链接：

https://github.com/MR-YQZ/Social-Media-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了从推特爬取的大于100万条数据，经过筛选和处理，保留了图文双模态数据，并提取了表情符号和嵌入文本，最终形成了四个模态的数据集。

This dataset contains over 1 million records crawled from Twitter. After screening and processing, the text-image bimodal data was retained, and emojis and embedded text were extracted, ultimately forming a four-modality dataset.

创建时间：

2024-11-07

原始信息汇总

社会媒体数据集

数据集概述

数据来源: 爬取了超过100万条推特数据。
数据筛选:
- 使用VGG19预训练模型筛选出非表情图片，95%的数据被初步筛选。
- 手动筛选，保留图文双模态数据，约40%的数据被去除。
数据处理:
- 使用正则表达式从文本中提取表情符号。
- 使用PaddleOCR平台和人工校正获取表情包中的嵌入文本。
数据模态: 包含四个模态的数据。

数据集状态

数据集将在论文被接受后开源。

搜集汇总

数据集介绍

构建方式

在构建Social-Media-Dataset时，研究团队首先通过网络爬虫技术采集了超过100万条推特数据。随后，利用VGG19预训练模型对图像数据进行初步筛选，剔除非表情符号图片，这一步骤成功过滤了95%的无关图像。在初步筛选的基础上，团队进一步进行人工筛选，保留了图文双模态数据，同时去除了约40%的冗余信息。为确保数据的准确性和完整性，研究者采用正则表达式等工具从文本中提取表情符号，并通过PaddleOCR平台与人工校正相结合的方式，获取表情符号中的嵌入文本。最终，成功整合了文本、图像、表情符号及其嵌入文本四个模态的数据。

使用方法

使用Social-Media-Dataset时，研究者可以首先根据研究需求选择特定的模态数据进行分析，如文本、图像、表情符号或其嵌入文本。随后，可以利用现有的多模态分析工具或自行开发的算法，对数据进行进一步的处理和挖掘。例如，结合深度学习模型，可以实现对社交媒体用户情感状态的精准识别和分类。此外，该数据集的高质量特性也使其适用于多种机器学习任务的训练和验证，为相关领域的研究提供了宝贵的资源。

背景与挑战

背景概述

社会媒体数据集（Social-Media-Dataset）是由一支专注于多模态情感分析的研究团队创建的，旨在支持基于H-GNN的对比学习方案。该数据集的构建始于对超过100万条推特数据的爬取，通过使用VGG19预训练模型进行初步筛选，剔除了95%的非表情图片。随后，通过人工筛选，保留了图文双模态数据，并进一步通过复杂的数据处理技术，如正则表达式和PaddleOCR平台，提取并校正了表情符号中的嵌入文本。这一数据集的创建不仅丰富了多模态情感分析的研究资源，也为相关领域的算法开发提供了宝贵的数据支持。

当前挑战

社会媒体数据集在构建过程中面临了多重挑战。首先，数据爬取和初步筛选过程中，如何高效且准确地识别和剔除非表情图片是一个技术难题。其次，人工筛选和数据处理的复杂性，尤其是在提取和校正表情符号中的嵌入文本时，需要高度的专业知识和精细的操作。此外，数据集的多样性和模态的复杂性也对数据处理和分析提出了更高的要求。这些挑战不仅影响了数据集的构建效率，也对后续的研究和应用提出了更高的技术要求。

常用场景

经典使用场景

在社会媒体分析领域，Social-Media-Dataset 数据集的经典使用场景主要集中在多模态情感分析。该数据集通过整合文本、图像、表情符号及嵌入文本等多模态信息，为研究者提供了一个全面且丰富的数据资源。研究者可以利用此数据集训练和验证多模态情感分析模型，特别是在结合图神经网络（H-GNN）和对比学习方案时，能够显著提升情感分析的准确性和鲁棒性。

解决学术问题

Social-Media-Dataset 数据集解决了多模态情感分析中的关键学术问题。传统情感分析方法主要依赖单一模态数据，如文本或图像，而忽视了多模态信息间的互补性。该数据集通过整合多种模态数据，为研究者提供了一个综合平台，使得多模态情感分析成为可能。这不仅推动了情感分析技术的发展，还为跨模态信息融合提供了新的研究方向。

实际应用

在实际应用中，Social-Media-Dataset 数据集可广泛应用于社交媒体监控、品牌声誉管理及舆情分析等领域。例如，企业可以通过分析社交媒体上的多模态数据，实时监控公众对其产品和服务的情感反馈，从而及时调整市场策略。此外，政府和非营利组织也可以利用该数据集进行舆情监控，以更好地理解公众情绪和需求，制定相应的政策和措施。

数据集最近研究