five

Social-Media-Dataset|社交媒体数据集|多模态数据数据集

收藏
github2024-11-07 更新2024-11-08 收录
社交媒体
多模态数据
下载链接:
https://github.com/MR-YQZ/Social-Media-Dataset
下载链接
链接失效反馈
资源简介:
这个数据集包含了从推特爬取的大于100万条数据,经过筛选和处理,保留了图文双模态数据,并提取了表情符号和嵌入文本,最终形成了四个模态的数据集。
创建时间:
2024-11-07
原始信息汇总

社会媒体数据集

数据集概述

  • 数据来源: 爬取了超过100万条推特数据。
  • 数据筛选:
    • 使用VGG19预训练模型筛选出非表情图片,95%的数据被初步筛选。
    • 手动筛选,保留图文双模态数据,约40%的数据被去除。
  • 数据处理:
    • 使用正则表达式从文本中提取表情符号。
    • 使用PaddleOCR平台和人工校正获取表情包中的嵌入文本。
  • 数据模态: 包含四个模态的数据。

数据集状态

  • 数据集将在论文被接受后开源。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建Social-Media-Dataset时,研究团队首先通过网络爬虫技术采集了超过100万条推特数据。随后,利用VGG19预训练模型对图像数据进行初步筛选,剔除非表情符号图片,这一步骤成功过滤了95%的无关图像。在初步筛选的基础上,团队进一步进行人工筛选,保留了图文双模态数据,同时去除了约40%的冗余信息。为确保数据的准确性和完整性,研究者采用正则表达式等工具从文本中提取表情符号,并通过PaddleOCR平台与人工校正相结合的方式,获取表情符号中的嵌入文本。最终,成功整合了文本、图像、表情符号及其嵌入文本四个模态的数据。
使用方法
使用Social-Media-Dataset时,研究者可以首先根据研究需求选择特定的模态数据进行分析,如文本、图像、表情符号或其嵌入文本。随后,可以利用现有的多模态分析工具或自行开发的算法,对数据进行进一步的处理和挖掘。例如,结合深度学习模型,可以实现对社交媒体用户情感状态的精准识别和分类。此外,该数据集的高质量特性也使其适用于多种机器学习任务的训练和验证,为相关领域的研究提供了宝贵的资源。
背景与挑战
背景概述
社会媒体数据集(Social-Media-Dataset)是由一支专注于多模态情感分析的研究团队创建的,旨在支持基于H-GNN的对比学习方案。该数据集的构建始于对超过100万条推特数据的爬取,通过使用VGG19预训练模型进行初步筛选,剔除了95%的非表情图片。随后,通过人工筛选,保留了图文双模态数据,并进一步通过复杂的数据处理技术,如正则表达式和PaddleOCR平台,提取并校正了表情符号中的嵌入文本。这一数据集的创建不仅丰富了多模态情感分析的研究资源,也为相关领域的算法开发提供了宝贵的数据支持。
当前挑战
社会媒体数据集在构建过程中面临了多重挑战。首先,数据爬取和初步筛选过程中,如何高效且准确地识别和剔除非表情图片是一个技术难题。其次,人工筛选和数据处理的复杂性,尤其是在提取和校正表情符号中的嵌入文本时,需要高度的专业知识和精细的操作。此外,数据集的多样性和模态的复杂性也对数据处理和分析提出了更高的要求。这些挑战不仅影响了数据集的构建效率,也对后续的研究和应用提出了更高的技术要求。
常用场景
经典使用场景
在社会媒体分析领域,Social-Media-Dataset 数据集的经典使用场景主要集中在多模态情感分析。该数据集通过整合文本、图像、表情符号及嵌入文本等多模态信息,为研究者提供了一个全面且丰富的数据资源。研究者可以利用此数据集训练和验证多模态情感分析模型,特别是在结合图神经网络(H-GNN)和对比学习方案时,能够显著提升情感分析的准确性和鲁棒性。
解决学术问题
Social-Media-Dataset 数据集解决了多模态情感分析中的关键学术问题。传统情感分析方法主要依赖单一模态数据,如文本或图像,而忽视了多模态信息间的互补性。该数据集通过整合多种模态数据,为研究者提供了一个综合平台,使得多模态情感分析成为可能。这不仅推动了情感分析技术的发展,还为跨模态信息融合提供了新的研究方向。
实际应用
在实际应用中,Social-Media-Dataset 数据集可广泛应用于社交媒体监控、品牌声誉管理及舆情分析等领域。例如,企业可以通过分析社交媒体上的多模态数据,实时监控公众对其产品和服务的情感反馈,从而及时调整市场策略。此外,政府和非营利组织也可以利用该数据集进行舆情监控,以更好地理解公众情绪和需求,制定相应的政策和措施。
数据集最近研究
最新研究方向
在社会媒体分析领域,最新的研究方向聚焦于多模态情感分析,特别是结合文本和图像数据的深度学习方法。Social-Media-Dataset的引入,为这一研究方向提供了丰富的数据资源。该数据集通过精细的数据处理和多模态数据的整合,显著提升了情感分析的准确性和深度。特别是,H-GNN(Heterogeneous Graph Neural Network)与对比学习方案的结合,为多模态情感分析提供了新的视角和方法。这一研究不仅推动了社会媒体数据分析的技术进步,也为相关领域的应用提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

中国近海台风路径集合数据集(1945-2023)

1945-2023年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。注:时间为北京时间。

国家海洋科学数据中心 收录

VisDrone2019

适用于小目标航拍图像检测的数据集,已提前下载并在datasets文件夹下划分了训练集、测试集和验证集。

github 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录