five

CH-Mits|社交媒体分析数据集|多模态数据数据集

收藏
github2024-05-29 更新2024-06-06 收录
社交媒体分析
多模态数据
下载链接:
https://github.com/Marblrdumdore/CH-Mits
下载链接
链接失效反馈
资源简介:
CH-Mits是一个多模态数据集,用于中文社交媒体。数据集分为正负样本,每个样本包含一个.png图像和一个.txt文件,.txt文件包含笔记标题、笔记描述和上传时间。数据集遵循严格的隐私规则,不涉及任何用户隐私信息。
创建时间:
2024-05-21
原始信息汇总

数据集概述

数据集名称

CH-Mits

数据集结构

  • 正样本数据集

    • p0-330.zip:包含样本0至330,共331个正样本。
    • p331-666.zip:包含样本331至666。
    • p667-1022.zip:包含样本667至1022。
    • 总计:1023个正样本。
  • 负样本数据集

    • n0-333.zip:包含样本0至333,共334个负样本。
    • n334-666.zip:包含样本334至666。
    • n667-999.zip:包含样本667至999。
    • 总计:1000个负样本。

样本内容

  • 每个样本:包含一个.png图像和一个.txt文件。
  • .txt文件内容
    • 笔记标题:文本内容的标题。
    • 笔记描述:主要文本内容。
    • 上传时间:笔记上传的时间。

隐私保护

  • 数据集遵循严格的隐私规则,不包含任何用户隐私信息,如用户ID或昵称。
AI搜集汇总
数据集介绍
main_image_url
构建方式
CH-Mits数据集的构建基于对中国社交媒体平台(如小红书)的用户生成内容进行系统性采集。该数据集分为正负两类样本,分别包含1023个正样本和1000个负样本。每个样本由一张.png格式的图片和一个包含笔记标题、笔记描述及上传时间的.txt文件组成。数据集的构建严格遵循隐私保护规则,确保不涉及用户隐私信息,如用户ID或昵称。
特点
CH-Mits数据集的显著特点在于其跨模态的特性,结合了图像和文本数据,为情感分析提供了丰富的信息源。此外,数据集的样本来源于中国社交媒体,具有鲜明的地域和文化特色,适用于针对中国用户群体的情感分析研究。数据集的隐私保护措施也体现了其高度的伦理合规性。
使用方法
使用CH-Mits数据集时,研究者可以利用其提供的图像和文本数据进行多模态情感分析。通过解析.txt文件中的笔记标题、描述和上传时间,可以提取出丰富的文本特征。同时,结合.png格式的图片,可以进一步分析用户的视觉表达。数据集的下载和使用需遵循相关引用规范,确保学术研究的透明性和可追溯性。
背景与挑战
背景概述
CH-Mits数据集是由Ma, Juhao、Xu, Shuai、Liu, Yilin和Fu, Xiaoming等研究人员于2024年创建,旨在为中文社交媒体用户情感分析提供一个跨模态的数据资源。该数据集主要收集自中国社交平台‘小红书’,包含1023个正样本和1000个负样本,每个样本由一张.png图像和一个包含笔记标题、笔记描述及上传时间的.txt文件组成。CH-Mits的构建严格遵循隐私规则,不涉及用户隐私信息,如用户ID或昵称。该数据集的发布为情感分析领域提供了新的研究素材,尤其在中文社交媒体情感分析方面具有重要影响力。
当前挑战
CH-Mits数据集在构建过程中面临多项挑战。首先,数据集的规模和多样性要求在收集和处理过程中保持高度的准确性和一致性。其次,跨模态数据的整合,特别是图像与文本的关联分析,增加了数据处理的复杂性。此外,确保数据隐私和遵守相关法规,如不收集用户隐私信息,也是一项重要挑战。这些挑战不仅影响了数据集的构建效率,也对其在实际应用中的效能提出了考验。
常用场景
经典使用场景
在情感分析领域,CH-Mits数据集因其丰富的跨模态信息而备受瞩目。该数据集通过整合来自中国社交媒体平台小红书的用户生成内容,包括图像和文本,为研究者提供了一个独特的视角来探索用户情感表达。通过分析笔记标题、描述和上传时间,研究者可以深入挖掘用户在特定情境下的情感倾向,从而为情感分析模型提供有力的训练数据。
衍生相关工作
CH-Mits数据集的发布激发了大量相关研究工作,特别是在跨模态情感分析和社交媒体数据挖掘领域。例如,有研究者利用该数据集开发了新的多模态情感分类模型,显著提升了情感识别的准确率。此外,该数据集还被用于探索用户行为模式,为个性化推荐系统提供了新的数据源。这些衍生工作不仅丰富了情感分析的理论框架,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
在社交媒体情感分析领域,CH-Mits数据集的引入为研究者提供了丰富的跨模态数据资源。该数据集聚焦于中国社交平台小红书的用户生成内容,结合图像与文本信息,旨在深入探索用户情感表达的多模态特征。近期研究主要集中在利用CH-Mits数据集进行跨模态情感分析模型的开发与优化,以提升对复杂情感状态的识别精度。此外,该数据集的隐私保护设计也为相关研究提供了安全可靠的数据基础,推动了情感分析技术在实际应用中的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录