five

CMACD|情感计算数据集|社交媒体分析数据集

收藏
github2024-11-13 更新2024-11-14 收录
情感计算
社交媒体分析
下载链接:
https://github.com/yeaso/Chinese-Affective-Computing-Dataset
下载链接
链接失效反馈
资源简介:
这是一个基于社交媒体用户的多标签中文情感计算数据集,整合了用户的性格特质与六种情感及微情感,每种情感都标注了强度级别。数据集旨在推进机器对复杂人类情感的识别,并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。
创建时间:
2024-11-12
原始信息汇总

中文情感计算数据集(CMACD)

概述

  • 数据集名称:中文情感计算数据集(CMACD)
  • 数据来源:微博(Weibo)
  • 数据类型:多标签情感计算数据集
  • 数据规模:包含11,338个有效用户,566,900条帖子及其用户的MBTI人格标签
  • 情感分类:包含六种情感和微情感,每种情感标注有强度等级
  • 应用领域:心理学、教育、市场营销、金融、政治等

数据集特点

  • 多标签分类:整合了用户的性格特质与情感,支持多标签分类
  • 情感强度标注:每种情感和微情感都标注了强度等级
  • 稀缺性:中文情感数据集稀缺,尤其是包含中文用户人格特质的数据集更为有限

数据集使用

  • 访问方式:仅对有合法需求的研究人员免费开放,需通过电子邮件申请
  • 申请邮箱:annezjy94@163.com
  • 公开样本:提供了一个小样本数据集demo.csv,地址为:https://github.com/yeaso/Chinese-Affective-Computing-Dataset

引用

  • 使用该数据集时,请引用相关论文(具体引用信息未提供)
AI搜集汇总
数据集介绍
main_image_url
构建方式
在情感计算领域,现有的数据集往往将情感和人格特质分开标注,缺乏对微情感和情感强度的细致标注。为填补这一空白,本研究从主要社交媒体平台微博中筛选出11,338名有效用户,这些用户来自超过50,000名个体,并具有多样的MBTI人格标签。通过收集这些用户的566,900条帖子及其MBTI人格标签,采用EQN方法,构建了一个多标签的中文情感计算数据集,该数据集整合了同一用户的六种情感和微情感,并标注了情感强度。
使用方法
CMACD数据集主要面向具有合法需求的科研人员,使用者需通过电子邮件申请获取数据集。为展示数据集的特性和应用价值,并方便基础测试和反馈,研究团队已公开了一个小样本数据集demo.csv。使用者可通过访问指定链接获取该小样本数据集,并参考相关文献进行数据集的引用和使用。
背景与挑战
背景概述
情感与个性是理解人类心理状态的核心要素。现有的情感计算数据集通常将情感和个性特征分开标注,缺乏对微情感和情感强度的细粒度标注,尤其是在单一标签和多标签分类中。中文情感数据集极为稀缺,而捕捉中国用户个性特征的数据集更是有限。为填补这一空白,本研究从主要社交媒体平台微博中收集数据,筛选出11,338名有效用户,这些用户来自超过50,000名具有多样MBTI个性标签的个体,并获取了566,900条帖子及其用户的MBTI个性标签。通过EQN方法,我们构建了一个多标签中文情感计算数据集,该数据集将同一用户的个性特征与六种情感和微情感相结合,每种情感均标注有强度等级。多个NLP分类模型的验证结果显示了该数据集的强大实用性。此数据集旨在推动机器对复杂人类情感的识别,并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。
当前挑战
尽管该数据集已采取隐私保护措施,但由于涉及人类个性和情感的研究,确保用户安全成为一大挑战。CMACD仅免费提供给有合法需求的研究人员。此外,构建过程中面临的挑战包括从海量社交媒体数据中筛选有效用户和帖子,以及对情感和个性特征进行细粒度标注。这些挑战不仅要求高度的数据处理能力,还需要精确的心理学和情感分析方法。
常用场景
经典使用场景
在情感计算领域,CMACD数据集的经典使用场景主要集中在多标签情感分类和微情感强度分析上。该数据集通过整合微博用户的MBTI人格标签与六种情感及微情感,为研究者提供了一个精细化的情感标注平台。研究者可以利用此数据集训练和验证情感分类模型,探索情感与人格之间的复杂关系,从而提升机器对人类情感状态的识别能力。
解决学术问题
CMACD数据集解决了现有情感计算数据集中情感与个性特征分离的问题,填补了中文情感数据集的空白。通过引入微情感和情感强度的多标签标注,该数据集为心理学、教育学、市场营销等多个领域的研究提供了丰富的数据支持。其精细化的标注方式有助于深入理解人类情感的复杂性,推动情感计算领域的发展。
实际应用
在实际应用中,CMACD数据集可用于开发情感分析工具,帮助企业进行市场调研和消费者行为分析。例如,在金融领域,通过分析用户的情感状态和人格特征,可以更准确地预测市场情绪和投资行为。此外,教育机构可以利用该数据集开发个性化教学系统,根据学生的情感状态和人格特征提供定制化的教育方案。
数据集最近研究
最新研究方向
在情感计算领域,CMACD数据集的最新研究方向主要集中在多标签情感分类和微情感强度分析上。该数据集通过整合微博用户的MBTI人格标签与六种情感及微情感,为研究者提供了丰富的情感和人格数据。前沿研究不仅探索了如何利用这些数据提升自然语言处理模型的情感识别能力,还涉及心理学、教育、市场营销、金融和政治等多个交叉领域的应用。这些研究旨在深化对复杂人类情感的理解,并为相关领域的决策提供数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录