five

CMACD|情感计算数据集|社交媒体分析数据集

收藏
github2024-11-13 更新2024-11-14 收录
情感计算
社交媒体分析
下载链接:
https://github.com/yeaso/Chinese-Affective-Computing-Dataset
下载链接
链接失效反馈
资源简介:
这是一个基于社交媒体用户的多标签中文情感计算数据集,整合了用户的性格特质与六种情感及微情感,每种情感都标注了强度级别。数据集旨在推进机器对复杂人类情感的识别,并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。
创建时间:
2024-11-12
原始信息汇总

中文情感计算数据集(CMACD)

概述

  • 数据集名称:中文情感计算数据集(CMACD)
  • 数据来源:微博(Weibo)
  • 数据类型:多标签情感计算数据集
  • 数据规模:包含11,338个有效用户,566,900条帖子及其用户的MBTI人格标签
  • 情感分类:包含六种情感和微情感,每种情感标注有强度等级
  • 应用领域:心理学、教育、市场营销、金融、政治等

数据集特点

  • 多标签分类:整合了用户的性格特质与情感,支持多标签分类
  • 情感强度标注:每种情感和微情感都标注了强度等级
  • 稀缺性:中文情感数据集稀缺,尤其是包含中文用户人格特质的数据集更为有限

数据集使用

  • 访问方式:仅对有合法需求的研究人员免费开放,需通过电子邮件申请
  • 申请邮箱:annezjy94@163.com
  • 公开样本:提供了一个小样本数据集demo.csv,地址为:https://github.com/yeaso/Chinese-Affective-Computing-Dataset

引用

  • 使用该数据集时,请引用相关论文(具体引用信息未提供)
AI搜集汇总
数据集介绍
main_image_url
构建方式
在情感计算领域,现有的数据集往往将情感和人格特质分开标注,缺乏对微情感和情感强度的细致标注。为填补这一空白,本研究从主要社交媒体平台微博中筛选出11,338名有效用户,这些用户来自超过50,000名个体,并具有多样的MBTI人格标签。通过收集这些用户的566,900条帖子及其MBTI人格标签,采用EQN方法,构建了一个多标签的中文情感计算数据集,该数据集整合了同一用户的六种情感和微情感,并标注了情感强度。
使用方法
CMACD数据集主要面向具有合法需求的科研人员,使用者需通过电子邮件申请获取数据集。为展示数据集的特性和应用价值,并方便基础测试和反馈,研究团队已公开了一个小样本数据集demo.csv。使用者可通过访问指定链接获取该小样本数据集,并参考相关文献进行数据集的引用和使用。
背景与挑战
背景概述
情感与个性是理解人类心理状态的核心要素。现有的情感计算数据集通常将情感和个性特征分开标注,缺乏对微情感和情感强度的细粒度标注,尤其是在单一标签和多标签分类中。中文情感数据集极为稀缺,而捕捉中国用户个性特征的数据集更是有限。为填补这一空白,本研究从主要社交媒体平台微博中收集数据,筛选出11,338名有效用户,这些用户来自超过50,000名具有多样MBTI个性标签的个体,并获取了566,900条帖子及其用户的MBTI个性标签。通过EQN方法,我们构建了一个多标签中文情感计算数据集,该数据集将同一用户的个性特征与六种情感和微情感相结合,每种情感均标注有强度等级。多个NLP分类模型的验证结果显示了该数据集的强大实用性。此数据集旨在推动机器对复杂人类情感的识别,并为心理学、教育、市场营销、金融和政治等领域的研究提供数据支持。
当前挑战
尽管该数据集已采取隐私保护措施,但由于涉及人类个性和情感的研究,确保用户安全成为一大挑战。CMACD仅免费提供给有合法需求的研究人员。此外,构建过程中面临的挑战包括从海量社交媒体数据中筛选有效用户和帖子,以及对情感和个性特征进行细粒度标注。这些挑战不仅要求高度的数据处理能力,还需要精确的心理学和情感分析方法。
常用场景
经典使用场景
在情感计算领域,CMACD数据集的经典使用场景主要集中在多标签情感分类和微情感强度分析上。该数据集通过整合微博用户的MBTI人格标签与六种情感及微情感,为研究者提供了一个精细化的情感标注平台。研究者可以利用此数据集训练和验证情感分类模型,探索情感与人格之间的复杂关系,从而提升机器对人类情感状态的识别能力。
解决学术问题
CMACD数据集解决了现有情感计算数据集中情感与个性特征分离的问题,填补了中文情感数据集的空白。通过引入微情感和情感强度的多标签标注,该数据集为心理学、教育学、市场营销等多个领域的研究提供了丰富的数据支持。其精细化的标注方式有助于深入理解人类情感的复杂性,推动情感计算领域的发展。
实际应用
在实际应用中,CMACD数据集可用于开发情感分析工具,帮助企业进行市场调研和消费者行为分析。例如,在金融领域,通过分析用户的情感状态和人格特征,可以更准确地预测市场情绪和投资行为。此外,教育机构可以利用该数据集开发个性化教学系统,根据学生的情感状态和人格特征提供定制化的教育方案。
数据集最近研究
最新研究方向
在情感计算领域,CMACD数据集的最新研究方向主要集中在多标签情感分类和微情感强度分析上。该数据集通过整合微博用户的MBTI人格标签与六种情感及微情感,为研究者提供了丰富的情感和人格数据。前沿研究不仅探索了如何利用这些数据提升自然语言处理模型的情感识别能力,还涉及心理学、教育、市场营销、金融和政治等多个交叉领域的应用。这些研究旨在深化对复杂人类情感的理解,并为相关领域的决策提供数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Comparative Toxicogenomics Database (CTD)

Comparative Toxicogenomics Database(CTD)是一个公开的综合性数据库,专注于研究环境暴露与人类健康之间的关系。该数据库整合了化学物质、基因、疾病、通路等多维度信息,支持用户查询基因与疾病、化学物质与疾病以及化学物质与基因之间的相互作用,为毒理学研究和环境健康效应研究提供了重要资源。其最新成果包括2025年发布的20周年更新版本,进一步扩展了数据内容和功能。

ctdbase.org 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。

github 收录

Pubmed

Pubmed 数据集包含来自 PubMed 数据库的 19717 篇与糖尿病相关的科学出版物,分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量描述,该字典由 500 个唯一词组成。

OpenDataLab 收录

Chinese-Poetry-Corpus

本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。

github 收录