CMACD|情感计算数据集|社交媒体分析数据集
收藏中文情感计算数据集(CMACD)
概述
- 数据集名称:中文情感计算数据集(CMACD)
- 数据来源:微博(Weibo)
- 数据类型:多标签情感计算数据集
- 数据规模:包含11,338个有效用户,566,900条帖子及其用户的MBTI人格标签
- 情感分类:包含六种情感和微情感,每种情感标注有强度等级
- 应用领域:心理学、教育、市场营销、金融、政治等
数据集特点
- 多标签分类:整合了用户的性格特质与情感,支持多标签分类
- 情感强度标注:每种情感和微情感都标注了强度等级
- 稀缺性:中文情感数据集稀缺,尤其是包含中文用户人格特质的数据集更为有限
数据集使用
- 访问方式:仅对有合法需求的研究人员免费开放,需通过电子邮件申请
- 申请邮箱:annezjy94@163.com
- 公开样本:提供了一个小样本数据集demo.csv,地址为:https://github.com/yeaso/Chinese-Affective-Computing-Dataset
引用
- 使用该数据集时,请引用相关论文(具体引用信息未提供)

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Comparative Toxicogenomics Database (CTD)
Comparative Toxicogenomics Database(CTD)是一个公开的综合性数据库,专注于研究环境暴露与人类健康之间的关系。该数据库整合了化学物质、基因、疾病、通路等多维度信息,支持用户查询基因与疾病、化学物质与疾病以及化学物质与基因之间的相互作用,为毒理学研究和环境健康效应研究提供了重要资源。其最新成果包括2025年发布的20周年更新版本,进一步扩展了数据内容和功能。
ctdbase.org 收录
Amazon电影评论数据集
该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。
github 收录
Pubmed
Pubmed 数据集包含来自 PubMed 数据库的 19717 篇与糖尿病相关的科学出版物,分为三类之一。引文网络由 44338 个链接组成。数据集中的每个出版物都由字典中的 TF/IDF 加权词向量描述,该字典由 500 个唯一词组成。
OpenDataLab 收录
Chinese-Poetry-Corpus
本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。
github 收录