five

基于NLPCC 2013的中文社交媒体情感分类与表情特征重构数据集

收藏
国家基础学科公共科学数据中心2026-05-20 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=6a0b37c8f175603f068f83f1&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
为了更好地支撑虚拟数据中心原位调度系统在跨域数据处理与性能验证中的整体需求,项目组在开源的NLPCC2013情感分析数据集基础上,对其进行了加工与重构,包括重点从句子中提取表情符号并记录其基本属性(作为关键特征增强数据的情感表达维度)、将原始8类情感标签筛选并归并为3类(积极、消极、中性,以提升标签体系的实用性和平衡性)、中文分词与序列化处理(确保数据序列的结构化,便于系统处理)、异常样本过滤(剔除表情分布异常或标签偏差记录,避免数据噪声影响验证准确性)、添加元数据字段(表情计数、句子长度等,提供额外查询支持)和批量脚本验证生成处理日志,确保数据量减少不超过10%。这些处理提升了数据集的多维度可用性。处理后数据记录共19.7万条,以Jason格式文件方式保存。
提供机构:
上海师范大学
二维码
社区交流群
二维码
科研交流群
商业服务