SCAYS 1.0
收藏SCAYS — 强情境中文青少年情感语料库
数据集概述
SCAYS 1.0 是一个面向中文青少年社交媒体的多维情感标注语料库,数据来源于小红书平台,共包含 8,004 条 句子级标注数据。数据集采用三分类情感标注(负面/中性/正面),并覆盖 17 个身份关键词 的定向采集。
核心创新:七维情境标注体系
SCAYS 区别于传统情感数据集的核心在于其 “强情境” 设计理念,从数据采集阶段就引入七维情境框架,而非事后标注:
| 维度编号 | 维度名称 | 英文名称 | 核心关注 | 子类数 | 标签数 |
|---|---|---|---|---|---|
| 1 | 身份锚点 | Identity Anchor | 年级、学校类型、学科、角色 | 4 | 17 |
| 2 | 周期节律 | Temporal Rhythm | 考试、日常、假期、学习周期 | 4 | 24 |
| 3 | 关系场域 | Relational Field | 家庭、师生、同学、恋爱 | 4 | 30 |
| 4 | 精神避难所 | Digital Refuge | 饭圈、二次元/谷圈、游戏、设圈 | 4 | 21 |
| 5 | 躯体觉醒 | Somatic Awakening | 容貌、生理变化、睡眠、疾病 | 4 | 16 |
| 6 | 消费认知 | Economic Imprint | 家庭条件、经济控制、物质攀比 | 3 | 12 |
| 7 | 主体性夺回 | Agency Reclaim | 逃学、翘课等叛逆行为 | - | 6 |
七维体系不仅作为描述坐标,还允许维度之间 互相推导缺失信息,解决社交媒体上身份难以锚定的问题。
数据统计(v1.0)
数据规模
| 类别 | 数量 | 标签 |
|---|---|---|
| 显性情绪句子 (normal) | 2,172 条 | 1(负面) |
| 隐含情绪句子 (invisible) | 607 条 | 1(负面) |
| 正面情绪句子 (positive) | 173 条 | 2 |
| 中性句子 (neutral) | 5,052 条 | 0 |
| 合计 | 8,004 条 | - |
数据来源
- 平台:小红书
- 采集关键词(17个):准高三、准初三、高三党、初三党、复读生、住校生、住宿生、走读生、理科生、文科生、美术生、体育生、学渣、学霸、卷王、小透明、班干部
- 内容类型:帖子标题(317条)、正文(1,047条)、评论(6,640条)
- 采集工具:DrissionPage 模拟真人浏览
标注字段
| 字段 | 类型 | 说明 | 取值示例 |
|---|---|---|---|
| Keyword | str | 采集关键词 | 准高三 |
| Note_ID | str | 原帖ID | 69d9f944... |
| Source | str | 来源类型 | title / content / comment |
| Sentence | str | 句子文本 | 快中考了这种成绩咋办 |
| label | int | 三分类标签 | 0=中性,1=负面,2=正面 |
| 隐含情绪 | str | 情绪类别 | 焦虑/无助/自卑/委屈/愤怒/孤独/正面/中性 |
| 情绪动机 | str | 情绪来源 | 学业/人际/家庭/未来/自我/身体/生活 |
BERT 三分类模型效果
| 类别 | 精确率 | 召回率 | F1 |
|---|---|---|---|
| 中性 | 93% | 94% | 94% |
| 负面 | 89% | 88% | 89% |
| 正面 | 81% | 76% | 79% |
| 加权平均 | 92% | 92% | 92% |
与传统数据集的对比
| 维度 | 传统数据集 | SCAYS |
|---|---|---|
| 目标人群 | 通用(成年人为主) | 专门面向中国初高中生 |
| 情境信息 | 采集阶段丢失 | 七维情境框架,从源头带入 |
| 身份锚定 | 不知道谁在说话 | 七维互相推导,补全缺失身份 |
| 情绪粒度 | 正/负/中三分类 | 三分类 + 焦虑/无助/自卑等细粒度标签 |
| 语义消歧 | 难以识别反讽、自嘲 | 通过身份和关系情境判定真实意图 |
| 语义漂移 | 静态词库,易过时 | 通过亚文化维度持续跟踪,动态更新 |
| 应用深度 | 知道“他不开心” | 知道“他因为偏科被分到普通班,觉得努力没用,所以不开心” |
项目结构
SCAYS/ ├── data/ │ ├── normal.csv 显性情绪句子 (2,172条) │ ├── invisible_labeled.csv 隐含情绪标注 (5,832条) │ ├── 训练数据集.csv 合并训练集 (8,004条) │ └── bert训练集.csv BERT可用格式 ├── scripts/ │ ├── bert_3class.py BERT三分类训练/预测 │ ├── xhs身份爬取1.py 小红书数据采集 │ ├── filter_emotion.py 情绪词匹配与分流 │ ├── label_invisible.py 隐含情绪标注 │ ├── merge_review.py 人工审核合并 │ └── remove_usernames.py 用户名脱敏 ├── README.md ├── README_EN.md ├── SCAYS项目介绍.md ├── requirements.txt └── LICENSE
数据处理流程
小红书原始帖子 ↓ 17个身份关键词定向采集 帖子级数据 ↓ 句子级拆分 句子级语料 (8,197条) ↓ 去重 + 去广告 + 用户名脱敏 清洗后语料 (8,004条) ↓ 情绪词匹配分流 ├── normal.csv (2,172条 → 负面) └── invisible.csv (5,832条) ↓ 规则引擎 + 人工审核 ├── 隐含负面 (607条 → 负面) ├── 正面 (173条 → 正面) └── 中性 (5,052条 → 中性)
伦理与许可
- 数据来源:公开可访问的社交媒体内容
- 隐私保护:已完成用户名脱敏处理,不包含个人身份信息
- 使用限制:仅限学术研究,禁止商业监控或用户画像
- 许可证:CC BY-NC-SA 4.0(允许学术研究使用和标注方法参考,禁止商业用途)
后续规划
- v1.x:扩展数据至20,000+条,增加七维体系中维度2-7的关键词
- v2.0:七维情境标注落地、多平台扩展(B站、QQ空间)、动态词库
- v3.0:多模态融合、情感溯源、垂直领域微调模型、跨学科应用接口




