five

SCAYS 1.0

收藏
github2026-05-14 更新2026-05-15 收录
下载链接:
https://github.com/LexuanWang-Michelle/SCAYS
下载链接
链接失效反馈
官方服务:
资源简介:
SCAYS 1.0 是一个从小红书采集的中文青少年情感语料库,目前包含 8,004 条句子级标注数据(三分类:负面 / 中性 / 正面),覆盖 17 个身份关键词。该数据集采用七维情境标注体系(身份、时间、关系、文化、身体、经济、行为),旨在从数据源头分层构建多维情境化的情感标注数据,以还原青少年完整的生存情境。

SCAYS 1.0 is a Chinese adolescent emotional corpus collected from Xiaohongshu (Little Red Book). It currently contains 8,004 sentence-level annotated data points with three sentiment categories: negative, neutral, and positive, covering 17 identity-related keywords. The dataset adopts a seven-dimensional situational annotation framework, which covers identity, time, interpersonal relationship, culture, physical state, economic status and behavior. Its goal is to hierarchically build multi-dimensional contextualized emotional annotated data from the data source, so as to restore the complete living contexts of adolescents.
创建时间:
2026-04-20
原始信息汇总

SCAYS — 强情境中文青少年情感语料库

数据集概述

SCAYS 1.0 是一个面向中文青少年社交媒体的多维情感标注语料库,数据来源于小红书平台,共包含 8,004 条 句子级标注数据。数据集采用三分类情感标注(负面/中性/正面),并覆盖 17 个身份关键词 的定向采集。

核心创新:七维情境标注体系

SCAYS 区别于传统情感数据集的核心在于其 “强情境” 设计理念,从数据采集阶段就引入七维情境框架,而非事后标注:

维度编号 维度名称 英文名称 核心关注 子类数 标签数
1 身份锚点 Identity Anchor 年级、学校类型、学科、角色 4 17
2 周期节律 Temporal Rhythm 考试、日常、假期、学习周期 4 24
3 关系场域 Relational Field 家庭、师生、同学、恋爱 4 30
4 精神避难所 Digital Refuge 饭圈、二次元/谷圈、游戏、设圈 4 21
5 躯体觉醒 Somatic Awakening 容貌、生理变化、睡眠、疾病 4 16
6 消费认知 Economic Imprint 家庭条件、经济控制、物质攀比 3 12
7 主体性夺回 Agency Reclaim 逃学、翘课等叛逆行为 - 6

七维体系不仅作为描述坐标,还允许维度之间 互相推导缺失信息,解决社交媒体上身份难以锚定的问题。

数据统计(v1.0)

数据规模

类别 数量 标签
显性情绪句子 (normal) 2,172 条 1(负面)
隐含情绪句子 (invisible) 607 条 1(负面)
正面情绪句子 (positive) 173 条 2
中性句子 (neutral) 5,052 条 0
合计 8,004 条 -

数据来源

  • 平台:小红书
  • 采集关键词(17个):准高三、准初三、高三党、初三党、复读生、住校生、住宿生、走读生、理科生、文科生、美术生、体育生、学渣、学霸、卷王、小透明、班干部
  • 内容类型:帖子标题(317条)、正文(1,047条)、评论(6,640条)
  • 采集工具:DrissionPage 模拟真人浏览

标注字段

字段 类型 说明 取值示例
Keyword str 采集关键词 准高三
Note_ID str 原帖ID 69d9f944...
Source str 来源类型 title / content / comment
Sentence str 句子文本 快中考了这种成绩咋办
label int 三分类标签 0=中性,1=负面,2=正面
隐含情绪 str 情绪类别 焦虑/无助/自卑/委屈/愤怒/孤独/正面/中性
情绪动机 str 情绪来源 学业/人际/家庭/未来/自我/身体/生活

BERT 三分类模型效果

类别 精确率 召回率 F1
中性 93% 94% 94%
负面 89% 88% 89%
正面 81% 76% 79%
加权平均 92% 92% 92%

与传统数据集的对比

维度 传统数据集 SCAYS
目标人群 通用(成年人为主) 专门面向中国初高中生
情境信息 采集阶段丢失 七维情境框架,从源头带入
身份锚定 不知道谁在说话 七维互相推导,补全缺失身份
情绪粒度 正/负/中三分类 三分类 + 焦虑/无助/自卑等细粒度标签
语义消歧 难以识别反讽、自嘲 通过身份和关系情境判定真实意图
语义漂移 静态词库,易过时 通过亚文化维度持续跟踪,动态更新
应用深度 知道“他不开心” 知道“他因为偏科被分到普通班,觉得努力没用,所以不开心”

项目结构

SCAYS/ ├── data/ │ ├── normal.csv 显性情绪句子 (2,172条) │ ├── invisible_labeled.csv 隐含情绪标注 (5,832条) │ ├── 训练数据集.csv 合并训练集 (8,004条) │ └── bert训练集.csv BERT可用格式 ├── scripts/ │ ├── bert_3class.py BERT三分类训练/预测 │ ├── xhs身份爬取1.py 小红书数据采集 │ ├── filter_emotion.py 情绪词匹配与分流 │ ├── label_invisible.py 隐含情绪标注 │ ├── merge_review.py 人工审核合并 │ └── remove_usernames.py 用户名脱敏 ├── README.md ├── README_EN.md ├── SCAYS项目介绍.md ├── requirements.txt └── LICENSE

数据处理流程

小红书原始帖子 ↓ 17个身份关键词定向采集 帖子级数据 ↓ 句子级拆分 句子级语料 (8,197条) ↓ 去重 + 去广告 + 用户名脱敏 清洗后语料 (8,004条) ↓ 情绪词匹配分流 ├── normal.csv (2,172条 → 负面) └── invisible.csv (5,832条) ↓ 规则引擎 + 人工审核 ├── 隐含负面 (607条 → 负面) ├── 正面 (173条 → 正面) └── 中性 (5,052条 → 中性)

伦理与许可

  • 数据来源:公开可访问的社交媒体内容
  • 隐私保护:已完成用户名脱敏处理,不包含个人身份信息
  • 使用限制:仅限学术研究,禁止商业监控或用户画像
  • 许可证:CC BY-NC-SA 4.0(允许学术研究使用和标注方法参考,禁止商业用途)

后续规划

  • v1.x:扩展数据至20,000+条,增加七维体系中维度2-7的关键词
  • v2.0:七维情境标注落地、多平台扩展(B站、QQ空间)、动态词库
  • v3.0:多模态融合、情感溯源、垂直领域微调模型、跨学科应用接口
搜集汇总
数据集介绍
main_image_url
构建方式
SCAYS 1.0 是一个面向中文青少年社交媒体的强情境情感标注语料库,其构建独辟蹊径。区别于传统数据集“先采集、后标注”的流程,研究团队首先构建了涵盖身份锚点、周期节律、关系场域、精神避难所、躯体觉醒、消费认知、主体性夺回这七个维度的情境框架。随后,针对每个维度精心设计了100余个定向关键词,并使用DrissionPage工具模拟真人浏览,从小红书平台进行精准采集。最终,经过句子级拆分、脱敏清洗以及规则引擎与人工审核相结合的标注流程,形成了包含8004条句子级标注数据的语料库,每条数据都保留了情绪类型、动机及所属情境维度等丰富信息。
特点
该数据集的核心特色在于其开创性的“强情境”视角。它认为青少年的情绪并非孤立标签,而是嵌在具体的身份、时间、关系与文化坐标之中。通过七维体系,数据集从源头解决了传统数据集的“扁平化”与“身份模糊”困境,使得同一条语句置于不同坐标组合时,能解读出截然不同的情绪浓度与风险等级。此外,数据集独特地覆盖了“隐含情绪”,能够识别那些不含情绪词但充满复杂情感的青少年表达,如对未来的焦虑或来自家庭关系的无奈,极大地提升了现实场景下的情感识别粒度与深度。
使用方法
使用者可轻松调用该数据集进行模型训练与评估。在配置好包含Python 3.8及PyTorch、Transformers库的环境后,通过简单的git命令即可克隆项目。数据以CSV格式存储于data目录下,其中包含句子文本、三分类标签、细粒度情绪类别及动机等关键字段。研究团队还提供了开箱即用的BERT三分类模型训练脚本,仅需一条指令即可启动训练。对于需要预测新数据的场景,同样可以通过预设脚本快速完成情感分类,其验证集加权平均F1值已达到92%,为中文青少年情感分析研究提供了坚实可靠的基准。
背景与挑战
背景概述
SCAYS 1.0 数据集由杨超(Yang Chao)于2025年创建,旨在填补中文青少年社交媒体情感分析领域的数据空白。传统情感数据集普遍依赖通用关键词或随机采样,导致数据呈现“扁平化”特征,忽略了说话人的身份、时间节点、人际关系等情境要素。该研究团队从小红书平台定向采集了8,004条句子级语料,基于七维情境标注体系(身份锚点、周期节律、关系场域、精神避难所、躯体觉醒、消费认知、主体性夺回)进行多维度情感分析。这一创新性的数据构建方式,将青少年的情感表达从孤立的正/负/中性标签中解放出来,嵌入到具体的社会文化坐标中,为心理学、社会学及人工智能领域的情感计算提供了具有深度情境信息的基准资源。
当前挑战
SCAYS 面临的挑战主要体现在两个层面。其一,所解决的领域问题是传统情感数据集对青少年群体语义的普遍忽视与误判——青少年的情感表达高度依赖身份、周期、关系与亚文化圈层,且大量使用不含明确情绪词的反讽、自嘲或圈层“黑话”,传统模型极易将其归类为中性,导致对真实复杂情绪的遗漏。其二,构建过程中遭遇了多重困难:需要设计覆盖100余个关键词的七维采集策略以确保数据来源具有情境结构;需要从社交媒体中识别并分离隐含情绪,通过规则引擎与人工双审校标注情绪类型与动机;还需应对青少年语言迭代极快的语义漂移挑战,建立动态词库更新机制以维持数据集的时效性与代表性。
常用场景
经典使用场景
在青少年社交媒体情感分析领域,SCAYS 1.0 的核心应用场景在于基于七维情境框架(身份锚点、周期节律、关系场域、精神避难所、躯体觉醒、消费认知、主体性夺回)对中文青少年话语进行多维情感解码。该数据集专为捕捉初高中生在小红书等平台上的隐式情绪表达而设计,涵盖考试焦虑、家庭冲突、亚文化认同等典型场景。通过提供8,004条句子级标注数据(含显性与隐含情绪),研究人员可利用其训练能感知身份、时间、关系等情境因素的细粒度情感分类模型,从而突破传统情感分析仅依赖词汇表面的局限。
实际应用
在实际应用中,SCAYS 1.0 为青少年心理健康预警与在线内容安全治理提供了关键数据基础。互联网平台可利用其训练的情境感知模型,从日常发帖中识别出具有高风险的隐性情绪信号(如“关系=长期被孤立”+“躯体=长期失眠”组合下的绝望表达),从而在危机发生前实施主动干预。此外,教育机构与心理咨询系统可借助该数据集的情绪动机标签,精准定位学生情绪来源(如学业压力或人际冲突),辅助开发针对性的校园心理支持工具。该数据集还适配于社交媒体的内容审核与舆情监控场景,有效降低对亚文化表达的误判率。
衍生相关工作
SCAYS 1.0 的发布已催生了多项开创性学术工作。其七维情境标注体系启发了新一代情境化情感分析模型的设计,如基于 BERT 的中文青少年情感三分类器(加权 F1 达 92%),该模型在隐含情绪识别上表现突出。此外,该数据集推动了动态词库构建方法的创新,研究者基于其“精神避难所”等维度开发了跟踪亚文化语义漂移的持续更新机制。在跨学科领域,SCAYS 为心理学研究者提供了将社交媒体语言系统转化为青少年生存状态量化指标的范本,催生了若干探讨学业周期与情绪波动相关性的实证研究。未来,其 v2.0 版本的多平台扩展计划将进一步催生对比分析不同社交媒体生态下青少年情感表达模式的新型工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作