SHINES dataset (Self-Harm Identification aNd intent Extraction with Supportive emoji sensitivity)

Name: SHINES dataset (Self-Harm Identification aNd intent Extraction with Supportive emoji sensitivity)
Creator: Fondazione Bruno Kessler, Trento, Italy; Indian Institute of Technology Patna, India; Indian Institute of Technology Jodhpur, India
Published: 2025-06-05 22:19:48
License: 暂无描述

arXiv2025-06-05 更新2025-06-07 收录

下载链接：

https://www.iitp.ac.in/~ai-nlp-ml/resources.html#SHINES

下载链接

链接失效反馈

官方服务：

资源简介：

SHINES数据集是一个包含5206条手动标注的社交媒体帖子数据集，旨在用于自我伤害检测和意图提取。数据集包含了自我伤害标签、非正式提及（CMs）和严重意图（SIs）的详细注释，以及来自CESM-100的emoji解释。CESM-100是一个包含100个emoji的集合，每个emoji都有与自我伤害相关的上下文解释。数据集的创建过程包括数据收集、数据标注和增强数据集稳健性的合成帖子生成。数据集适用于自我伤害检测、情感分析、心理健康监测等领域，旨在解决自我伤害信号固有的歧义问题。

The SHINES Dataset is a manually annotated corpus consisting of 5,206 social media posts, developed for self-harm detection and intent extraction tasks. It includes detailed annotations for self-harm labels, casual mentions (CMs), severe intentions (SIs), as well as emoji explanations sourced from CESM-100. CESM-100 is a collection of 100 emojis, each accompanied by context-specific explanations related to self-harm. The dataset creation pipeline encompasses data collection, manual annotation, and synthetic post generation to enhance the dataset's robustness. This dataset is applicable to fields such as self-harm detection, sentiment analysis, and mental health monitoring, aiming to address the inherent ambiguity of self-harm-related signals.

提供机构：

Fondazione Bruno Kessler, Trento, Italy; Indian Institute of Technology Patna, India; Indian Institute of Technology Jodhpur, India

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

SHINES数据集的构建过程体现了严谨的科学方法与社会媒体分析的深度融合。研究团队从心理健康相关Reddit子论坛中筛选了5206篇经过人工标注的社交媒体帖子，采用三阶段标注流程确保数据质量：首先由三位独立标注员通过多数表决确定自残/非自残标签（Fleiss' Kappa=0.78），其次标注 casual mention（CM）和 serious intent（SI）的文本片段（F1=0.66-0.69），最后通过ChatGPT生成1000篇合成帖子并经临床精神科医生验证。数据集特别采用Presidio工具进行敏感信息脱敏处理，并创新性地开发了包含100个表情符号临床解释的CESM-100矩阵作为辅助标注体系。

特点

该数据集的核心价值在于其多维标注体系与表情符号的深度整合：1）首创性地将自残表达区分为casual mention（34例）和serious intent（2488例）两种意图类型；2）包含3067个带有表情符号的帖子，通过CESM-100矩阵提供表情符号在心理健康语境下的专业解读；3）采用合成数据增强策略，生成的1000篇合成帖子经人工验证与原始数据具有58%的混淆率。数据统计分析显示自残帖子中单表情组合占比78.15%，且隐喻性表情使用（2761例）显著多于直接表征（2268例），揭示了自残表达的特殊符号学特征。

使用方法

该数据集支持三种典型应用范式：1）多任务学习框架下，可联合训练自残分类（二元标签）、CM/SI片段提取（序列标注）及解释生成（文本生成）任务；2）通过CESM-100矩阵增强模型的表情符号理解能力，将表情符号的常规含义与临床解读共同作为输入特征；3）支持零样本、小样本和微调三种实验设置，论文中采用80/20的数据划分策略，使用AdamW优化器（学习率4e-5）在Llama等模型上实现最高0.88的F1值。研究人员建议优先采用多任务微调策略，并搭配表情符号上下文增强模块以提升模型性能。

背景与挑战

背景概述

SHINES数据集（Self-Harm Identification aNd intent Extraction with Supportive emoji sensitivity）由Fondazione Bruno Kessler、印度理工学院帕特纳分校和焦特布尔分校的研究团队于2025年创建，旨在通过整合文本与表情符号的语境化分析，提升大型语言模型（LLMs）在社交媒体自我伤害检测中的性能。该数据集包含5206条标注的社交媒体帖子，涵盖自我伤害标签、随意提及（CM）和严重意图（SI）的跨度标注，并引入CESM-100表情符号敏感矩阵以增强多模态理解。SHINES通过区分自我伤害表达的细微差异，解决了现有模型在隐式语言和表情符号解读上的不足，为心理健康监测和自杀预防提供了重要工具。

当前挑战

SHINES数据集面临的核心挑战包括：1) 领域问题方面，自我伤害表达的隐晦性和语境依赖性导致模型难以区分随意提及与真实意图，例如讽刺或隐喻性语言可能掩盖真实情绪；2) 构建过程中，数据稀缺性和分散性增加了收集难度，且表情符号的多义性（如🔪可能象征暴力或烹饪）需通过人工修订和临床验证确保标注一致性。此外，合成数据与真实数据的语义对齐、跨文化表情符号解读的差异性，以及模型对混合信号（如积极与消极表情符号共存）的鲁棒性，均为亟待解决的技术难点。

常用场景

经典使用场景

SHINES数据集在心理健康研究领域具有重要应用价值，特别是在社交媒体上的自残行为检测方面。该数据集通过标注自残标签、随意提及（CM）和严重意图（SI）的文本片段，为研究者提供了丰富的语料资源。其经典使用场景包括训练和评估大型语言模型（LLMs）以识别社交媒体帖子中的自残倾向，区分随意提及和严重意图，从而提高早期干预的准确性。

解决学术问题

SHINES数据集解决了自残检测中的多个关键学术问题。首先，它通过详细的标注帮助模型区分随意提及和严重意图，减少了误报率。其次，该数据集结合了Centennial Emoji Sensitivity Matrix (CESM-100)，提供了emoji在自残语境中的上下文解释，弥补了现有模型在理解多模态表达（如文本与emoji结合）方面的不足。此外，SHINES还支持多任务学习框架，包括自残分类、CM/SI片段提取和解释生成，进一步提升了模型的综合性能。

衍生相关工作

SHINES数据集衍生了一系列相关研究工作。例如，基于该数据集的研究提出了多任务学习框架，结合CESM-100提升LLMs在自残检测中的性能。此外，一些研究还探索了如何利用SHINES生成解释性文本，增强模型决策的透明度和可信度。其他工作则进一步扩展了数据集的应用范围，如结合用户行为分析和时间序列数据，以更全面地理解自残行为的动态特征。这些衍生研究不仅推动了自残检测技术的发展，还为心理健康领域的其他研究提供了宝贵的数据和方法支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集