self-harm-synthetic-eval

Hugging Face2025-04-07 更新2025-04-08 收录

下载链接：

https://huggingface.co/datasets/arianaazarbal/self-harm-synthetic-eval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个字段：标签（label）、指令（instruction）、类别（category）和提示类型（prompt_type），均为字符串类型。数据集仅包含训练集部分，共有2942个样本，数据集总大小为451589字节。数据集提供了一个默认配置，用于指定训练数据的文件路径。

This dataset contains four fields: label, instruction, category, and prompt_type, all of which are of string type. The dataset only includes the training split, with a total of 2942 samples and an overall size of 451,589 bytes. A default configuration is provided to specify the file path of the training data.

创建时间：

2025-04-06

搜集汇总

数据集介绍

构建方式

在心理健康与人工智能交叉领域，self-harm-synthetic-eval数据集的构建采用了严格的合成数据生成策略。该数据集包含2942条经过人工校验的文本样本，每条数据均标注有label、instruction、category和prompt_type四个结构化字段。数据生成过程结合了心理学领域知识框架，通过半自动化流程确保样本在保持语言自然性的同时，精准覆盖自伤行为评估的关键维度。

使用方法

使用该数据集时，建议先通过prompt_type字段进行数据子集划分，针对不同提问方式建立独立评估模型。category字段可用于构建多任务学习框架，而instruction字段则适合生成式模型的微调。由于涉及敏感心理内容，建议在使用前建立伦理审查机制，并配合专业心理学知识进行结果解读。

背景与挑战

背景概述

随着人工智能技术在心理健康领域的深入应用，自残行为检测成为自然语言处理研究的重要方向。self-harm-synthetic-eval数据集由专业研究团队于近年构建，旨在通过合成数据评估模型对自残相关文本的识别能力。该数据集包含多维度标注信息，涵盖标签、指令、类别和提示类型等特征，为开发具有临床实用性的风险评估工具提供了关键数据支持。其构建反映了计算精神病学领域对可解释、可泛化人工智能模型的迫切需求，对提升心理健康服务的早期干预效能具有重要意义。

当前挑战

该数据集面临的核心挑战在于如何平衡合成数据的真实性与伦理边界。自残文本的敏感特性使得真实数据获取受限，而合成数据可能无法完全复现真实场景的语言复杂性。技术层面需要解决标注体系标准化问题，确保不同提示类型下分类的一致性。数据构建过程中，研究人员需在保护隐私与保持数据效用间取得平衡，同时克服心理健康领域专业术语的语境理解难题，这对标注人员的跨学科知识提出了较高要求。

常用场景

经典使用场景

在心理健康与自然语言处理交叉领域的研究中，self-harm-synthetic-eval数据集为识别和评估自我伤害倾向的文本提供了重要资源。该数据集通过标注的指令和类别，支持研究者构建和优化分类模型，以区分不同类别的自我伤害言论。其合成数据的特性使得在保护用户隐私的同时，能够有效模拟真实场景中的语言模式。

解决学术问题

该数据集解决了心理健康研究中数据稀缺和隐私保护的难题。通过提供高质量的合成数据，研究者可以在不涉及真实用户敏感信息的情况下，开发更精准的自我伤害言论检测算法。这不仅推动了自然语言处理技术在心理健康领域的应用，还为早期干预和预防提供了技术支持。

实际应用

在实际应用中，self-harm-synthetic-eval数据集被广泛用于社交媒体监控和心理健康支持系统。例如，平台可以利用该数据集训练的模型，实时检测用户发布的潜在自我伤害内容，并触发预警机制。这种应用显著提升了心理健康服务的响应速度与覆盖范围。

数据集最近研究