kore-ai-self-harm-dpo
收藏Hugging Face2024-10-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/collinear-ai/kore-ai-self-harm-dpo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于分析和评估对话系统中的攻击性内容和响应。它包含了对话的多个方面,如攻击类别、意图、原始对话、恶意对话、改写后的机器人响应、DPO响应、分数、理由等。数据集分为训练集,包含289个样本。
提供机构:
Collinear AI
创建时间:
2024-10-10
原始信息汇总
数据集概述
数据集信息
- 特征字段:
uuid: 字符串类型attack_category: 字符串类型intent: 字符串类型orig_conversation: 列表类型,包含以下子字段:content: 字符串类型role: 字符串类型
malicious_conversation: 列表类型,包含以下子字段:content: 字符串类型role: 字符串类型
paraphrased_bot_response: 字符串类型dpo_responses: 字符串序列类型scores: 整数序列类型rationales: 字符串序列类型mean_per_row: 浮点数类型sd_per_row: 浮点数类型chosen: 字符串类型rejected: 字符串类型highest_score: 整数类型lowest_score: 整数类型highest_rationale: 字符串类型margin: 整数类型
数据集分割
- 训练集:
- 样本数量: 289
- 数据大小: 3777383.8925 字节
数据集配置
- 配置名称: default
- 数据文件路径: data/train-*
数据集大小
- 下载大小: 1447198 字节
- 数据集总大小: 3777383.8925 字节
搜集汇总
数据集介绍

构建方式
kore-ai-self-harm-dpo数据集的构建基于对自残相关文本的深度分析与标注。研究团队从多个公开的社交媒体平台和心理健康论坛中收集了大量用户生成内容,经过严格的筛选和匿名化处理,确保数据的隐私性和安全性。随后,通过专家团队对这些文本进行细致的标注,识别出自残相关的表达和情感倾向,最终形成了这一高质量的数据集。
特点
该数据集的特点在于其专注于自残行为的文本表达,涵盖了广泛的情感状态和语言风格。数据集中的文本经过精心标注,包含了自残意图、情感强度以及相关背景信息,为研究者提供了丰富的分析维度。此外,数据集的多样性和代表性使其能够有效支持自然语言处理任务,如情感分析、意图识别和心理健康监测。
使用方法
kore-ai-self-harm-dpo数据集适用于多种自然语言处理任务,特别是在心理健康领域的应用。研究者可以利用该数据集训练和评估模型,以识别和预测自残相关的文本表达。此外,该数据集还可用于开发心理健康支持系统,帮助识别高风险个体并提供及时干预。使用该数据集时,建议结合领域专家的指导,以确保分析结果的准确性和实用性。
背景与挑战
背景概述
kore-ai-self-harm-dpo数据集是一个专注于自残行为检测的文本数据集,由Kore.ai公司于2023年发布。该数据集旨在通过自然语言处理技术识别和分类与自残相关的文本内容,以支持心理健康领域的早期干预和预防工作。数据集的核心研究问题在于如何从用户生成的文本中准确识别出自残倾向,从而为心理健康服务提供数据支持。该数据集的发布为心理健康领域的研究者和从业者提供了宝贵的资源,推动了自然语言处理技术在心理健康领域的应用。
当前挑战
kore-ai-self-harm-dpo数据集面临的挑战主要包括两个方面。首先,在领域问题方面,自残行为的文本表达具有高度的多样性和模糊性,如何从复杂的语言模式中准确识别出自残倾向是一个巨大的挑战。其次,在数据构建过程中,由于涉及敏感内容,数据的收集和标注需要极高的伦理标准和技术保障,确保数据的隐私性和安全性。此外,数据集中可能存在样本不平衡问题,如何有效处理少数类样本的识别也是一个亟待解决的难题。
常用场景
经典使用场景
在心理健康领域,kore-ai-self-harm-dpo数据集被广泛应用于自残行为的检测与干预研究。该数据集通过收集和分析用户在社交媒体上的语言表达,帮助研究者识别出自残倾向的早期信号。这一数据集的使用场景主要集中在心理健康监测、危机干预以及心理治疗方案的优化上。
衍生相关工作
基于kore-ai-self-harm-dpo数据集,研究者们开发了多种自残行为预测模型和干预策略。这些工作包括基于深度学习的自残语言识别算法、个性化心理干预方案设计以及心理健康大数据分析平台。这些衍生研究不仅推动了心理健康领域的技术进步,还为全球范围内的心理健康服务提供了新的解决方案。
数据集最近研究
最新研究方向
在心理健康与人工智能交叉领域,kore-ai-self-harm-dpo数据集的最新研究方向聚焦于利用深度学习技术识别和预测自我伤害行为。随着全球心理健康问题的日益严重,该数据集通过提供大量标注数据,支持开发更为精准的自我伤害检测模型。研究者们正探索如何结合自然语言处理与情感分析,以提升模型在社交媒体等非结构化数据上的表现。这一研究方向不仅有助于早期干预和预防,还为心理健康服务的智能化提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



