kore-ai-self-harm-dpo

Name: kore-ai-self-harm-dpo
Creator: Collinear AI
Published: 2024-10-10 13:32:57
License: 暂无描述

Hugging Face2024-10-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/collinear-ai/kore-ai-self-harm-dpo

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于分析和评估对话系统中的攻击性内容和响应。它包含了对话的多个方面，如攻击类别、意图、原始对话、恶意对话、改写后的机器人响应、DPO响应、分数、理由等。数据集分为训练集，包含289个样本。

提供机构：

Collinear AI

创建时间：

2024-10-10

原始信息汇总

数据集概述

数据集信息

特征字段:
- uuid: 字符串类型
- attack_category: 字符串类型
- intent: 字符串类型
- orig_conversation: 列表类型，包含以下子字段：
  - content: 字符串类型
  - role: 字符串类型
- malicious_conversation: 列表类型，包含以下子字段：
  - content: 字符串类型
  - role: 字符串类型
- paraphrased_bot_response: 字符串类型
- dpo_responses: 字符串序列类型
- scores: 整数序列类型
- rationales: 字符串序列类型
- mean_per_row: 浮点数类型
- sd_per_row: 浮点数类型
- chosen: 字符串类型
- rejected: 字符串类型
- highest_score: 整数类型
- lowest_score: 整数类型
- highest_rationale: 字符串类型
- margin: 整数类型

数据集分割

训练集:
- 样本数量: 289
- 数据大小: 3777383.8925 字节

数据集配置

配置名称: default
- 数据文件路径: data/train-*

数据集大小

下载大小: 1447198 字节
数据集总大小: 3777383.8925 字节

搜集汇总

数据集介绍

构建方式

kore-ai-self-harm-dpo数据集的构建基于对自残相关文本的深度分析与标注。研究团队从多个公开的社交媒体平台和心理健康论坛中收集了大量用户生成内容，经过严格的筛选和匿名化处理，确保数据的隐私性和安全性。随后，通过专家团队对这些文本进行细致的标注，识别出自残相关的表达和情感倾向，最终形成了这一高质量的数据集。

特点

该数据集的特点在于其专注于自残行为的文本表达，涵盖了广泛的情感状态和语言风格。数据集中的文本经过精心标注，包含了自残意图、情感强度以及相关背景信息，为研究者提供了丰富的分析维度。此外，数据集的多样性和代表性使其能够有效支持自然语言处理任务，如情感分析、意图识别和心理健康监测。

使用方法

kore-ai-self-harm-dpo数据集适用于多种自然语言处理任务，特别是在心理健康领域的应用。研究者可以利用该数据集训练和评估模型，以识别和预测自残相关的文本表达。此外，该数据集还可用于开发心理健康支持系统，帮助识别高风险个体并提供及时干预。使用该数据集时，建议结合领域专家的指导，以确保分析结果的准确性和实用性。

背景与挑战

背景概述

kore-ai-self-harm-dpo数据集是一个专注于自残行为检测的文本数据集，由Kore.ai公司于2023年发布。该数据集旨在通过自然语言处理技术识别和分类与自残相关的文本内容，以支持心理健康领域的早期干预和预防工作。数据集的核心研究问题在于如何从用户生成的文本中准确识别出自残倾向，从而为心理健康服务提供数据支持。该数据集的发布为心理健康领域的研究者和从业者提供了宝贵的资源，推动了自然语言处理技术在心理健康领域的应用。

当前挑战

kore-ai-self-harm-dpo数据集面临的挑战主要包括两个方面。首先，在领域问题方面，自残行为的文本表达具有高度的多样性和模糊性，如何从复杂的语言模式中准确识别出自残倾向是一个巨大的挑战。其次，在数据构建过程中，由于涉及敏感内容，数据的收集和标注需要极高的伦理标准和技术保障，确保数据的隐私性和安全性。此外，数据集中可能存在样本不平衡问题，如何有效处理少数类样本的识别也是一个亟待解决的难题。

常用场景

经典使用场景

在心理健康领域，kore-ai-self-harm-dpo数据集被广泛应用于自残行为的检测与干预研究。该数据集通过收集和分析用户在社交媒体上的语言表达，帮助研究者识别出自残倾向的早期信号。这一数据集的使用场景主要集中在心理健康监测、危机干预以及心理治疗方案的优化上。

衍生相关工作

基于kore-ai-self-harm-dpo数据集，研究者们开发了多种自残行为预测模型和干预策略。这些工作包括基于深度学习的自残语言识别算法、个性化心理干预方案设计以及心理健康大数据分析平台。这些衍生研究不仅推动了心理健康领域的技术进步，还为全球范围内的心理健康服务提供了新的解决方案。

数据集最近研究