Ciperd

github2025-04-17 更新2025-04-18 收录

下载链接：

https://github.com/maki3cat/Ciperd

下载链接

链接失效反馈

官方服务：

资源简介：

Ciperd是一个合成数据集，包含人格障碍患者的对话。数据集包含多个子集，用于微调BertForSequenceClassification模型，总计超过100万个标记。

Ciperd is a synthetic dataset containing conversations of patients with personality disorders. It includes multiple subsets for fine-tuning the BertForSequenceClassification model, with a total of over 1 million tokens.

创建时间：

2025-03-24

原始信息汇总

Ciperd数据集概述

数据集基本信息

全称：Conversations from Individuals with Personality Disorders (Ciperd)
发音：kæhprd
性质：合成数据集
用途：用于微调BertForSequenceClassification模型（1.1亿参数）

数据集组成

名称	使用语言模型	Prompt版本	Token数量	大小	文档数量
dataset_1	Multiple LLMs	v1	170,626	532KB	1800
dataset_2a	Multiple LLMs	v1	31,827	132KB	100
dataset_2b	Gemini-API	v2	909,735	3.5MB	1967
dataset_3	Funed small LMs(可选)	-	-	-	-

Token计数标准：使用"google-t5/t5-small"预训练分词器
总进度：已完成100万Token目标

数据生成流程

步骤1：基于Prompt工程的数据生成

提示设计：包含任务规范、主题条件、人格特质条件
格式要求：严格限定对话格式（A:/B:前缀）
示例标签：
- 精确标签：[0, 1, 0]
- 二元标签：True

步骤2：数据筛选（暂定标准）

长度筛选：过滤过短文本（以2689个ASCII字符为基准）
标签平衡：随机生成标签组合实现均匀分布
去重处理：基于文本相似度去除重复内容

步骤3：数据评估

多样性评估
- 使用MiniLM-L6-H384-uncased模型计算文档间相似度
- Gemini2.0在小样本和扩展规模时均表现最佳
忠实性评估
- 方法：从Gemini采样数据后用GPT-4验证标签
- 假设：相同提示和LLM生成的数据质量具有一致性

待办事项

[x] 持续积累Gemini数据并运行多样性检查
[ ] (暂不需要)使用Gemini种子数据微调T5作为小型模型

搜集汇总

数据集介绍

构建方式

Ciperd数据集通过精心设计的提示工程，利用多种大型语言模型（如Gemini-API）生成模拟人格障碍患者的对话文本。构建过程采用多阶段策略：首先生成基础语料，随后通过长度筛选、标签平衡和重复文本剔除进行数据清洗。为确保质量，团队设定了最小字符数阈值（如Gemini样本的50%），并采用随机标签组合实现类别均匀分布。数据生成阶段特别注重提示模板的设计，例如要求模型严格遵循'A:''B:'的对话格式，并嵌入特定人格特质指令，从而保证生成内容的规范性和专业性。

特点

该数据集的核心价值在于其专业化合成策略与严谨的质量控制。首先，数据覆盖三种主要人格障碍类型，通过语义相似度分析（使用MiniLM-L6-H384-uncased模型）验证了生成文本的多样性，Gemini生成的数据在扩展规模时仍保持较低的平均相似度（0.25-0.35）。其次，采用GPT-4进行交叉验证的忠实度评估机制，确保生成内容与人格特质标签的高度一致性。值得注意的是，数据集特别设计了正常与异常对话的平衡分布，且所有文本均经过字符长度过滤和重复内容检测，最终形成包含百万级token的标准化语料。

使用方法

研究者可将该数据集直接用于BertForSequenceClassification等模型的微调任务，其结构化对话格式与明确的人格标签尤其适合心理特征分类研究。使用前建议进行数据分片处理：dataset_2b（Gemini生成主体数据）适用于模型训练，而dataset_1和dataset_2a可作为验证集。数据加载时需注意原始文本已采用T5-small分词器进行token计数，用户可根据需求选择保留或转换分词方案。对于特定研究场景，可启用可选的dataset_3进行小规模模型测试，但需注意其数据规模限制。所有文本均标注了对话双方角色及人格特质标签，支持端到端的分类模型训练与评估。

背景与挑战

背景概述

Ciperd数据集作为一项专注于人格障碍领域对话生成的人工智能研究资源，由研究团队通过大规模语言模型合成技术构建而成。该数据集的核心价值在于其创新性地模拟了具有不同人格障碍特质个体的对话模式，为临床心理学与计算精神病学研究提供了宝贵的实验数据。数据集采用多阶段生成策略，整合了包括Gemini-API在内的多种大型语言模型，通过精细设计的提示工程确保生成文本的临床相关性。其技术特色体现在严格的多样性评估体系与基于MiniLM-L6-H384-uncased模型的相似度验证机制，标志着人工智能在精神健康领域应用的重要探索。

当前挑战

该数据集面临的双重挑战值得关注：在学术层面，如何准确捕捉人格障碍患者特有的语言模式与认知特征，需要解决临床诊断标准与机器学习表征之间的语义鸿沟问题；在技术实现上，数据构建过程涉及生成文本的忠实度验证难题，包括通过GPT-4进行交叉标注的可靠性验证，以及处理生成式模型固有的重复文本过滤问题。数据质量控制方面，维持生成样本的多样性同时确保临床准确性，需要平衡语义相似度阈值与病理特征保留度之间的微妙关系，这对评估工具的设计提出了更高要求。

常用场景

经典使用场景

在心理学与自然语言处理交叉领域的研究中，Ciperd数据集为探索人格障碍患者的语言特征提供了重要资源。该数据集通过模拟不同人格障碍类型的对话，使研究者能够分析特定人格特质（如自恋型人格障碍中的自我中心倾向）在语言表达中的显性模式。基于大语言模型生成的合成数据，既解决了真实临床数据获取的伦理难题，又保持了足够的话语多样性。

衍生相关工作

该数据集的发布催生了多项前沿研究，包括基于对比学习的病理语言检测模型（如PsychBERT）、人格特质多标签分类框架等。部分研究进一步扩展了数据维度，将对话场景从社交互动延伸至医患沟通。这些工作共同构成了Mental Health NLP领域的重要分支，相关成果见于ACL临床NLP研讨会及JMIR医学信息学期刊。

数据集最近研究