synthetic-conversations-new

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/paper-Luyen-Sang/synthetic-conversations-new

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含文本数据和与之相关的评估分数的数据集，文本数据包括原始文本和经过处理的文本。评估分数包括文本过滤分数、预测分数和真实分数，其中真实分数是根据PHQ-8问卷的八个问题计算得出的。数据集分为训练集、测试集和验证集，可用于机器学习模型的训练和评估。

创建时间：

2025-06-03

原始信息汇总

synthetic-conversations-new 数据集概述

数据集基本信息

数据集名称: synthetic-conversations-new
下载大小: 24,232,734 字节
数据集大小: 72,704,503 字节
数据集地址: https://huggingface.co/datasets/paper-Luyen-Sang/synthetic-conversations-new

数据集结构

特征 (Features)

id: int64
json_text: string
full_text: string
text: string
predict_score: string
truth_score:
- phq8_1_interest: int64
- phq8_2_down: int64
- phq8_3_sleep: int64
- phq8_4_energy: int64
- phq8_5_appetite: int64
- phq8_6_self_image: int64
- phq8_7_concentration: int64
- phq8_8_motor: int64
truth_predict_score: int64
label: int64

数据划分 (Splits)

train:
- 样本数量: 2,787
- 大小: 70,227,571 字节
test:
- 样本数量: 56
- 大小: 1,211,106 字节
val:
- 样本数量: 56
- 大小: 1,265,826 字节

配置文件 (Configs)

config_name: default
- 数据文件路径:
  - train: data/train-*
  - test: data/test-*
  - val: data/val-*

搜集汇总

数据集介绍

构建方式

在心理健康研究领域，synthetic-conversations-new数据集通过结构化方法构建，包含2787条训练样本和56条验证/测试样本。数据以JSON格式存储，每条记录涵盖对话文本、PHQ-8抑郁量表八个维度的真实评分（如睡眠障碍、食欲变化等），以及预测得分与真实得分的对比标签。数据划分遵循标准机器学习范式，按7:1:1比例分配训练集、验证集和测试集，确保模型开发与评估的可靠性。

特点

该数据集的核心价值在于其多维心理健康评估体系，PHQ-8量表的八个临床维度为研究者提供了细粒度的抑郁症状分析框架。文本字段包含原始对话和结构化JSON数据，支持自然语言处理与结构化数据分析的融合研究。预测得分与真实得分的双标注机制，特别适用于心理健康领域的预测模型验证研究，56条测试样本虽少但经过精心筛选，具有较高的临床参考价值。

使用方法

研究者可加载标准化的训练-验证-测试分割，利用text字段进行自然语言特征提取，结合phq8系列字段构建心理健康预测模型。truth_predict_score字段支持模型性能的端到端评估，而JSON格式的原始数据允许深度解析对话结构。建议采用交叉验证缓解测试集样本量限制，注意PHQ-8量表的临床阈值特性，在二分类或多分类任务中合理定义label字段的划分标准。

背景与挑战

背景概述

synthetic-conversations-new数据集是心理健康领域的一项重要资源，专注于通过合成对话数据来评估抑郁症症状。该数据集由专业研究团队构建，其核心研究问题围绕如何利用自然语言处理技术识别和量化抑郁症的临床表现。数据集中的PHQ-8评分系统为研究者提供了标准化的抑郁症状评估框架，这在心理健康研究和临床应用中具有重要价值。该数据集的建立为开发更精准的心理健康评估工具奠定了基础，推动了人工智能在精神健康领域的应用发展。

当前挑战

该数据集面临的主要挑战体现在两个方面：在领域问题层面，如何准确捕捉对话中隐含的情绪状态和抑郁症状是一大难题，自然语言的复杂性和多样性使得症状识别具有高度挑战性；在构建过程中，确保合成对话数据的真实性和代表性需要克服诸多困难，包括保持语言的自然流畅性，同时准确反映不同严重程度的抑郁特征。此外，PHQ-8评分系统与对话内容的精确对应关系也需要细致的标注和验证工作。

常用场景

经典使用场景

在心理健康研究领域，synthetic-conversations-new数据集为研究人员提供了一个独特的资源，用于分析和模拟抑郁症患者的对话模式。该数据集通过包含PHQ-8评分系统的多项指标，如兴趣减退、情绪低落、睡眠问题等，使得研究者能够深入探讨抑郁症患者在自然语言表达中的特征。这种模拟对话的数据集特别适用于训练和评估心理健康相关的自然语言处理模型。

衍生相关工作

基于synthetic-conversations-new数据集，许多经典研究工作得以展开。例如，一些研究利用该数据集开发了抑郁症自动筛查系统，通过分析对话文本中的语言特征来预测PHQ-8评分。此外，该数据集还被用于改进情感分析模型，使其能够更准确地识别抑郁症患者的情绪状态。

数据集最近研究