five

synthetic-conversations-new

收藏
Hugging Face2025-06-05 更新2025-06-06 收录
下载链接:
https://huggingface.co/datasets/paper-Luyen-Sang/synthetic-conversations-new
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含文本数据和与之相关的评估分数的数据集,文本数据包括原始文本和经过处理的文本。评估分数包括文本过滤分数、预测分数和真实分数,其中真实分数是根据PHQ-8问卷的八个问题计算得出的。数据集分为训练集、测试集和验证集,可用于机器学习模型的训练和评估。
创建时间:
2025-06-03
原始信息汇总

synthetic-conversations-new 数据集概述

数据集基本信息

  • 数据集名称: synthetic-conversations-new
  • 下载大小: 24,232,734 字节
  • 数据集大小: 72,704,503 字节
  • 数据集地址: https://huggingface.co/datasets/paper-Luyen-Sang/synthetic-conversations-new

数据集结构

特征 (Features)

  • id: int64
  • json_text: string
  • full_text: string
  • text: string
  • predict_score: string
  • truth_score:
    • phq8_1_interest: int64
    • phq8_2_down: int64
    • phq8_3_sleep: int64
    • phq8_4_energy: int64
    • phq8_5_appetite: int64
    • phq8_6_self_image: int64
    • phq8_7_concentration: int64
    • phq8_8_motor: int64
  • truth_predict_score: int64
  • label: int64

数据划分 (Splits)

  • train:
    • 样本数量: 2,787
    • 大小: 70,227,571 字节
  • test:
    • 样本数量: 56
    • 大小: 1,211,106 字节
  • val:
    • 样本数量: 56
    • 大小: 1,265,826 字节

配置文件 (Configs)

  • config_name: default
    • 数据文件路径:
      • train: data/train-*
      • test: data/test-*
      • val: data/val-*
搜集汇总
数据集介绍
main_image_url
构建方式
在心理健康研究领域,synthetic-conversations-new数据集通过结构化方法构建,包含2787条训练样本和56条验证/测试样本。数据以JSON格式存储,每条记录涵盖对话文本、PHQ-8抑郁量表八个维度的真实评分(如睡眠障碍、食欲变化等),以及预测得分与真实得分的对比标签。数据划分遵循标准机器学习范式,按7:1:1比例分配训练集、验证集和测试集,确保模型开发与评估的可靠性。
特点
该数据集的核心价值在于其多维心理健康评估体系,PHQ-8量表的八个临床维度为研究者提供了细粒度的抑郁症状分析框架。文本字段包含原始对话和结构化JSON数据,支持自然语言处理与结构化数据分析的融合研究。预测得分与真实得分的双标注机制,特别适用于心理健康领域的预测模型验证研究,56条测试样本虽少但经过精心筛选,具有较高的临床参考价值。
使用方法
研究者可加载标准化的训练-验证-测试分割,利用text字段进行自然语言特征提取,结合phq8系列字段构建心理健康预测模型。truth_predict_score字段支持模型性能的端到端评估,而JSON格式的原始数据允许深度解析对话结构。建议采用交叉验证缓解测试集样本量限制,注意PHQ-8量表的临床阈值特性,在二分类或多分类任务中合理定义label字段的划分标准。
背景与挑战
背景概述
synthetic-conversations-new数据集是心理健康领域的一项重要资源,专注于通过合成对话数据来评估抑郁症症状。该数据集由专业研究团队构建,其核心研究问题围绕如何利用自然语言处理技术识别和量化抑郁症的临床表现。数据集中的PHQ-8评分系统为研究者提供了标准化的抑郁症状评估框架,这在心理健康研究和临床应用中具有重要价值。该数据集的建立为开发更精准的心理健康评估工具奠定了基础,推动了人工智能在精神健康领域的应用发展。
当前挑战
该数据集面临的主要挑战体现在两个方面:在领域问题层面,如何准确捕捉对话中隐含的情绪状态和抑郁症状是一大难题,自然语言的复杂性和多样性使得症状识别具有高度挑战性;在构建过程中,确保合成对话数据的真实性和代表性需要克服诸多困难,包括保持语言的自然流畅性,同时准确反映不同严重程度的抑郁特征。此外,PHQ-8评分系统与对话内容的精确对应关系也需要细致的标注和验证工作。
常用场景
经典使用场景
在心理健康研究领域,synthetic-conversations-new数据集为研究人员提供了一个独特的资源,用于分析和模拟抑郁症患者的对话模式。该数据集通过包含PHQ-8评分系统的多项指标,如兴趣减退、情绪低落、睡眠问题等,使得研究者能够深入探讨抑郁症患者在自然语言表达中的特征。这种模拟对话的数据集特别适用于训练和评估心理健康相关的自然语言处理模型。
衍生相关工作
基于synthetic-conversations-new数据集,许多经典研究工作得以展开。例如,一些研究利用该数据集开发了抑郁症自动筛查系统,通过分析对话文本中的语言特征来预测PHQ-8评分。此外,该数据集还被用于改进情感分析模型,使其能够更准确地识别抑郁症患者的情绪状态。
数据集最近研究
最新研究方向
在心理健康评估领域,synthetic-conversations-new数据集因其包含丰富的对话文本及PHQ-8抑郁量表评分数据,正成为研究者探索人工智能辅助心理诊断的重要资源。该数据集的最新研究聚焦于自然语言处理模型在抑郁症状自动识别中的性能优化,特别是基于对话文本的多维度特征提取与情绪状态预测。近期突破性工作尝试将transformer架构与PHQ-8量表的八个临床维度相结合,通过端到端学习实现从非结构化对话到结构化评分的映射。这类研究不仅推动了临床心理学与人工智能的交叉创新,更为开发实时心理健康监测系统提供了数据基础,在远程医疗和预防性心理干预场景中展现出重要应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作