five

NUS-IDS/patient_info

收藏
Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NUS-IDS/patient_info
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: anxiety path: data/anxiety-* - split: depression path: data/depression-* - split: ptsd path: data/ptsd-* - split: bipolar path: data/bipolar-* dataset_info: features: - name: url dtype: string - name: comments list: - name: author_from sequence: string - name: author_to sequence: string - name: comments list: - name: author_from sequence: string - name: author_to sequence: string - name: content sequence: string - name: date sequence: string - name: content sequence: string - name: date sequence: string - name: url dtype: string - name: title dtype: string - name: date dtype: string - name: content dtype: string - name: author dtype: string splits: - name: anxiety num_bytes: 143006120 num_examples: 27393 - name: depression num_bytes: 49953142 num_examples: 6982 - name: ptsd num_bytes: 1626957 num_examples: 349 - name: bipolar num_bytes: 3087512 num_examples: 474 download_size: 97056610 dataset_size: 197673731 --- # Dataset Card for "patient_info" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项: - 配置名称:default 数据文件: - 拆分子集:焦虑障碍(anxiety),路径:data/anxiety-* - 拆分子集:抑郁症(depression),路径:data/depression-* - 拆分子集:创伤后应激障碍(PTSD),路径:data/ptsd-* - 拆分子集:双相情感障碍(bipolar),路径:data/bipolar-* 数据集信息: 特征字段: - 字段名:url,数据类型:字符串 - 字段名:comments,列表型字段: - 字段名:author_from,类型:字符串序列 - 字段名:author_to,类型:字符串序列 - 字段名:comments,列表型字段: - 字段名:author_from,类型:字符串序列 - 字段名:author_to,类型:字符串序列 - 字段名:content,类型:字符串序列 - 字段名:date,类型:字符串序列 - 字段名:content,类型:字符串序列 - 字段名:date,类型:字符串序列 - 字段名:url,数据类型:字符串 - 字段名:title,数据类型:字符串 - 字段名:date,数据类型:字符串 - 字段名:content,数据类型:字符串 - 字段名:author,数据类型:字符串 拆分子集信息: - 拆分名称:焦虑障碍(anxiety),数据字节数:143006120,样本数量:27393 - 拆分名称:抑郁症(depression),数据字节数:49953142,样本数量:6982 - 拆分名称:创伤后应激障碍(PTSD),数据字节数:1626957,样本数量:349 - 拆分名称:双相情感障碍(bipolar),数据字节数:3087512,样本数量:474 下载总大小:97056610 字节 数据集总大小:197673731 字节 --- # “患者信息”数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
NUS-IDS
原始信息汇总

数据集概述

配置

  • 默认配置
    • 数据文件路径:
      • anxietydata/anxiety-*
      • depressiondata/depression-*
      • ptsddata/ptsd-*
      • bipolardata/bipolar-*

数据集信息

  • 特征
    • url:字符串类型
    • comments:列表类型,包含以下子特征:
      • author_from:字符串序列
      • author_to:字符串序列
      • comments:列表类型,包含以下子特征:
        • author_from:字符串序列
        • author_to:字符串序列
        • content:字符串序列
        • date:字符串序列
      • content:字符串序列
      • date:字符串序列
      • url:字符串类型
    • title:字符串类型
    • date:字符串类型
    • content:字符串类型
    • author:字符串类型

数据分割

  • 分割信息
    • anxiety
      • 字节数:143006120
      • 样本数:27393
    • depression
      • 字节数:49953142
      • 样本数:6982
    • ptsd
      • 字节数:1626957
      • 样本数:349
    • bipolar
      • 字节数:3087512
      • 样本数:474

数据集大小

  • 下载大小:97056610 字节
  • 数据集大小:197673731 字节
搜集汇总
数据集介绍
main_image_url
构建方式
在心理健康研究领域,数据集的构建需兼顾伦理规范与信息完整性。NUS-IDS/patient_info数据集通过系统化采集网络公开论坛中与焦虑、抑郁、创伤后应激障碍及双相情感障碍相关的讨论内容而形成。其构建过程遵循结构化数据提取原则,将原始文本按疾病类别划分为独立子集,并保留发帖标题、作者、日期、正文及嵌套评论等元数据,确保了数据来源的可追溯性与上下文关联性。
特点
该数据集呈现出多维度特征,其核心在于覆盖四种常见心理障碍的专项文本语料,各子集规模差异反映了不同病症在网络讨论中的活跃程度。数据结构上,采用层次化设计,不仅包含主贴内容,还完整收录了用户间的互动评论链,形成了具有对话性质的文本网络。这种嵌套式评论结构为研究社会支持动态、情感传播模式及病症表述特征提供了丰富的语义场景。
使用方法
研究人员可借助该数据集开展心理健康领域的自然语言处理任务,例如情感分析、症状识别或社会支持网络建模。使用时应首先通过HuggingFace平台加载对应疾病子集,利用其预定义的数据特征字段进行解析。典型流程包括提取content字段进行文本分析,结合author与date字段构建时序模型,或利用comments字段的嵌套结构探究交互模式。需注意遵循数据使用伦理,对涉及个人隐私的文本内容进行匿名化处理。
背景与挑战
背景概述
在数字健康与计算精神病学领域,社交媒体文本分析为理解心理健康状况提供了新的数据视角。NUS-IDS/patient_info数据集由新加坡国立大学智能系统研究所(NUS-IDS)构建,其核心研究问题聚焦于从在线论坛中提取与焦虑、抑郁、创伤后应激障碍和双相情感障碍等常见心理疾病相关的患者自述信息。该数据集通过结构化记录用户发帖、评论及互动内容,旨在支持自然语言处理模型在心理健康检测、情感分析及病程追踪方面的应用,为临床辅助决策和公共卫生研究提供了重要的数据资源。
当前挑战
该数据集致力于解决心理健康领域文本分类与情感识别的挑战,特别是从非结构化、口语化的在线交流中准确识别心理疾病相关表述。构建过程中的挑战包括:确保用户隐私与数据匿名化处理,以符合伦理规范;从嘈杂的论坛文本中清洗和标注高质量的心理健康相关语料;以及处理数据不平衡问题,例如不同疾病类别的样本量差异显著,如焦虑类样本达27393例,而创伤后应激障碍仅349例,这可能导致模型训练偏差。
常用场景
经典使用场景
在心理健康研究领域,NUS-IDS/patient_info数据集以其丰富的在线论坛文本资源,为情感计算和自然语言处理提供了关键支持。该数据集通过收集焦虑、抑郁、创伤后应激障碍和双相情感障碍等主题的讨论内容,使研究者能够深入分析患者自述的语言模式。这些文本不仅反映了症状表达的特征,还揭示了情感状态与语言使用之间的复杂关联,为构建心理健康评估模型奠定了数据基础。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于深度学习的心理状态分类模型、情感轨迹可视化分析框架以及跨障碍语言比较研究。这些工作不仅提升了心理健康文本分析的准确性,还推动了多模态数据融合和个性化干预策略的探索。相关成果在计算语言学与医学信息学交叉领域形成了持续的研究脉络,为后续的算法优化和应用扩展提供了重要借鉴。
数据集最近研究
最新研究方向
在精神健康计算领域,NUS-IDS/patient_info数据集以其涵盖焦虑、抑郁、创伤后应激障碍和双相情感障碍等多类病症的在线患者交流文本,为自然语言处理与临床心理学的交叉研究提供了宝贵资源。当前前沿研究聚焦于利用深度学习模型从非结构化患者自述中自动识别症状模式与情感演变轨迹,结合时序分析探索疾病发展的动态特征。随着全球精神健康危机日益受到关注,该数据集支持了早期风险预警系统的开发,并在数字表型分析、个性化干预策略设计等热点方向上展现出潜力,其应用有助于推动精准心理健康服务的实现,为公共卫生决策提供数据驱动的见解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作