Holistix
收藏arXiv2025-07-17 更新2025-07-16 收录
下载链接:
https://github.com/HebaShakeel/holistix
下载链接
链接失效反馈官方服务:
资源简介:
Holistix数据集是一个用于社交媒体用户帖子中全面健康维度分类的数据集,涵盖六个关键方面:身体、情感、社交、智力、精神和职业。该数据集旨在捕捉用户生成内容中的这些维度,并在领域专家的指导下开发了一个全面的注释框架。该框架还包括对这些帖子中的文本跨度进行标记,以提供突出相应健康方面的解释。我们使用10折交叉验证,通过精确度、召回率和F1分数来评估传统机器学习模型和先进的基于transformer的模型在这项多类分类任务上的性能。事后解释应用于确保模型决策的透明度和可解释性。该数据集为社交媒体的地区性健康评估做出了贡献,并为心理健康中的个性化福祉评估和早期干预策略铺平了道路。
The Holistix Dataset is a resource dedicated to comprehensive health dimension classification of social media user posts, covering six key dimensions: physical, emotional, social, intellectual, spiritual, and occupational. This dataset aims to capture these dimensions in user-generated content (UGC), and a comprehensive annotation framework was developed under the guidance of domain experts. The framework also includes annotation of text spans within these posts to provide explanations that highlight the corresponding health dimensions. We employed 10-fold cross-validation to evaluate the performance of both traditional machine learning models and state-of-the-art Transformer-based models on this multi-class classification task, using precision, recall, and F1-score as evaluation metrics. Post-hoc explanations were applied to ensure the transparency and interpretability of model decision-making. This dataset contributes to regional health assessment via social media, and paves the way for personalized well-being assessment and early intervention strategies in mental health.
提供机构:
Jamia Millia Islamia, New Delhi, India; The Chinese University of Hong Kong, Hong Kong SAR, China
创建时间:
2025-07-13
原始信息汇总
Holistix数据集概述
数据集简介
- 名称:Holistix
- 用途:用于心理健康叙述中整体健康维度的分析
标签体系
数据集包含6个健康维度标签:
- 0: 智力方面 (Intellectual Aspect)
- 1: 职业方面 (Vocational Aspect)
- 2: 精神方面 (Spiritual Aspect)
- 3: 身体方面 (Physical Aspect)
- 4: 社交方面 (Social Aspect)
- 5: 情感方面 (Emotional Aspect)
相关论文
- 论文链接:https://conferences.computer.org/icdepub25/pdfs/ICDEW2025-3tNLHMDHT3VyRqOOnDJPDI/995900a211/995900a211.pdf
搜集汇总
数据集介绍

构建方式
Holistix数据集的构建依托于澳大利亚Beyond Blue心理健康论坛的用户生成内容,采用系统化的数据采集与标注流程。研究团队使用BeautifulSoup库从论坛的七大讨论类别中爬取2000条原始帖子,经过严格的去重、去噪和内容筛选后,最终保留1420条聚焦心理困扰的高质量文本。标注框架基于Halbert L. Dunn的六维健康理论,由临床心理学家与NLP专家联合制定标注规范,通过双人独立标注和Fleiss Kappa系数(κ=75.92%)验证确保了标注一致性。数据集特别设计了文本片段标注机制,要求标注者显式标记反映健康维度的关键短语,为模型可解释性研究提供支持。
使用方法
研究者可通过GitHub公开获取数据集后,采用两种典型应用范式:传统机器学习方法需先将TF-IDF向量化的文本特征输入SVM或逻辑回归模型;深度学习方法则推荐微调MentalBERT等专业心理健康预训练模型,其在该任务中展现最优性能(整体F1=0.74)。实验设计应采用10折交叉验证,重点关注情感维度(EA)这一难点类别的表现。使用LIME等可解释性工具时,可结合标注的文本跨度验证模型决策合理性,通过ROUGE等指标量化解释一致性。对于多维度重叠的复杂样本,建议参考标注指南中的困惑度处理规则进行后处理。
背景与挑战
背景概述
Holistix数据集由Heba Shakeel、Tanvir Ahmad和Chandni Saxena等人于2025年提出,旨在通过社交媒体用户帖子分析心理健康的多维度健康状况。该数据集覆盖了六个关键维度:身体、情感、社交、智力、精神和职业,基于Halbert L. Dunn的健康理论构建。数据来源于澳大利亚心理健康论坛Beyond Blue,包含1420个实例,共计37082个单词,并由领域专家进行标注。Holistix的推出填补了心理健康研究中高粒度标注数据集的空白,为个性化健康评估和早期干预策略提供了重要支持。
当前挑战
Holistix数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,心理健康表达的多样性和主观性使得情感和精神维度的分类尤为困难,例如同一文本可能被不同标注者归类到不同维度。在构建过程中,数据预处理和标注的复杂性带来了显著挑战,包括处理文本中的隐喻和讽刺,以及确保标注的一致性和准确性。此外,数据集的地区特异性限制了其跨文化应用的普适性,需要进一步扩展以适应更广泛的研究需求。
常用场景
经典使用场景
Holistix数据集在心理健康研究领域具有广泛的应用价值,尤其在社交媒体用户生成内容的分析中表现突出。该数据集通过标注用户帖子中的六个关键健康维度(身体、情感、社交、智力、精神和职业),为研究人员提供了一个多维度分析心理健康状态的工具。其经典使用场景包括利用机器学习模型对社交媒体帖子进行分类,以识别用户的心理健康状态,从而为早期干预提供数据支持。
解决学术问题
Holistix数据集解决了心理健康研究中数据稀缺和标注不精细的问题。传统的心理健康数据集往往缺乏对多维健康状态的细粒度标注,而Holistix通过引入六个健康维度的标注框架,填补了这一空白。这不仅为心理健康研究提供了更丰富的数据资源,还为开发更精准的分类模型奠定了基础。此外,数据集的公开性促进了学术界的合作与进步。
实际应用
在实际应用中,Holistix数据集被用于开发心理健康监测工具,帮助识别社交媒体用户的心理健康风险。例如,心理健康机构可以利用该数据集训练的模型,自动分析用户帖子中的情感和社交维度,从而及时发现潜在的心理健康问题并提供干预建议。这种应用不仅提高了心理健康服务的效率,还为用户提供了更个性化的支持。
数据集最近研究
最新研究方向
近年来,Holistix数据集在心理健康领域的应用研究呈现出多维度、跨学科的特点。该数据集通过捕捉社交媒体用户生成内容中的六大健康维度(身体、情感、社交、智力、精神和职业),为心理健康评估提供了全新的视角。前沿研究主要集中在以下几个方面:基于Transformer的模型在心理健康文本分类中的性能优化,特别是在处理情感和精神维度等主观性较强的内容时,模型的可解释性和鲁棒性成为研究热点。此外,该数据集还促进了跨文化心理健康研究的开展,通过对比不同地区社交媒体数据,揭示文化差异对心理健康表达的影响。在应用层面,Holistix数据集为早期心理健康问题识别和个性化干预策略的开发提供了数据支持,推动了人工智能在心理健康领域的实际应用。
相关研究论文
- 1Holistix: A Dataset for Holistic Wellness Dimensions Analysis in Mental Health NarrativesJamia Millia Islamia, New Delhi, India; The Chinese University of Hong Kong Hong Kong SAR, China · 2025年
以上内容由遇见数据集搜集并总结生成



