headroom.csv

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/MichiganNLP/depression_synthetic_data

下载链接

链接失效反馈

官方服务：

资源简介：

包含COVID-19前后样本的最终数据集，记录了不同性别和种族在不同时间段的抑郁情况。

The final dataset includes samples from before and after COVID-19, documenting the depression status across different genders and ethnicities over various time periods.

创建时间：

2023-03-10

原始信息汇总

数据集概述

数据集名称

HeadRoom

数据集内容

描述：该数据集包含3120条关于抑郁症触发压力源的合成数据，通过控制种族、性别和时间框架（COVID-19前后）生成。
文件：headroom.csv
- 结构：
  - prompt：提示文本
  - before COVID-19：COVID-19前的样本数量
  - after COVID-19 (2020 and 2021)：COVID-19后的样本数量（2020年和2021年）
  - gender：性别
  - race：种族

数据集特点

合成数据生成：使用GPT-3生成，专注于分析不同种族和性别组合的压力源。
时间框架：区分COVID-19前后的数据。

数据集用途

研究目的：用于分析和理解GPT-3如何模拟真实生活中的抑郁症数据，以及不同种族和性别在合成数据中的表现。

数据集相关工具和分析

compare_topics.ipynb：比较人类生成数据与合成数据主题相似性的笔记本。
generate_data.py：生成数据的脚本。
lexical_analysis.py：进行词汇分析的代码，遵循Carlos的方法。
analysis/delta：包含每对人口统计数据的log odds比率分数。
comparison：人口统计之间delta分数的可读比较。

数据集引用

bibtex @inproceedings{mori-etal-2024-towards-algorithmic, title = "Towards Algorithmic Fidelity: Mental Health Representation across Demographics in Synthetic vs. Human-generated Data", author = "Mori, Shinka and Ignat, Oana and Lee, Andrew and Mihalcea, Rada", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", address = "Torino, Italy", publisher = "ELRA and ICCL", pages = "16378--16391" }

搜集汇总

数据集介绍

构建方式

在构建headroom.csv数据集时，研究团队采用了GPT-3作为合成数据生成工具，旨在模拟人类生成的抑郁数据。该数据集包含了COVID-19前后的样本，通过控制种族、性别和时间框架（2020年和2021年）来生成。具体而言，研究团队设计了多个提示（prompts），如要求GPT-3模拟不同种族和性别的个体在抑郁状态下撰写博客、与治疗师对话等，从而生成多样化的抑郁相关文本。这些文本随后被整理成数据集，以供后续的语义和词汇分析。

特点

headroom.csv数据集的主要特点在于其多样性和时间敏感性。数据集不仅涵盖了不同种族和性别的样本，还区分了COVID-19前后的情境，使得研究者能够分析疫情对抑郁情绪的影响。此外，该数据集通过GPT-3生成，具有较高的合成数据质量，能够模拟真实的人类生成文本，为研究算法在心理健康领域的应用提供了宝贵的资源。

使用方法

headroom.csv数据集可用于多种研究目的，特别是在心理健康和自然语言处理领域。研究者可以通过该数据集进行语义和词汇分析，比较合成数据与人类生成数据的相似性，从而评估GPT-3在模拟抑郁数据方面的表现。此外，数据集还可用于训练和测试机器学习模型，以识别和分类抑郁相关的文本。使用时，研究者可以参考提供的Jupyter笔记本（compare_topics.ipynb）和Python脚本（generate_data.py、lexical_analysis.py），以便进行数据生成和分析。

背景与挑战

背景概述

在人工智能与自然语言处理领域，合成数据生成技术日益受到关注，特别是在心理健康数据稀缺的背景下。headroom.csv数据集由Shinka Mori、Oana Ignat、Andrew Lee和Rada Mihalcea等研究人员于2024年创建，旨在探索GPT-3作为合成数据生成工具在心理健康领域的应用。该数据集包含3120条关于抑郁症触发因素的帖子，涵盖了COVID-19前后的时间段，并根据种族和性别进行了细分。通过对比合成数据与人类生成数据，研究团队希望揭示GPT-3在模拟真实心理健康数据分布方面的能力，从而为未来使用大型语言模型生成敏感数据提供参考。

当前挑战

headroom.csv数据集面临的挑战主要集中在合成数据与真实数据之间的差异性分析。首先，如何确保合成数据在不同种族和性别群体中的代表性，避免偏见和歧视，是一个重要问题。其次，数据生成过程中，GPT-3模型的参数设置和查询设计直接影响数据质量，需要精细调整以提高合成数据的准确性和可靠性。此外，数据集的构建还涉及对心理健康话题的敏感性处理，确保生成的内容既符合科学研究的要求，又不侵犯个人隐私或引发伦理争议。

常用场景

经典使用场景

在心理健康研究领域，headroom.csv数据集的经典使用场景主要集中在对比分析合成数据与人类生成数据在不同人口统计学特征下的心理健康表现。通过该数据集，研究者能够深入探讨GPT-3生成的合成数据在模拟真实世界抑郁症数据分布方面的准确性。具体而言，数据集中的样本包括了COVID-19前后的心理健康状态变化，以及性别和种族的多样性，这为研究提供了丰富的分析维度。

实际应用

在实际应用中，headroom.csv数据集可用于开发和验证心理健康相关的算法和模型。例如，心理健康专业人员可以利用该数据集训练和测试抑郁症预测模型，以提高诊断的准确性和效率。此外，该数据集还可用于教育和培训，帮助心理健康工作者更好地理解和处理不同人口统计学特征下的心理健康问题。通过这些应用，数据集为心理健康领域的实践提供了有力的支持。

衍生相关工作

headroom.csv数据集的发布激发了大量相关研究工作，特别是在合成数据生成和心理健康领域的交叉研究。例如，有研究者利用该数据集进行语义和词汇分析，以揭示不同人口统计学特征下的主要压力源。此外，还有研究探讨了如何优化大型语言模型以生成更准确的心理健康数据。这些衍生工作不仅深化了对合成数据的理解，也为心理健康领域的数据生成技术提供了新的发展方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集