Weibo User Depression Detection Dataset (WU3D)
收藏github2024-05-10 更新2024-05-31 收录
下载链接:
https://github.com/aidenwang9867/Weibo-User-Depession-Detection-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
微博用户抑郁症检测数据集(WU3D)包含通过微博官方提供的爬虫API收集的正常用户样本和抑郁用户样本。数据集以JSON文件形式存储,包括抑郁用户和正常用户的样本。数据集详细信息包括用户昵称、性别、个人简介、生日、标签(抑郁用户为1,正常用户为0)、粉丝数、关注数、所有推文数量、原创推文数量、转发推文数量、推文内容、发布时间等。
The Weibo User Depression Detection Dataset (WU3D) comprises normal user samples and depressed user samples collected using the official Weibo crawler API. The dataset is stored in JSON format, containing samples of both depressed and normal users. Its detailed attributes include user nickname, gender, personal profile, birthday, label (1 for depressed users, 0 for normal users), follower count, following count, total number of tweets, original tweet count, retweet count, tweet content, posting time, and other relevant information.
创建时间:
2020-07-15
原始信息汇总
微博用户抑郁症检测数据集
简介
- 微博用户抑郁症检测数据集 (WU3D) 包含正常用户样本和抑郁用户样本,通过微博官方提供的爬虫API收集。
- 数据集以JSON文件形式存储,
depressed.json包含抑郁用户数据,normal.json包含正常用户数据。可从 Google Drive 或 百度云盘(提取码yar1) 下载。 - 用户详细信息字段包括:
| 字段名 | 描述 | 示例 |
|---|---|---|
| nickname | 用户昵称,短文本。 | 小陈不要再抑郁了 |
| gender | 用户性别 | 男 |
| profile | 用户自我描述,自我介绍,短文本。 | 这世界那么多人又不缺我一个活着 |
| birthday | 用户生日,以“年-月-日”格式存储为字符串。如果用户未填写出生年份,则使用“月-日”格式。如果用户未填写信息,默认内容为“无”。 | 1991-07-25 |
| label | 用户标签,1表示抑郁用户,0表示正常用户。 | 1 |
| num_of_follower | 用户关注者数量。 | 3 |
| num_of_following | 用户关注数量。 | 12 |
| all_tweet_count | 用户所有推文总数。 | 137 |
| original_tweet_count | 用户原创推文总数。 | 128 |
| repost_tweet_count | 用户转发推文总数。 | 9 |
| tweets | 推文字段,用户推文列表。 | - |
| tweet_content | 推文文本内容。 | 抗抑郁的第72天 这次抑郁发作的起因是因为感情和友情的处理不当无法解决这些问题的我有些头疼好像世界都已经把我抛弃了... :( |
| posting_time | 推文发布时间。 | 2020-05-01 00:32 |
| posted_picture_url | 推文中发布的图片URL列表。如果未发送图片,默认值为“None”。 | ["http://wx2.sinaimg.cn/wap180/xxxx.jpg", "http://wx2.sinaimg.cn/wap180/yyyy.jpg"] |
| num_of_likes | 推文点赞数。 | 1 |
| num_of_forwards | 推文转发数。 | 0 |
| num_of_comments | 推文评论数。 | 3 |
| tweet_is_original | 标识推文是否为原创推文。 | True |
- 截至2020年5月30日,爬虫收集的候选样本及WU3D中样本的各项信息如下表所示。后续更新数据时,此表中的统计数据将更新。
| 数据集 | 类别 | 用户数 | 推文数 | 图片数 |
|---|---|---|---|---|
| Candidates | Depressed | 125479 | 5478806 | 2354701 |
| Normal | 65913 | 4927904 | 3631537 | |
| Total | 191392 | 10406710 | 5986238 | |
| WU3D | Depressed | 10325 | 408797 | 160481 |
| Normal | 22245 | 1783113 | 1087556 | |
| Total | 32570 | 2191910 | 1248037 |
解释和问题
- 为保护抑郁用户的隐私,WU3D中已删除用户ID。
- 已上传爬虫脚本和数据预处理脚本。研究人员可根据我们的脚本进一步收集用户样本。所有脚本和部署文档
README.md放置在文件夹WU3D_crawler_preprocessing中。 - 如果
encoding=utf-8不起作用,尝试使用encoding=utf-8-sig加载JSON文件。
贡献和致谢
- 所有抑郁用户样本由匿名数据标注专家手动标注,并由心理学家和精神病学家审核。我们对这些匿名个体的建议和帮助表示感谢。
- 李丞浩开发了微博数据爬虫,张怡霖进行了数据筛选和清洗。后续的数据标注和专家审核也在他们的监督和合作下完成。我们对他们的工作和贡献表示衷心的感谢。
- 该数据集的解释权属于李丞浩和张怡霖。如有任何关于数据集的问题,请联系:
- 李丞浩:thebeacon9@gmail.com (爬虫开发者 & 数据集所有者)
- 张怡霖:2726608449@qq.com (数据集所有者)
- 王一丁:yidingwang9867@gmail.com (Github项目维护者)
- 王臻懿:kun.wangzy@gmail.com (Github项目维护者)
搜集汇总
数据集介绍

构建方式
Weibo User Depression Detection Dataset (WU3D) 的构建基于微博官方提供的API,通过网络爬虫技术收集了正常用户和抑郁症用户的样本。数据集分为两个JSON文件:`depressed.json` 和 `normal.json`,分别存储抑郁症用户和正常用户的数据。每个用户样本包含多个信息字段,如昵称、性别、自我描述、生日、标签(1表示抑郁症用户,0表示正常用户)、粉丝数、关注数、总推文数、原创推文数、转发推文数、推文内容、发布时间、图片URL、点赞数、转发数、评论数以及推文是否为原创的标识。数据集的构建过程中,为了保护用户隐私,删除了用户ID,并提供了爬虫脚本和数据预处理脚本,供研究人员进一步收集和处理数据。
特点
WU3D 数据集的主要特点在于其样本的多样性和详细性。数据集包含了抑郁症用户和正常用户的详细信息,涵盖了用户的基本信息、社交互动数据以及推文内容等多个维度。此外,数据集还提供了图片URL,使得研究可以进一步分析视觉内容对用户心理状态的影响。数据集的标签由匿名的数据标注专家手动标注,并经过心理学家和精神病学家的审核,确保了标签的准确性和可靠性。
使用方法
使用 WU3D 数据集时,研究人员可以通过提供的链接从Google Drive或百度云盘下载数据集。数据集以JSON格式存储,包含抑郁症用户和正常用户的数据。研究人员可以使用Python等编程语言加载JSON文件,并根据需要解析和处理数据。数据集还提供了爬虫脚本和数据预处理脚本,研究人员可以根据这些脚本进一步收集和处理微博用户数据。在使用过程中,若遇到编码问题,建议尝试使用`utf-8-sig`编码加载JSON文件。
背景与挑战
背景概述
随着社交媒体的普及,微博作为中文世界中广泛使用的平台,其用户数据为心理健康研究提供了宝贵的资源。Weibo User Depression Detection Dataset (WU3D) 由李丞浩和张怡霖主导开发,旨在通过分析微博用户的公开信息,识别和检测抑郁症患者。该数据集于2020年5月30日首次发布,包含了经过匿名数据标注专家和心理学家审核的抑郁症用户和正常用户样本。WU3D不仅提供了用户的基本信息和微博内容,还包含了用户的社交互动数据,如点赞、转发和评论数量,为抑郁症的自动检测提供了丰富的数据支持。该数据集的发布,标志着社交媒体数据在心理健康领域应用的重要进展,为后续研究提供了坚实的基础。
当前挑战
尽管WU3D为抑郁症检测提供了丰富的数据资源,但其构建过程中仍面临诸多挑战。首先,隐私保护是一个核心问题,数据集中删除了用户ID以保护用户隐私,但这可能限制了某些深度分析的可能性。其次,数据标注的准确性依赖于匿名专家和心理学家的手动审核,这一过程耗时且成本高昂。此外,微博平台的动态变化可能导致数据集的时效性问题,需要定期更新以保持其有效性。最后,数据集的规模和多样性虽然较大,但如何确保样本的代表性和平衡性,以避免偏差,仍是未来研究中需要解决的重要问题。
常用场景
经典使用场景
在心理健康领域,Weibo User Depression Detection Dataset (WU3D) 数据集被广泛用于抑郁症的自动检测研究。通过分析微博用户的文本内容、社交行为和个人信息,研究人员可以构建机器学习模型,以识别潜在的抑郁症患者。这种基于社交媒体数据的抑郁症检测方法,不仅有助于早期干预,还能为心理健康服务提供数据支持。
解决学术问题
WU3D 数据集解决了在社交媒体上自动检测抑郁症的学术难题。传统的抑郁症诊断依赖于临床访谈和问卷调查,而WU3D通过大规模的社交媒体数据,提供了一种新的、非侵入性的检测手段。这不仅扩展了抑郁症研究的边界,还为心理健康领域的数据驱动研究提供了新的视角和方法。
衍生相关工作
基于 WU3D 数据集,研究人员已经开展了多项相关工作,包括开发更精确的抑郁症检测算法、探索社交媒体数据中的抑郁症特征、以及研究社交媒体使用与心理健康之间的关系。这些工作不仅丰富了抑郁症研究的理论基础,还为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



