five

SDCNL

收藏
Opencsg2024-04-23 更新2024-06-22 收录
下载链接:
https://www.opencsg.com/datasets/OpenDataLab/SDCNL
下载链接
链接失效反馈
官方服务:
资源简介:
我们根据我们的自杀或抑郁分类任务开发了一个主要数据集。该数据集是从 Reddit 网络抓取的。我们使用 Python Reddit API 从 subreddits 收集数据。我们专门从两个子版块 r/SuicideWatch3 和 r/Depression 中抓取。该数据集总共包含 1,895 个帖子。我们利用抓取数据中的两个字段:帖子的原始文本作为我们的输入,它所属的 subreddit 作为标签。来自 r/SuicideWatch 的帖子被标记为自杀,来自 r/Depression 的帖子被标记为抑郁。我们在我们的代码中提供了这个数据集和网络抓取脚本。

We developed a primary dataset for our suicide or depression classification task. This dataset was crawled from Reddit. We collected data from subreddits via the Python Reddit API, specifically targeting two subreddits: r/SuicideWatch3 and r/Depression. The dataset contains a total of 1,895 posts. We utilized two fields from the crawled data: the original post text as our model input, and the associated subreddit as the classification label. Posts from r/SuicideWatch were labeled as suicide, while posts from r/Depression were labeled as depression. Both this dataset and the web crawling script are included in our provided codebase.
创建时间:
2024-04-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SDCNL是一个从Reddit的r/SuicideWatch和r/Depression子版块抓取的数据集,包含1,895个帖子,用于自杀或抑郁的文本分类任务。数据集提供原始文本和对应的subreddit标签,并附带网络抓取脚本和相关研究论文引用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作