Pushshift Reddit
收藏arXiv2025-09-30 收录
下载链接:
https://zenodo.org/record/3608135
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从选定的一些提供正式问答讨论形式的Reddit子版块中精心筛选出来的,用于收集批评意见。它包含了多种筛选机制,以确保批评意见的质量和相关性。规模上,我们选择了16个最适合的Reddit子版块。该数据集的任务是生成批评意见以及回应的细化。
This dataset is carefully curated from selected Reddit subreddits that host formal question-and-answer (Q&A) discussion formats, with the goal of collecting critical opinions. It integrates multiple filtering mechanisms to ensure the quality and relevance of the collected critical opinions. In terms of scale, we selected 16 optimal Reddit subreddits that are most suitable for this task. The task of this dataset is to generate critical opinions and refine their corresponding responses.
提供机构:
Pushshift Reddit
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是Pushshift Reddit数据集的一个小样本,包含2019年4月的所有Reddit提交和评论,以newline delimited json格式存储,总大小为21.1 GB。它由多个研究机构合作创建,适用于社交媒体分析和自然语言处理研究,采用开放许可证便于学术使用。
以上内容由遇见数据集搜集并总结生成



