OKReddit-alpha
收藏OKReddit α (Alpha) 数据集概述
数据集摘要
OKReddit 是一个从2005年到2023年收集的 Reddit 提交和评论的过滤集合,总容量为 5TiB。该数据集旨在用于研究和存档目的。
数据集来源
- 源数据: Academic Torrents 由 (stuck_in_the_matrix, Watchful1, RaiderBDev & pushshift folks.) 提供。
支持的任务和排行榜
该数据集可用于多种自然语言处理(NLP)任务,包括:
- 文本分类:根据情感、主题或子版块对评论和帖子进行分类。
- 语言建模:训练语言模型以理解和生成对话文本。
- 情感分析:分析不同子版块和主题的评论和帖子的情感。
- 主题建模:识别和建模帖子中讨论的主题。
语言
数据集的主要语言是英语,因为大多数 Reddit 用户是英语教育背景。然而,其他语言的帖子也可能以较小的数量存在。
数据集结构
数据实例
每个数据实例代表一个子版块内的提交线程。
thread_id: 提交线程的ID,包括 Reddit 用于标记线程的t3_。subreddit: 子版块的名称,不区分大小写。namedconversation: 一个 OpenAI "兼容" 的对话:from: 发布内容的作者用户名。content: 发布的 Reddit 标记内容。
- 第一个
namedconversation值是提交内容,其余是回复。 - 如果提交被标记为 NSFW / 成熟内容,标题前会附加
[R-18]。 submission/comments: 分别是原始提交和评论。
数据样本
数据样本展示了一个完整的 Reddit 提交线程,包括提交和评论的详细结构。
数据集创建
筛选理由
Reddit 的独特设计和评论方式(深度嵌套的评论链)使其成为一个丰富的数据源。通过将评论链扁平化为一个长对话,可以在不显得奇怪或不合适的情况下进行处理。
源数据
该数据集是从 Reddit 的早期到2023年底的提交和评论的过滤集合。
使用数据的考虑
数据集的社会影响
通过发布此数据集,我们旨在将其作为开发资源提供给社区。
数据集的偏见讨论
我们决定不审查 NSFW 或有毒内容,以允许更好的有毒分析和多样化的数据集。
附加信息
许可信息
由于此数据集是从 Reddit 的公开爬取中派生的,原始内容可能受版权和其他许可条款的约束。该数据集仅用于研究和存档目的。
引用信息
如果在研究或项目中使用此数据集,请按如下方式引用:
TeX @dataset{OKReddit, title = {OKReddit}, year = {2024}, publisher = {KaraKaraWitch}, url = {https://huggingface.co/datasets/KaraKaraWitch/OKReddit} }
此外,请引用以下源 bibtex:
TeX @article{, title= {Reddit comments/submissions 2005-06 to 2023-12}, journal= {}, author= {stuck_in_the_matrix, Watchful1, RaiderBDev}, year= {}, url= {}, abstract= {Reddit comments and submissions from 2005-06 to 2023-09 collected by pushshift and u/RaiderBDev.
These are zstandard compressed ndjson files. Example python scripts for parsing the data can be found here https://github.com/Watchful1/PushshiftDumps
The more recent dumps are collected by u/RaiderBDev and questions can be submitted here https://github.com/ArthurHeitmann/arctic_shift}, keywords= {reddit}, terms= {}, license= {}, superseded= {} }




