OKReddit-ReleaseCandidate4

Hugging Face2025-06-23 更新2025-06-24 收录

下载链接：

https://huggingface.co/datasets/recursal/OKReddit-ReleaseCandidate4

下载链接

链接失效反馈

官方服务：

资源简介：

OKReddit是一个包含从2005年到2023年Reddit帖子评论的过滤集合，大小为6.5TiB，大约有6亿行数据。这个数据集主要用于研究或存档目的，主要语言为英语，但也包含其他小语种。数据集包括经过筛选的subreddit列表，由KaraKaraWitch策划，Recursal.ai资助，并已获得许可。数据集支持多种自然语言处理任务，如文本分类、语言建模、情感分析和主题建模。数据结构以每个subreddit中的提交线程为单位，包含线程ID、subreddit名称、对话内容和提交信息等。数据集的创建过程中，通过多种方式筛选和优化数据，以确保数据质量。最后，README文件还提供了关于数据集使用、社会影响、偏见讨论、许可信息、引用信息等详细信息。

创建时间：

2025-06-16

原始信息汇总

OKReddit数据集概述

基本信息

数据集名称: OKReddit (Release Candidate 4)
数据量: 6.5 TiB（约6亿行Reddit提交数据）
时间范围: 2005年至2023年
主要语言: 英语（含少量其他语言）
许可证: 数据部分遵循原始版权，脚本文件夹为Apache 2.0
标签: not-for-all-audiences（含NSFW内容）

数据来源

原始数据: Academic Torrents（由stuck_in_the_matrix、Watchful1、RaiderBDev及pushshift团队提供）
过滤版本: 包含约62,000个高质量子版块

数据结构

数据实例

字段:
- thread_id: 帖子ID（含t3_前缀）
- subreddit: 子版块名称（不区分大小写）
- namedconversation: OpenAI兼容格式对话
  - from: 作者用户名
  - content: Reddit Markdown内容
- submission: 原始提交数据（含标题、分数、创建时间等）
- comments: 原始评论数据（含嵌套结构）

标记系统

提交标记: 如M表示NSFW内容，A表示已归档等（共20种布尔标记）
评论标记: 如A表示已归档，E表示已编辑等（共11种布尔标记）

筛选标准

子版块质量

参与度: 评论数/提交数比率
丰富度: 媒体提交比例的平方
多样性: (评论作者数+提交作者数)/提交作者数
基础阈值:
- 提交作者数≥70
- 评论作者数≥20
- 提交数≥450
- 评论数≥585

帖子价值

有效线程定义:
- ≥5条回复，或
- 文本帖子且字符数>2,500

评论过滤

分数<-4的评论被移除
50评论的线程中，嵌套超过6层的评论被移除
累计分数<0的线程分支被移除

应用场景

支持任务:
- 文本分类（按情感/主题/子版块）
- 语言建模
- 情感分析
- 主题建模

引用格式

TeX @dataset{OKReddit, title = {OKReddit}, year = {2024}, publisher = {KaraKaraWitch}, url = {https://huggingface.co/datasets/recursal/OKReddit-ReleaseCandidate3} }

搜集汇总

数据集介绍

构建方式

OKReddit-ReleaseCandidate4数据集构建过程体现了对网络社交平台数据的系统性采集与精细化处理。该数据集源自2005至2023年间Reddit平台的6.5TiB原始数据，通过多维度质量评估体系进行筛选：首先基于子论坛活跃度（评论/发帖比）、内容丰富度（多媒体内容平方比）和用户多样性（独特作者比）三项核心指标建立量化模型，设定作者数量、发帖量等硬性阈值剔除低质社区；继而采用动态随机阈值机制保留含5条以上回复或2500字符以上的高质量讨论串，并运用层级过滤算法去除低分评论与深层嵌套内容，最终形成包含约6.2万优质子论坛的语料库。

使用方法

研究者可通过HuggingFace平台获取分块存储的JSONL格式数据，建议使用配套提供的RedditScoring.py和RedditThreader.py脚本进行二次过滤。该数据集特别适用于对话系统训练、社区行为分析等场景：文本生成任务可直接利用namedconversation字段的线性化对话；情感分析可结合score字段与flags标记；话题建模需整合subreddit分类与文本内容。使用需注意原始数据的版权声明，建议配合提供的flag映射表解析布尔属性，对于大规模实验需预留3倍存储空间进行数据预处理。

背景与挑战

背景概述

OKReddit-ReleaseCandidate4数据集是由KaraKaraWitch团队精心策划并发布于2024年的大规模社交媒体语料库，其数据源自2005至2023年间Reddit平台6.5TiB的帖文与评论。作为Recursal.ai资助的开源项目，该数据集通过多维度质量筛选机制，从62,000个活跃子论坛中提炼出具有研究价值的对话数据，其核心价值在于为自然语言处理领域提供了涵盖文本生成、情感分析等任务的丰富语料。数据集独特的线性化对话结构设计，显著提升了其在语言模型训练领域的适用性，尤其为研究网络社区语言演变规律及对话系统优化提供了重要基础。

当前挑战

构建过程中面临多重技术挑战：首先，原始数据包含大量低质量内容与嵌套评论，需设计复合指标（如参与度、内容丰度、作者多样性）进行子论坛筛选，并采用随机阈值机制过滤无效线程；其次，对话线性化处理需解决深层嵌套评论的结构解析难题，特别需处理缺失父节点的断裂对话链。在应用层面，数据集包含未过滤的NSFW内容与潜在偏见，对毒性内容检测模型提出更高要求，同时海量数据规模对存储与计算资源构成显著压力，处理全量数据需3倍于原始大小的临时存储空间。

常用场景

经典使用场景

在自然语言处理领域，OKReddit数据集因其庞大的规模和丰富的对话结构，成为训练语言模型的理想选择。该数据集包含从2005年至2023年的Reddit提交和评论，覆盖了多样化的主题和语言风格，使其在文本生成、情感分析和主题建模等任务中表现出色。研究人员可以利用其深度嵌套的评论线程，构建连贯的对话系统，模拟真实的人类交流模式。

解决学术问题

OKReddit数据集有效解决了大规模对话数据稀缺的学术难题，为语言模型训练提供了高质量的语料库。其精心筛选的子版块和评论内容，确保了数据的多样性和代表性，有助于研究社区偏见、毒性内容检测等社会语言学问题。此外，数据集的时间跨度长达18年，为研究网络语言演变提供了独特的历史视角。

实际应用

该数据集在实际应用中展现出广泛潜力，企业可基于其训练客服聊天机器人，使其掌握更自然的对话技巧。内容审核系统可通过学习数据集中的标记内容，提升对不当言论的识别准确率。教育机构则能利用其丰富的语料，开发语言学习工具，帮助学生理解网络语境下的英语表达。

数据集最近研究