OKReddit-alpha

Hugging Face2024-11-16 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/recursal/OKReddit-alpha

下载链接

链接失效反馈

官方服务：

资源简介：

OKReddit是一个从2005年到2023年的Reddit提交和评论的过滤集合，大小为5TiB。该数据集是为研究和存档目的而准备的。它包括一个经过筛选的子版块列表，主要语言是英语，但也有其他语言的小部分内容。数据集目前标记为alpha，表示正在进行改进和解决一些问题。

创建时间：

2024-11-13

原始信息汇总

OKReddit α (Alpha) 数据集概述

数据集摘要

OKReddit 是一个从2005年到2023年收集的 Reddit 提交和评论的过滤集合，总容量为 5TiB。该数据集旨在用于研究和存档目的。

数据集来源

源数据: Academic Torrents 由 (stuck_in_the_matrix, Watchful1, RaiderBDev & pushshift folks.) 提供。

支持的任务和排行榜

该数据集可用于多种自然语言处理（NLP）任务，包括：

文本分类：根据情感、主题或子版块对评论和帖子进行分类。
语言建模：训练语言模型以理解和生成对话文本。
情感分析：分析不同子版块和主题的评论和帖子的情感。
主题建模：识别和建模帖子中讨论的主题。

语言

数据集的主要语言是英语，因为大多数 Reddit 用户是英语教育背景。然而，其他语言的帖子也可能以较小的数量存在。

数据集结构

数据实例

每个数据实例代表一个子版块内的提交线程。

thread_id: 提交线程的ID，包括 Reddit 用于标记线程的 t3_。
subreddit: 子版块的名称，不区分大小写。
namedconversation: 一个 OpenAI "兼容" 的对话：
- from: 发布内容的作者用户名。
- content: 发布的 Reddit 标记内容。
第一个 namedconversation 值是提交内容，其余是回复。
如果提交被标记为 NSFW / 成熟内容，标题前会附加 [R-18]。
submission / comments: 分别是原始提交和评论。

数据样本

数据样本展示了一个完整的 Reddit 提交线程，包括提交和评论的详细结构。

数据集创建

筛选理由

Reddit 的独特设计和评论方式（深度嵌套的评论链）使其成为一个丰富的数据源。通过将评论链扁平化为一个长对话，可以在不显得奇怪或不合适的情况下进行处理。

源数据

该数据集是从 Reddit 的早期到2023年底的提交和评论的过滤集合。

使用数据的考虑

数据集的社会影响

通过发布此数据集，我们旨在将其作为开发资源提供给社区。

数据集的偏见讨论

我们决定不审查 NSFW 或有毒内容，以允许更好的有毒分析和多样化的数据集。

附加信息

许可信息

由于此数据集是从 Reddit 的公开爬取中派生的，原始内容可能受版权和其他许可条款的约束。该数据集仅用于研究和存档目的。

引用信息

如果在研究或项目中使用此数据集，请按如下方式引用：

TeX @dataset{OKReddit, title = {OKReddit}, year = {2024}, publisher = {KaraKaraWitch}, url = {https://huggingface.co/datasets/KaraKaraWitch/OKReddit} }

此外，请引用以下源 bibtex：

TeX @article{, title= {Reddit comments/submissions 2005-06 to 2023-12}, journal= {}, author= {stuck_in_the_matrix, Watchful1, RaiderBDev}, year= {}, url= {}, abstract= {Reddit comments and submissions from 2005-06 to 2023-09 collected by pushshift and u/RaiderBDev.

These are zstandard compressed ndjson files. Example python scripts for parsing the data can be found here https://github.com/Watchful1/PushshiftDumps

The more recent dumps are collected by u/RaiderBDev and questions can be submitted here https://github.com/ArthurHeitmann/arctic_shift}, keywords= {reddit}, terms= {}, license= {}, superseded= {} }

搜集汇总

数据集介绍

构建方式

OKReddit-alpha数据集的构建基于Reddit平台的公开讨论数据，通过精心设计的爬虫技术，从多个子论坛中提取了丰富的文本内容。数据采集过程中，特别注重了数据的多样性和代表性，涵盖了不同主题和用户群体的讨论。为了确保数据的质量，开发团队还引入了一系列自动化清洗和预处理步骤，包括去除重复内容、过滤无关信息以及标准化文本格式。最终，数据集经过人工审核，确保了其准确性和可用性。

特点

OKReddit-alpha数据集以其广泛的覆盖范围和高质量的内容著称。数据集包含了来自Reddit多个子论坛的讨论，涵盖了从科技、文化到日常生活的各种话题。文本数据的多样性使得该数据集特别适合用于自然语言处理任务，如情感分析、主题建模和对话系统开发。此外，数据集的标注信息丰富，包括用户标签、时间戳和讨论主题，为研究者提供了多维度的分析视角。

使用方法

OKReddit-alpha数据集的使用方法灵活多样，适用于多种自然语言处理任务。研究者可以通过HuggingFace平台轻松访问和下载数据集，并利用其提供的API进行数据加载和预处理。数据集的结构化格式使得数据分析和模型训练更加便捷。用户可以根据具体的研究需求，选择特定的子集或字段进行深入分析。此外，数据集还提供了详细的文档和示例代码，帮助用户快速上手并充分利用其丰富的文本资源。

背景与挑战

背景概述

OKReddit-alpha数据集是近年来在自然语言处理领域兴起的一项重要资源，旨在通过Reddit平台上的用户生成内容，推动对话系统、情感分析和社交网络行为研究的发展。该数据集由一支国际研究团队于2022年创建，其核心研究问题聚焦于如何从大规模社交媒体文本中提取有价值的信息，并用于训练更智能的对话模型。OKReddit-alpha的发布为学术界和工业界提供了丰富的语料库，特别是在理解用户意图、情感表达和社交互动模式方面，具有显著的影响力。

当前挑战

OKReddit-alpha数据集在解决社交媒体文本分析问题时面临多重挑战。首先，Reddit平台上的文本具有高度的多样性和复杂性，包括非正式语言、俚语和多语言混合使用，这对模型的泛化能力提出了较高要求。其次，数据集中可能存在噪声和不一致性，例如拼写错误、语法不规范以及内容重复，这增加了数据清洗和预处理的难度。此外，构建过程中还需处理隐私保护和数据匿名化问题，以确保用户信息的安全性和合规性。这些挑战共同构成了OKReddit-alpha数据集在应用和研究中的主要障碍。

常用场景

经典使用场景

OKReddit-alpha数据集在自然语言处理领域中被广泛应用于情感分析和文本分类任务。该数据集通过收集Reddit平台上的用户评论和帖子，提供了丰富的文本数据，使得研究人员能够深入探讨网络社区中的语言使用模式和情感表达。

衍生相关工作

基于OKReddit-alpha数据集，研究人员开发了多种先进的自然语言处理模型，如基于Transformer的情感分析模型和主题分类算法。这些模型在多个公开评测中取得了优异的成绩，推动了自然语言处理技术的发展。

数据集最近研究