OKReddit-ReleaseCandidate3

Hugging Face2024-11-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/recursal/OKReddit-ReleaseCandidate3

下载链接

链接失效反馈

官方服务：

资源简介：

OKReddit数据集是从2005年到2023年筛选的Reddit提交和评论集合，总计约6.5 TiB。它由KaraKaraWitch策划，并由Recursal.ai资助，主要用于研究和存档目的。该数据集主要为英语，但也包含其他语言的小部分。它支持多种NLP任务，如文本分类、语言建模、情感分析和主题建模。数据集结构包括thread_id、subreddit、namedconversation、submission和comments等详细信息。创建过程涉及根据参与度、丰富度和多样性指标筛选子版块，并根据分数和深度细化评论选择。该数据集未对NSFW或有毒内容进行审查，以允许更好的分析。

创建时间：

2024-11-22

原始信息汇总

OKReddit - Release Candidate 2023

数据集概述

OKReddit是一个经过筛选的Reddit提交和评论集合，数据量约为6.5 TiB（估计包含6亿行Reddit提交），时间跨度从2005年到2023年。该数据集主要用于研究和存档目的。

数据集来源

源数据： Academic Torrents（由stuck_in_the_matrix, Watchful1, RaiderBDev & pushshift folks提供）

支持的任务和排行榜

该数据集可用于多种自然语言处理（NLP）任务，包括：

文本分类：根据情感、主题或子版块对评论和帖子进行分类。
语言建模：训练语言模型以理解和生成对话文本。
情感分析：分析不同子版块和主题下的评论和帖子的情感。
主题建模：识别和建模帖子中讨论的主题。

语言

数据集的主要语言是英语，但也有其他语言的帖子，数量较少。

数据集结构

数据实例

每个数据实例代表一个子版块内的提交线程。

thread_id：提交线程ID，包含Reddit用于标记线程的t3_前缀。
subreddit：子版块名称，不区分大小写。
namedconversation：一个OpenAI兼容的对话：
- from：发布内容的作者用户名。
- content：发布的Reddit Markdown内容。
submission / comments：原始提交和评论。

数据示例

json { "thread_id": "t3_of7h2", "subreddit": "Gaben", "namedconversation": [ { "from": "[deleted]", "content": "[13 Jan 2012, 07:01:07] TIL Half-Life 2s source code was hacked because the hacker guessed Gabes password, which was "gaben"

Link: half-life.wikia.com" }, { "from": "clydethefrog", "content": "[15 Jan 2012, 18:01:06] Thats my password too" }, { "from": "Dunge", "content": "[29 Feb 2012, 02:02:34] "Gembe was led into believing that Valve wanted to employ him as an in-house security auditor. He was to be offered a flight to the USA and was to be arrested on arrival by the FBI."

Wow thats sad" }, { "from": "captainregularr", "content": "[13 Jan 2012, 14:01:14] Did you know gaben makes me gaben my gaben?" }, { "from": "Turellio", "content": "[13 Jan 2012, 17:01:53] thats what gaben gaben" }, { "from": "captainregularr", "content": "[13 Jan 2012, 17:01:05] I gaben to gabens demands." }, { "from": "RagingRetard", "content": "[13 Jan 2012, 17:01:49] Oh, quit your incessant gaben." } ], "submission": { "sub": { "name": "Gaben", "id": "2scx1", "subs": null, "type": null }, "author": null, "title": "TIL Half-Life 2s source code was hacked because the hacker guessed Gabes password, which was "gaben"", "score": 23, "created": 1326440407.0, "id": "of7h2", "flags": "", "link_flair": null, "url": "http://half-life.wikia.com/wiki/Half-Life_2_Beta#Source_code_leak", "text": "", "removed": [], "cross": [] }, "comments": [ { "sub": { "name": "Gaben", "id": "2scx1", "subs": -1, "type": "" }, "author": { "name": "clydethefrog", "uid": "", "create": -1, "flair": null, "patreon": false, "premium": false }, "text": "Thats my password too", "score": 1, "created": "1326652326", "id": "c3hge04", "parent_id": "t3_of7h2", "thread_id": "t3_of7h2", "flags": "A", "children": [] }, { "sub": { "name": "Gaben", "id": "2scx1", "subs": -1, "type": "" }, "author": { "name": "Dunge", "uid": "", "create": -1, "flair": null, "patreon": false, "premium": false }, "text": ""Gembe was led into believing that Valve wanted to employ him as an in-house security auditor. He was to be offered a flight to the USA and was to be arrested on arrival by the FBI."

Wow thats sad", "score": 3, "created": "1330483894", "id": "c3w2ulz", "parent_id": "t3_of7h2", "thread_id": "t3_of7h2", "flags": "A", "children": [] }, { "sub": { "name": "Gaben", "id": "2scx1", "subs": -1, "type": "" }, "author": { "name": "captainregularr", "uid": "", "create": -1, "flair": null, "patreon": false, "premium": false }, "text": "Did you know gaben makes me gaben my gaben?", "score": 5, "created": "1326463514", "id": "c3gsfkx", "parent_id": "t3_of7h2", "thread_id": "t3_of7h2", "flags": "A", "children": [ { "sub": { "name": "Gaben", "id": "2scx1", "subs": -1, "type": "" }, "author": { "name": "Turellio", "uid": "", "create": -1, "flair": null, "patreon": false, "premium": false }, "text": "thats what gaben gaben", "score": 3, "created": "1326476873", "id": "c3guihp", "parent_id": "t1_c3gsfkx", "thread_id": "t3_of7h2", "flags": "A", "children": [ { "sub": { "name": "Gaben", "id": "2scx1", "subs": -1, "type": "" }, "author": { "name": "captainregularr", "uid": "", "create": -1, "flair": null, "patreon": false, "premium": false }, "text": "I gaben to gabens demands.", "score": 5, "created": "1326477005", "id": "c3guje0", "parent_id": "t1_c3guihp", "thread_id": "t3_of7h2", "flags": "AE", "children": [ { "sub": { "name": "Gaben", "id": "2scx1", "subs": -1, "type": "" }, "author": { "name": "RagingRetard", "uid": "", "create": -1, "flair": null, "patreon": false, "premium": false }, "text": "Oh, quit your incessant gaben.", "score": 2, "created": "1326477409", "id": "c3gulzh", "parent_id": "t1_c3guje0", "thread_id": "t3_of7h2", "flags": "A", "children": [] } ] } ] } ] } ] }

额外数据集说明

标志：Reddit有一些布尔开关可以压缩成字符串。我们已经这样做以减少需要存储的布尔开关数量。

对于提交，标志字符到布尔名称的映射如下：

python flag_map = { "!": "spoiler", "#": "stickied", ">": "pinned", "A": "archived", "C": "is_crosspostable", "c": "is_original_content", "E": "edited", "e": "is_meta", "G": "can_gild", "H": "hidden", "i": "is_robot_indexable", "L": "allow_live_comments", "l": "locked", "m": "is_reddit_media_domain", "M": "over_18", "O": "contest_mode", "q": "quarantine", "s": "is_self", "v": "is_video", }

对于评论：

python flag_map = { "#": "stickied", "A": "archived", "E": "edited", "G": "can_gild", "H": "hidden", "l": "locked", "=": "score_hidden", "P": "author_premium", "R": "send_replies", "O": "can_mod_post", "N": "no_follow", }

在命名对话中，仅使用提交的over_18标志。

数据集创建

筛选子版块质量

为了构建一个更具包容性的数据集，同时保持标准，我们实施了一个修剪过程，针对根据三个关键指标缺乏有价值内容的子版块：

参与度：总评论数与总提交数的比率，反映子版块的活动水平。
丰富度：媒体提交数占总提交数的比例的平方，表示多媒体内容的密度。
多样性：评论和提交中的唯一作者数之和除以唯一提交作者数，表示社区参与的广度。

此外，我们还对提交和作者数量设定了某些基线阈值：

python if ( stats_data["submission"]["authors"] < 70 # 总唯一作者数 or stats_data["comment"]["authors"] < 20 # 总唯一评论者数 or stats_data["submission"]["submissions"] < 450 # 总提交数 or stats_data["comment"]["comments"] < 585 # 总评论数 ):

跳过该子版块

通过应用这些标准，我们已缩小到大约62,000个高质量子版块。

有价值的提交

为了消除提交数量不足的子版块，我们首先识别“有用的线程”，这些线程具有以下特征之一：

至少五个回复，
或者，如果原始帖子是文本，超过2,500个字符。

我们建立了一个介于5到20之间的随机阈值，任何低于此随机生成要求的子版块都将被排除。

细化的评论选择

在线程级别的过滤之后，评论将根据以下标准进行额外审查：

评分低于-4的评论将被丢弃。
在拥有超过50条评论的线程中，嵌套深度超过六层的评论将被删除。
如果评论线程的累计评分低于零，则该线程的其余部分将被修剪。
与第2或第3点中修剪的父评论相关的子评论也将被删除。

数据集创建

该数据集是从Reddit的开始到2023年底的提交和评论的筛选集合。

使用数据集的注意事项

数据集的社会影响

通过发布此数据集，我们旨在使这一开发资源对社区广泛可用。

偏见讨论

我们决定不审查NSFW或有毒内容。这允许进行更好的有毒分析并提供多样化的数据集。

附加信息

关于RWKV

RWKV是一个开源的非盈利组织，隶属于Linux基金会。专注于开发RWKV AI架构，以实现我们的愿景。

关于Recursal AI

Recursal AI是支持RWKV模型开发和用户的商业实体，同时通过其公共云或私有云/本地部署提供商业服务。

许可信息

由于此数据集源自Reddit的公开爬取，原始内容可能受版权和其他许可条款的约束。此外，此数据集仅用于研究和存档目的。

引用信息

如果您在研究或项目中使用此数据集，请按如下方式引用：

TeX @dataset{OKReddit, title = {OKReddit}, year = {2024}, publisher = {KaraKaraWitch}, url = {https://huggingface.co/datasets/KaraKaraWitch/OKReddit} }

此外，请引用以下源bibtex：

TeX @article{, title= {Reddit comments/submissions 2005-06 to 2023-12}, journal= {}, author= {stuck_in_the_matrix, Watchful1, RaiderBDev}, year= {}, url= {}, abstract= {Reddit comments and submissions from 2005-06 to 2023-09 collected by pushshift and u/RaiderBDev.

These are zstandard compressed ndjson files. Example python scripts for parsing the data can be found here https://github.com/Watchful1/PushshiftDumps

The more recent dumps are collected by u/RaiderBDev and questions can be submitted here https://github.com/ArthurHeitmann/arctic_shift}, keywords= {reddit}, terms= {}, license= {}, superseded= {} }

搜集汇总

数据集介绍

构建方式

OKReddit-ReleaseCandidate3数据集构建于Reddit平台上的海量用户提交和评论数据，时间跨度从2005年至2023年。通过精心设计的过滤机制，该数据集筛选了约62,000个高质量的子论坛，确保了数据的丰富性和多样性。过滤标准包括子论坛的活跃度、多媒体内容的密度以及社区参与度。此外，数据集还剔除了低质量的提交和评论，如得分低于-4的评论和嵌套过深的评论链，以确保数据的实用性和连贯性。

特点

OKReddit-ReleaseCandidate3数据集以其庞大的数据量和高质量的内容筛选而著称，涵盖了Reddit平台上超过600万条提交和评论。数据集特别注重保留NSFW和有毒内容，以便于进行更全面的毒性分析。每个数据实例代表一个子论坛中的提交线程，包含了详细的线程ID、子论坛名称、用户对话内容以及原始提交和评论的结构化信息。这种设计使得数据集在自然语言处理任务中具有广泛的应用潜力。

使用方法

OKReddit-ReleaseCandidate3数据集适用于多种自然语言处理任务，如文本分类、语言建模、情感分析和主题建模。研究人员可以通过分析数据集中的用户对话和评论，训练和评估各种语言模型。数据集的结构化格式便于直接加载和处理，支持从简单的文本分析到复杂的对话系统开发。使用该数据集时，建议遵循其提供的许可证和引用规范，以确保研究的合规性和透明性。

背景与挑战

背景概述

OKReddit-ReleaseCandidate3数据集由KaraKaraWitch于2023年创建，并由Recursal.ai资助，旨在为自然语言处理（NLP）研究提供丰富的对话数据。该数据集涵盖了自2005年至2023年间的Reddit提交和评论，总计约6.5 TiB，包含约6亿条数据。其核心研究问题在于如何从Reddit的深层嵌套评论中提取连贯的对话，以支持文本生成、情感分析、主题建模等多种NLP任务。该数据集的发布为语言模型的训练和评估提供了宝贵的资源，尤其在理解网络社区中的语言使用模式方面具有重要影响力。

当前挑战

OKReddit-ReleaseCandidate3数据集在构建过程中面临多重挑战。首先，Reddit数据的多样性和复杂性使得筛选高质量子版块和对话成为一项艰巨任务。研究人员通过设定严格的指标（如参与度、内容丰富度和多样性）来过滤低质量内容，但仍需处理大量噪声数据。其次，数据中的NSFW和有毒内容未被剔除，虽然这为毒性分析提供了便利，但也增加了数据清理和使用的复杂性。此外，数据集的规模庞大，存储和处理需求极高，对硬件资源提出了严峻挑战。最后，如何在不破坏对话连贯性的情况下，有效处理深层嵌套评论和低分评论，也是构建过程中的一大难题。

常用场景

经典使用场景

OKReddit-ReleaseCandidate3数据集在自然语言处理领域中被广泛应用于文本生成和语言模型的训练。其丰富的Reddit提交和评论数据为研究人员提供了大量真实的对话文本，特别适合用于生成式语言模型的训练和评估。通过该数据集，研究者能够模拟真实的在线社交互动，提升模型在生成自然语言对话时的表现。

解决学术问题

该数据集解决了自然语言处理中的多个关键问题，尤其是在语言建模和情感分析方面。通过提供大规模的Reddit数据，研究者能够更准确地训练模型，使其更好地理解和生成自然语言。此外，数据集中的多样化内容也为情感分析和话题建模提供了丰富的素材，帮助研究者深入探讨在线社区中的情感动态和话题演变。

衍生相关工作

基于OKReddit-ReleaseCandidate3数据集，研究者们已经开发了多种先进的自然语言处理模型和算法。例如，该数据集被用于训练和改进生成式对话模型，如GPT系列模型。此外，许多关于情感分析和话题建模的研究也依赖于该数据集，推动了这些领域的技术进步。这些衍生工作不仅提升了模型的性能，还为在线社交互动的理解提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集