Reddit Corpus

Name: Reddit Corpus
Creator: OpenDataLab
Published: 2026-05-17 10:30:29
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Reddit_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Reddit是美国社交新闻汇总网站，用户可以在其中发布链接并参与有关这些帖子的讨论。这些线程讨论提供了一个很大的语料库，使用此目录中的工具将其转换为会话数据集。每个reddit线程用于生成一组示例。每个响应注释都会生成一个示例，其中上下文是注释响应的注释的线性路径。如果注释或其直接父项具有超过128个字符或少于9个字符，则将过滤掉该示例。来自注释父级的父级等的更多后退上下文被存储为额外的上下文功能。他们的文本被修剪成最多128个字符的长度，而不会分开单词。这有助于限制单个示例的大小。训练/测试拆分是基于线程ID确定的。只要脚本的所有输入保持不变 (输入表，过滤阈值等)，生成的数据集应该是相同的。

提供机构：

OpenDataLab

创建时间：

2022-08-19

搜集汇总

数据集介绍