RedditCorpus

github2019-08-19 更新2024-05-31 收录

下载链接：

https://github.com/TracyMRohlin/RedditCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集从特定的subreddits中抓取帖子，并将它们保存为文本文件形式的语料库。用户可以选择特定的subreddit或随机选择，程序会抓取该subreddit中的特定数量的热门帖子。数据集文件经过NLTK标记器处理，进行词干提取和停用词移除，最终保存为语料文件。

This dataset is compiled by scraping posts from specific subreddits and saving them as a corpus in text file format. Users have the option to select a particular subreddit or choose randomly, and the program will scrape a specified number of popular posts from that subreddit. The dataset files are processed using the NLTK tokenizer, which performs stemming and stop word removal, and are ultimately saved as corpus files.

创建时间：

2015-07-10

原始信息汇总

数据集概述

数据集名称

RedditCorpus

数据集功能

从特定子论坛（subreddit）中提取文本文件，创建文本语料库。
用户可指定子论坛或由程序随机选择。
程序抓取指定数量的热门帖子。

数据集操作选项

[ga]：合并帖子和评论到一个语料库文件。
[ap]：从子论坛抓取n个帖子并保存为语料库文件。
[ac]：从n个帖子中抓取评论并保存为语料库文件。
[rp]：从同一子论坛的顶部n个帖子中随机抓取一个帖子。
[rc]：从同一子论坛随机抓取一个评论。

数据处理

如果子论坛基于图像，程序会要求用户提供另一个子论坛。
语料库文件通过NLTK标签器进行标记，进行词干提取和停用词移除，然后保存。

数据集输出示例

标题、点赞数、日期和内容摘要。
新评论及其点赞数。

数据集分析工具

Karma_Graph.py：创建帖子/评论点赞数的简单直方图。
Naive_Bayes_model.py：创建多项式朴素贝叶斯分类器，用于分类点赞数在75%分位数的帖子。
SVM_model.py：使用TFIDF评分进行支持向量机分类。

分类器性能

朴素贝叶斯分类器：
- 基于词袋模型，总文档分类数2001，准确率0.741。
- 基于LDA模型，总文档分类数2001，准确率0.639。
支持向量机分类器：
- 基于TFIDF评分，总文档分类数2001，准确率0.771。

搜集汇总

数据集介绍

构建方式

RedditCorpus数据集的构建主要依赖于用户指定或随机选取特定subreddit，进而从中抓取一定数量的热门帖子。该过程涉及与PRAW模块的交互，以获取subreddit中的帖子，并根据用户输入的不同指令，以文本文件形式保存这些帖子及其评论。数据集进一步通过NLTK标签器进行标注，执行词干提取并移除停用词，最终保存为语料库文件。

特点

该数据集的特点在于其灵活性，用户可以根据需求选择不同的subreddit和抓取内容，包括帖子、评论或者两者的组合。此外，数据集支持生成随机帖子或评论，以及通过Karma分数构建简单的直方图。数据集还提供了基于词袋模型和LDA模型的朴素贝叶斯分类器，以及基于TFIDF分数的支持向量机分类器，以供不同的文本分类任务。

使用方法

使用RedditCorpus数据集时，用户首先需要指定subreddit和抓取的帖子数量。根据需求，用户可以选择保存帖子、评论或两者的组合为文本文件。此外，用户还可以利用提供的脚本，对数据进行标注、分类和可视化等操作。例如，通过执行Naive_Bayes_model.py脚本，用户可以创建并训练一个朴素贝叶斯分类器，而通过执行SVM_model.py脚本，则可以创建基于TFIDF的支持向量机分类器。

背景与挑战

背景概述

RedditCorpus数据集的构建旨在满足自然语言处理领域对大规模文本语料库的需求。该数据集由特定子版块的文本文件组成，用户可根据需求选择特定版块或由程序随机选取。RedditCorpus的创建时间为未明确标示，主要研究人员为Tracy MRohlin，其背后的机构信息在README中未曾提及。该数据集的核心研究问题在于如何有效地从Reddit平台抓取并处理文本数据，以供后续的自然语言处理任务使用。RedditCorpus对相关领域的影响力体现在为情感分析、文本分类等任务提供了丰富的实验材料。

当前挑战

RedditCorpus数据集在构建过程中面临了以下挑战：1) 如何准确识别并过滤掉图像为主的子版块，以保证文本数据的质量；2) 如何高效地从Reddit抓取大量文本数据，同时保证数据的多样性和代表性；3) 在数据预处理阶段，需要克服文本清洗、词性标注、词干提取以及停用词去除等技术难题。在所解决的领域问题上，RedditCorpus面临的挑战包括如何利用这些文本数据进行有效的特征提取和模型训练，以实现准确的文本分类和情感分析等任务。

常用场景

经典使用场景

RedditCorpus数据集汇集了来自特定subreddits的文本文件，其经典使用场景在于构建文本语料库，进而支持自然语言处理任务，如文本分类、情感分析等。用户可根据需求选择特定的subreddit，并获取该subreddit下的顶部帖子或评论，以进行深入的数据分析和模型训练。

衍生相关工作

基于RedditCorpus数据集，研究者们衍生出了一系列相关工作，包括但不限于构建Naive Bayes分类器、LDA主题模型以及SVM分类器等，这些工作进一步拓展了数据集的应用范围，推动了文本挖掘和机器学习领域的发展。

数据集最近研究