Hacker News Dataset

github2020-07-01 更新2024-05-31 收录

下载链接：

https://github.com/mdheller/Naive-Bays-Classifier-on-Hacker-News-Dataset-Artificial-Intelligence

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2018年至2019年Hacker News网站的用户提交故事（帖子），每个帖子包括对象ID、标题、帖子类型、作者、创建时间、URL、点数、评论数量和年份等列。

本数据集汇集了2018年至2019年间Hacker News网站用户所提交的各类故事（帖子），其中每篇帖子均详细记录了对象标识、标题、帖子类别、作者信息、创建时间、网络链接、评分以及评论数量等要素。

创建时间：

2020-06-16

原始信息汇总

数据集概述

数据集名称

Naive Bays Classifier on Hacker News Dataset Artificial Intelligence

数据集内容

包含2018年至2019年的Hacker News帖子数据，每个帖子包括以下列：

Object ID
Title
Post Type
Author
Created At
URL
Points
Number of Comments
year

数据集任务

Task 1: 数据提取与模型构建
- 从2018年的训练集中提取数据，构建词汇表并计算每个词在不同帖子类型（story, ask_hn, show_hn, poll）中的频率和条件概率。
- 使用平滑技术（𝛿 = 0.5）计算条件概率。
- 输出文件：model-2018.txt
Task 2: 机器学习分类器测试
- 使用Task 1中构建的模型，在2019年的测试集上实现并测试Naive Bays分类器。
- 输出文件：baseline-result.txt
Task 3: 特征过滤
- Task 3.1: 停用词过滤
  - 重新执行Task 1和Task 2，但这次从词汇表中移除停用词。
  - 输出文件：stopword-model.txt, stopword-result.txt
- Task 3.2: 词长过滤
  - 重新执行Task 1和Task 2，但这次移除长度≤2和≥9的词。
  - 输出文件：wordlength-model.txt, wordlength-result.txt
- Task 3.3: 不频繁词过滤
  - 逐步移除词汇表中频率较低和较高的词，并绘制分类器性能图。

运行指南

将Naive_Bays_Classifier.ipynb, dataset.csv和stopwords.txt放在同一文件夹中。
运行Naive_Bays_Classifier.ipynb，选择Cell->Run All。

输出文件

Task 1, 2: baseline-result.txt, model-2018.txt, vocabulary.txt, remove_word.txt
Task 3: stopword-model.txt, stopword-result.txt, wordlength-model.txt, wordlength-result.txt

搜集汇总

数据集介绍

构建方式

Hacker News数据集构建于2018年至2019年间，涵盖了用户提交的帖子，包括标题、帖子类型、作者、创建时间、URL、点赞数和评论数等关键信息。数据集的构建过程涉及从训练集中提取数据，建立词汇表，并计算每个词汇在不同帖子类型中的频率和条件概率。通过将标题转换为小写、分词并生成词汇表，进一步计算每个词汇的条件概率，并应用平滑技术以确保模型的鲁棒性。

使用方法

使用Hacker News数据集时，首先需将相关文件（如Jupyter Notebook、数据集文件和停用词表）置于同一目录下。通过运行提供的Notebook文件，用户可构建概率模型并测试朴素贝叶斯分类器。数据集支持多种任务，包括停用词过滤、词汇长度过滤和低频词过滤，用户可根据需求生成不同的模型和结果文件。此外，数据集还支持对分类器性能的可视化分析，帮助用户优化模型表现。

背景与挑战

背景概述

Hacker News数据集源于Hacker News网站，这是一个在技术和创业领域极具影响力的社交新闻平台，用户可以在该平台上提交、投票和评论各类技术相关的帖子。该数据集涵盖了2018年至2019年间的帖子数据，包含帖子标题、作者、创建时间、URL、得分、评论数量等信息。数据集的创建旨在为自然语言处理和机器学习领域的研究者提供一个真实且丰富的文本分类实验平台，特别是针对帖子类型的分类任务。通过该数据集，研究者可以深入探讨文本分类模型在真实场景中的表现，并推动相关算法的发展。

当前挑战

Hacker News数据集在应用过程中面临多重挑战。首先，文本分类任务本身具有复杂性，尤其是帖子标题的短文本特性使得特征提取和模型训练更加困难。其次，数据集中存在大量噪声数据，如拼写错误、缩写和非标准表达，这对模型的鲁棒性提出了更高要求。此外，构建过程中需要处理数据不平衡问题，不同帖子类型的样本数量差异显著，可能导致模型偏向多数类。最后，数据预处理阶段的停用词过滤、词长过滤以及低频词处理等操作，虽然有助于提升模型性能，但也增加了实验的复杂性和计算成本。这些挑战共同构成了该数据集在文本分类研究中的核心难点。

常用场景

经典使用场景

Hacker News数据集在自然语言处理领域中被广泛用于文本分类任务。通过该数据集，研究者可以构建基于朴素贝叶斯分类器的模型，对用户提交的帖子进行分类，如故事、提问、展示和投票等类型。这一过程不仅涉及文本的预处理，如分词、停用词过滤，还包括模型的训练与测试，为文本分类算法的研究提供了丰富的实验数据。

解决学术问题

Hacker News数据集解决了文本分类中的多个学术问题，尤其是在处理短文本分类时的挑战。通过该数据集，研究者可以探索如何有效提取文本特征、优化分类器的性能，并验证不同预处理方法（如停用词过滤、词长过滤）对分类结果的影响。这些研究为短文本分类算法的改进提供了理论支持，推动了自然语言处理领域的发展。

实际应用

在实际应用中，Hacker News数据集可用于构建智能推荐系统，帮助用户快速找到感兴趣的内容。例如，通过分类模型，平台可以自动将用户提交的帖子归类，并根据类别推荐给相关用户。此外，该数据集还可用于舆情分析，帮助企业和研究机构了解技术社区的热点话题和趋势。

数据集最近研究