hackernews-stories

Hugging Face2024-10-13 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/nixiesearch/hackernews-stories

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于HackerNews评论数据集，针对每条type=story的条目下载了目标URL，并解析了HTML内容。数据集包含文章文本的markdown格式以及页面特定的元数据，时间覆盖范围为2006年xx月至2024年9月，总共有2150271个页面被抓取，占原始数据集的约55%，大小约为20GB的文本。

创建时间：

2024-10-13

原始信息汇总

HackerNews Stories Dataset

基本信息

数据集名称: HackerNews stories dataset
语言: 英语
许可证: Apache License 2.0

数据集配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/*.jsonl.zst

数据集特征

id: 整数类型
url: 字符串类型
title: 字符串类型
author: 字符串类型
markdown: 字符串类型
downloaded: 布尔类型
meta_extracted: 布尔类型
parsed: 布尔类型
description: 字符串类型
filedate: 字符串类型
date: 字符串类型
image: 字符串类型
pagetype: 字符串类型
hostname: 字符串类型
sitename: 字符串类型
tags: 字符串类型
categories: 字符串类型

数据集统计

日期覆盖范围: xx.2006-09.2024
总页面数: 2150271
未压缩大小: ~20GB

使用方法

数据格式: JSONL，使用ZSTD压缩
示例: json { "id": 8961943, "url": "https://www.eff.org/deeplinks/2015/01/internet-sen-ron-wyden-were-counting-you-oppose-fast-track-tpp", "title": "Digital Rights Groups to Senator Ron Wyden: Were Counting on You to Oppose Fast Track for the TPP", "author": "Maira Sutton", "markdown": "Seven leading US digital rights and access to knowledge groups, ...", "downloaded": true, "meta_extracted": true, "parsed": true, "description": "Seven leading US digital rights and access to knowledge groups, and over 7,550 users, have called on Sen. Wyden today to oppose any new version of Fast Track (aka trade promotion authority) that does not fix the secretive, corporate-dominated process of trade negotiations. In particular, we urge...", "filedate": "2024-10-13", "date": "2015-01-27", "image": "https://www.eff.org/files/issues/fair-use-og-1.png", "pagetype": "article", "hostname": "eff.org", "sitename": "Electronic Frontier Foundation", "categories": null, "tags": null }
加载方法: python from datasets import load_dataset stories = load_dataset("nixiesearch/hackernews-stories", split="train") print(stories[0])

搜集汇总

数据集介绍

构建方式

HackerNews Stories数据集的构建基于nixiesearch/hackernews-comments数据集，针对其中类型为`story`的条目，逐一下载目标URL。在约380万条故事中，约210万条仍可访问。每条故事的HTML内容通过trafilatura库进行解析，最终以Markdown格式存储文章文本，并附带所有页面特定的元数据。

特点

该数据集涵盖了自2006年10月至2024年9月的时间范围，与上游数据集保持一致。共抓取了2150271个页面，占原始数据集的约55%，解压后文本大小约为20GB。每条记录包含丰富的元数据字段，如标题、作者、描述、发布日期、图片、页面类型、主机名、站点名等，为研究提供了多维度的信息支持。

使用方法

数据集以JSONL格式文件存储，并采用ZSTD压缩。用户可通过Huggingface的datasets库加载数据，首先安装`datasets`和`zstandard`库，随后使用`load_dataset`函数加载数据集并访问具体条目。每条记录的`id`字段与上游数据集保持一致，便于跨数据集关联分析。

背景与挑战

背景概述

HackerNews Stories数据集源于HackerNews社区，该社区自2006年起成为技术新闻和讨论的重要平台。该数据集由nixiesearch团队创建，基于其先前发布的HackerNews评论数据集，专注于收集和分析HackerNews中的故事条目。数据集涵盖了从2006年至2024年的故事内容，通过抓取目标URL并解析HTML，提取了约215万篇可访问的文章，存储为Markdown格式并附带了丰富的元数据。这一数据集为研究技术新闻传播、内容分析以及自然语言处理提供了宝贵的资源。

当前挑战

HackerNews Stories数据集在构建过程中面临多重挑战。首先，数据抓取过程中约45%的原始故事URL已失效，导致数据集覆盖范围受限。其次，HTML解析的准确性直接影响数据质量，尽管使用了trafilatura库进行解析，但仍需应对不同网站结构的多样性。此外，数据集的规模庞大，约20GB的文本数据对存储和处理提出了较高要求。在应用层面，如何有效利用这些数据进行技术新闻的趋势分析、内容分类以及情感分析，仍是研究者需要解决的关键问题。

常用场景

经典使用场景

HackerNews Stories数据集广泛应用于自然语言处理领域，特别是在文本分析和信息提取任务中。研究者们利用该数据集中的文章标题、作者、描述和Markdown格式的文本内容，进行文本分类、情感分析和主题建模等任务。该数据集的高质量文本和丰富的元数据为这些任务提供了坚实的基础。

实际应用

在实际应用中，HackerNews Stories数据集被广泛应用于新闻推荐系统、内容过滤和社交媒体分析等领域。企业可以利用该数据集中的文章内容和元数据，构建个性化的新闻推荐算法，提升用户体验。此外，该数据集还可用于监测网络舆论趋势，帮助企业和政府机构及时了解公众关注的热点话题。

衍生相关工作

基于HackerNews Stories数据集，研究者们开展了多项经典工作。例如，利用该数据集进行文本分类和情感分析的研究，推动了自然语言处理技术的发展。此外，该数据集还被用于构建新闻推荐系统和内容过滤算法，这些工作在实际应用中取得了显著成效，进一步验证了该数据集的价值和实用性。

以上内容由遇见数据集搜集并总结生成