open-index/arctic

Name: open-index/arctic
Creator: open-index
Published: 2026-04-29 12:26:42
License: 暂无描述

Hugging Face2026-04-29 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/open-index/arctic

下载链接

链接失效反馈

官方服务：

资源简介：

Arctic Shift Reddit Archive 是一个全面的Reddit存档数据集，包含自2005年12月至2026年2月的所有公开子版块的评论和提交内容。数据集以Parquet格式组织，分为评论和提交两部分，每月一个文件，大月份则分为多个约200 MB的分片。数据集总计包含11.1亿条数据（8.9亿条评论，2.2亿条提交），压缩后大小为1001.8 GB。该数据集适用于语言模型训练、情感分析、社区研究和信息检索等多种自然语言处理任务。数据集支持多种工具和库的直接使用，如DuckDB、`datasets`、`pandas`和`huggingface_hub`。

The Arctic Shift Reddit Archive is a comprehensive dataset containing all public subreddit comments and submissions from December 2005 through February 2026. Organized as monthly Parquet files, the dataset is split into comments and submissions, with larger months divided into multiple ~200 MB shards. In total, the dataset includes 11.1B items (8.9B comments, 2.2B submissions) in 1001.8 GB of compressed Parquet. It is ideal for various NLP tasks such as language model training, sentiment analysis, community research, and information retrieval. The dataset is designed for easy access and supports direct usage with tools like DuckDB, `datasets`, `pandas`, and `huggingface_hub`.

提供机构：

open-index

搜集汇总

数据集介绍

构建方式

Arctic Shift Reddit Archive的构建源于对Reddit平台历史数据的系统性整理与转换。该数据集以Arctic Shift项目为基础，将自2005年12月至2026年2月期间所有公开子版块的评论与提交内容，从原始格式转化为Parquet文件。数据按月度分片组织，评论与提交分别存储，较大月份的数据被分割为多个约200 MB的分片，以确保高效存储与访问。构建过程中，每个（月份，类型）对均经过统计追踪，记录行数、分片数量、文件大小等元数据，并通过stats.csv等文件提供详细的处理日志，保障了数据集的完整性与可追溯性。

使用方法

数据集的使用设计充分考虑了便捷性与灵活性，用户可通过多种工具直接访问而无需完整下载。例如，利用DuckDB可直接在Hugging Face上执行SQL查询，实现跨时间段的聚合分析或内容筛选；通过datasets库的流式加载功能，能够高效处理海量数据而不占用本地存储；huggingface_hub则支持按需下载特定年份或月份的数据子集。这种模块化的访问方式，使得研究人员能够根据计算资源与研究目标，自由选择全局分析或聚焦特定时段，为语言模型训练、社会动态研究等任务提供了高度适配的数据支持。

背景与挑战

背景概述

Arctic Shift Reddit Archive 数据集由 ArthurHeitmann 及其团队构建，旨在系统性地归档自2005年以来的全部Reddit公开评论与提交内容。该数据集作为社交媒体计算研究的重要基础设施，其核心研究问题聚焦于如何高效组织与提供海量、跨时域的网络对话数据，以支持自然语言处理、社区动态分析及信息检索等领域的实证研究。凭借其覆盖时间跨度之长与数据规模之巨，该数据集已成为探索在线行为模式、语言演变及社会文化趋势的关键资源，对相关学术研究产生了深远影响。

当前挑战

该数据集致力于解决社交媒体文本分析中数据完整性不足的挑战，即现有语料库往往局限于特定子社区或时间窗口，难以支撑对宏观趋势与长期演化的稳健研究。在构建过程中，团队面临了多重技术挑战：原始数据规模庞大且持续增长，需设计高效的数据流水线以实现月度分片与Parquet格式转换；同时，确保数据的一致性与可访问性，需处理异构的数据结构并维护详尽的元数据追踪。此外，数据预处理还需应对Reddit平台特有的内容删除、用户匿名化等复杂情形，以平衡数据实用性与伦理合规性。

常用场景

经典使用场景

在社交媒体计算分析领域，Arctic Shift Reddit Archive数据集因其覆盖自2005年以来的完整Reddit公开评论与提交内容，成为研究在线社区动态与自然语言演变的宝贵资源。该数据集最经典的使用场景是作为大规模语言模型的预训练语料，其数十亿条真实用户对话为模型提供了丰富的语境与多样化的语言风格，有效提升了模型对网络用语、文化梗及多领域话题的理解能力。

解决学术问题

该数据集解决了社交媒体研究中长期存在的数据碎片化与时间跨度不足问题。通过提供跨越近二十年的全量、结构化数据，它使得学者能够系统性探究在线社区的兴衰规律、舆论传播机制以及语言使用的历时性变迁。其意义在于为计算社会科学、数字人文及信息检索等领域提供了可验证宏观社会现象的微观行为基础，推动了基于大数据的群体行为建模与理论构建。

实际应用

在实际应用层面，该数据集支撑了从商业智能到公共政策的多维度分析。企业可据此进行品牌声誉监测与消费者洞察，追踪特定产品或话题在细分社区中的讨论热度与情感倾向。政府部门与研究机构则能利用其分析重大公共事件中的舆论演变路径，识别虚假信息传播网络，从而为网络治理与危机应对提供数据驱动的决策支持。

数据集最近研究