five

spaces-of-the-week

收藏
Hugging Face2026-04-20 更新2026-04-21 收录
下载链接:
https://huggingface.co/datasets/hysts-bot-data/spaces-of-the-week
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为“每周精选空间”,整合了五年间每周在Hugging Face平台上被精选展示的AI空间(Spaces)列表。数据集采用标准化格式存储,主要字段包括:ISO周编号(如2025-W13)、周起始日期、空间ID、展示位置、空间标题、创建时间、数据来源(legacy_csv/scrape_derived/api)、首次/末次观测时间及持续天数。数据来源根据时间段自动选择最可靠的记录方式:2024年之前使用遗留CSV,2024年初至2025年W08周采用网页爬取,之后则直接使用官方API。数据集通过两个定时任务自动更新:每2小时采集当前周数据,每日重新聚合生成最终数据集。该数据集适用于分析Hugging Face平台的内容推荐趋势、空间流行度变化等研究场景。
创建时间:
2026-04-15
原始信息汇总

Spaces of the Week 数据集概述

数据集基本信息

  • 数据集名称: Spaces of the Week
  • 托管地址: https://huggingface.co/datasets/hysts-bot-data/spaces-of-the-week
  • 许可证: mit
  • 主要语言: en
  • 标签: spaces-of-the-week, huggingface, curation
  • 数据格式: Parquet (data.parquet)

数据集内容描述

该数据集整合了五年间在 https://huggingface.co/spaces 上每周展示的“Spaces of the Week”列表。

历史数据说明

数据模式(Schema)

列名 类型 说明
week_iso string ISO 周,例如 2025-W13
week_start_date date ISO 周的周一日期
week_label string? 页面上显示的日期标签(例如 24 Mar 2025)。在 2025-03-08 之前(添加该标签前)为 Null
space_id string 发布时观察到的 Space ID。作者后续的重命名操作不会被重写;请使用 HF API 查找当前 ID
position int32? 轮播图中的显示顺序(1..8)。对于 legacy_csv 源为 Null
title string? 发布时的标题。如果作者后续更改了标题,此处不会反映该更改
created_at datetime(UTC)? Space 创建时间戳
source string 数据源:legacy_csv / scrape_derived / api
first_seen datetime(UTC)? 首次在当周 SOW 部分抓取到该条目的时间戳
last_seen datetime(UTC)? 最近一次在当周 SOW 部分抓取到该条目的时间戳
persistence_days int32? 该条目在 SOW 部分被观察到的不同日历天数

每周数据源选择规则

每周的数据行均来自一个确定的数据源,选择依据是覆盖的可靠性:

时间范围 数据源 原因
最早 .. 2024-W01 legacy_csv 2024-01-10 之前没有 HTML 抓取数据
2024-W02 .. 2025-W08 scrape_derived 有 HTML 抓取数据,但 featured-API 尚不可靠
2025-W09 .. 当前 api 从此时起,/api/spaces/featured?date=YYYY-Www 是编辑的权威来源

scrape_derived 源说明

  • 应用了 2 天持续性过滤器,以剔除在几小时内被替换的短期填充项目。
  • 当管理员在一周中途发布新的每周名单时,ISO 周会包含两个批次;较早的批次(过渡前)会被丢弃,保留过渡后的批次,这与旧版 CSV 的日期约定一致。

api 源说明

  • API 返回的是在该 ISO 周内被推荐过的 Space 的累积列表,因此当一周内发生替换时,可能同时包含原始项目和替换项目,导致条目数偶尔超过 8 个。

原始观察日志

用于生成此表的原始每次抓取的 JSON 数据和每周 API 响应存储在一个单独的私有数据集中:hysts-bot-data/spaces-of-the-week-raw

数据更新流水线

两个 Hugging Face Jobs 定时任务保持此数据集的最新状态:

  1. sotw_collect.py — 每 2 小时运行一次:抓取 /spaces 页面获取当前 ISO 周的 featured-spaces API 数据,在单个提交中将一个文件分别追加到 -raw/scrape/-raw/api/<iso_week>/ 目录下。该脚本能容忍部分失败(例如 API 对尚未开始的周返回 400 错误)。
  2. sotw_aggregate.py — 每日运行:从原始观察日志(-raw)重建此 data.parquet 文件。2024-W02 之前的行来自存储在 -raw 内部的固定 legacy.parquet 快照,因此重建过程无需每天重新读取旧版数据集。

流水线源代码: hysts/hf-jobs

搜集汇总
数据集介绍
main_image_url
构建方式
在机器学习与开源社区蓬勃发展的背景下,数据集“Spaces of the Week”的构建体现了对Hugging Face平台社区动态的系统性追踪。其构建过程采用了多源融合与渐进式更新的策略,依据时间跨度的不同,分别整合了历史CSV档案、网页抓取衍生数据以及官方API的直接调用。具体而言,针对2024年之前的记录,数据集依赖于一份冻结的CSV快照;进入2024年后,则通过定期网页抓取并辅以两日持久性过滤来筛选稳定的精选项目;自2025年第九周起,数据集转而采纳官方编辑API作为权威数据源。整个流程由自动化任务管道支撑,包括每两小时的数据收集与每日的聚合重建,确保了数据集的时效性与一致性。
特点
该数据集的核心特征在于其作为一份历时性社区精选档案的完整性。它系统性地收录了跨越五年的“每周精选空间”列表,为研究社区趋势与项目流行度提供了纵向视角。数据模式设计严谨,不仅包含空间标识、标题、创建时间等基础元数据,还特别记录了条目在精选栏目中被观测到的首次与末次时间戳及其持续天数,这为分析项目的曝光稳定性提供了量化依据。此外,数据集明确标注了每条记录的数据来源,并处理了诸如周内列表更替等边缘情况,保证了数据描述的透明性与准确性。
使用方法
对于希望利用此数据集的研究者或开发者而言,其使用方法清晰而直接。数据集以Parquet格式提供,可通过Hugging Face Datasets库高效加载。用户应主要关注当前数据集中的`data.parquet`文件,而历史的分周CSV布局已归档至独立仓库。在使用时,需留意数据列的含义,例如`space_id`为收录时的标识,后续作者更名不会同步更新;`source`字段则指明了该周数据的采集方式。该数据集适用于社区分析、项目影响力追踪或作为推荐系统训练数据等场景,其附带的原始观测日志数据集则为更深入的数据溯源提供了可能。
背景与挑战
背景概述
在人工智能与开源社区协同发展的浪潮中,Hugging Face平台作为机器学习模型与数据集共享的核心枢纽,其‘每周精选空间’栏目自2020年起便成为展示创新应用与前沿实践的重要窗口。数据集‘spaces-of-the-week’由社区贡献者hysts-bot-data团队于2024年系统构建,旨在整合五年间每周精选的Hugging Face Spaces项目,形成一个统一、可追溯的历史记录库。该数据集的核心研究问题聚焦于如何系统化追踪与归档社区驱动的应用演化轨迹,为研究开源生态中的项目流行度、技术趋势及社区协作模式提供了宝贵的纵向数据支撑,对机器学习应用部署与社区动力学研究产生了显著影响。
当前挑战
该数据集致力于解决社区应用精选项目的动态追踪与归档问题,其挑战在于精选空间列表随时间频繁更迭,且平台界面与数据接口历经多次变更,导致历史数据存在碎片化与不一致性。构建过程中,研究人员面临多重技术障碍:早期数据仅依赖静态CSV文件,缺乏实时性;中期需从HTML页面爬取并过滤短期展示的填充项目,以提升数据可靠性;后期虽转向官方API作为数据源,但接口响应可能包含同一周内的替换条目,造成数据冗余。此外,数据集需处理空间ID与标题的后续变更,保持发布时原始状态的准确性,这要求精细的数据管道设计与多源数据融合策略。
常用场景
经典使用场景
在机器学习社区生态分析领域,Spaces of the Week数据集提供了长达五年的Hugging Face Spaces每周精选记录,其经典使用场景聚焦于追踪和量化社区内交互式应用的趋势演变。研究者可依据每周精选的Space ID、创建时间及持久性等字段,系统分析模型演示、工具开发及创意项目的流行度动态,从而揭示技术热点与用户偏好的周期性规律。
实际应用
在实际应用中,该数据集被平台运营者用于优化内容推荐策略,通过历史精选模式预测新兴技术领域的关注度。开发者则可借鉴过往成功案例的设计思路,提升Space项目的可见性与交互性;同时,教育机构能利用其筛选教学范例,构建机器学习应用的可视化课程资源,促进实践性学习。
衍生相关工作
围绕该数据集衍生的经典工作包括社区趋势可视化工具的开发,如基于每周精选数据的交互式仪表盘,以及采用时间序列方法预测模型流行度的学术研究。此外,部分研究利用其构建了跨项目协作网络图谱,分析了开源生态中知识传播的路径,这些工作深化了对AI工具社会化应用的理解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作