five

open-apply-jobs

收藏
Hugging Face2026-04-19 更新2026-04-20 收录
下载链接:
https://huggingface.co/datasets/edwarddgao/open-apply-jobs
下载链接
链接失效反馈
官方服务:
资源简介:
Open-Apply Jobs 是一个每日更新的开放数据集,包含从公共 ATS API(Greenhouse、Lever、Ashby)直接获取的活跃职位发布信息。每条记录都可以追溯到招聘公司自己的职业公告板。数据集采用 Hive 分区的 Parquet 格式存储,按日期和来源(ATS)进行分区。数据集包含丰富的职位信息字段,如职位标题、申请链接、职位描述(HTML格式)、雇佣类型、部门、工作地点(列表形式)、远程工作标识、发布日期、薪资范围(部分记录)等。数据集适用于文本分类和文本检索任务,尤其适合用于招聘和职位发布相关的应用场景。数据集收集方法包括租户发现、数据获取、规范化和发布四个步骤,确保数据的完整性和一致性。已知的限制包括部分租户获取失败、无职位关闭标识、跨 ATS 的重复职位以及薪资字段的稀疏性和噪声。数据集采用 MIT 许可,但底层职位描述版权归各自雇主所有。
创建时间:
2026-04-17
原始信息汇总

Open-Apply Jobs 数据集概述

数据集基本信息

  • 名称: Open-Apply Jobs
  • 标识符: edwarddgao/open-apply-jobs
  • 许可证: MIT
  • 主要语言: 英语 (en)
  • 任务类别: 文本分类、文本检索
  • 标签: 工作、招聘、greenhouse、lever、ashby、ats
  • 数据规模: 100K < n < 1M
  • 数据格式: Hive分区Parquet文件

数据内容与来源

  • 数据描述: 一个每日刷新的开放数据集,包含直接从公共ATS API(Greenhouse、Lever、Ashby)获取的活跃职位发布。每条记录均可追溯到招聘公司自身的招聘网站。
  • 覆盖范围: 涵盖三个“现代”的开发者友好型ATS。重点覆盖科技、初创公司、AI/ML、生物技术、机构和其他知识密集型行业的雇主。
  • 未覆盖范围: Workday、Oracle Cloud HCM、iCIMS、SuccessFactors、Taleo、SmartRecruiters、Workable、Jobvite。这些系统要么有私有API,要么偏向高容量零售,要么是SMB噪音,要么仅提供HTML源。

更新与存储

  • 更新频率: 每日UTC时间06:00自动刷新。
  • 分区方式: Hive分区Parquet (date=YYYY-MM-DD/source={ats})。
  • 存储结构: 每个 date= 文件夹是该日活跃职位发布的完整快照,而非增量更新。对比两个连续日期的数据可获取新增、删除或修改的职位。
  • 分区布局示例:

data/ ├── date=YYYY-MM-DD/ │ ├── source=greenhouse/part-.parquet │ ├── source=lever/part-.parquet │ └── source=ashby/part-*.parquet ├── date=YYYY-MM-DD/ │ └── ...

数据模式(Schema)

字段 类型 说明
id string {source}:{slug}:{native_id} — 数据集中唯一
source string greenhouse
source_slug string 该ATS上的租户标识(例如 databricks, spacex)
title string 职位标题
apply_url string ATS招聘网站上的规范URL
description_html string? 完整的HTML描述(约100%填充)
employment_type string? 例如 FullTime, Contract, Internship
department string? 自由格式;取决于ATS
locations list[string] 始终为列表;对于完全远程职位可能为空
remote bool? 在可用时提供结构化数据;否则从位置文本推断
posted_at string? ISO 8601 UTC格式
salary_min / salary_max float? 仅Ashby/Lever公开结构化薪酬数据(约30%)。Greenhouse的薪酬信息嵌入在 description_html
salary_currency string? ISO 4217 货币代码(USD, EUR, GBP)
salary_period string? HOUR

使用方法

使用 datasets 库加载

python from datasets import load_dataset ds = load_dataset(edwarddgao/open-apply-jobs)

使用 duckdb 查询最新快照

python import duckdb duckdb.sql(""" SELECT title, source_slug, apply_url, locations FROM read_parquet(hf://datasets/edwarddgao/open-apply-jobs/data//*.parquet, hive_partitioning=1) WHERE date = (SELECT MAX(date) FROM read_parquet( hf://datasets/edwarddgao/open-apply-jobs/data//*.parquet, hive_partitioning=1)) AND Software Engineer = ANY(string_split(title, )) """).show()

收集方法

  1. 租户发现: 针对 boards.greenhouse.io/*jobs.lever.co/*jobs.ashbyhq.com/* 进行Common Crawl CDX查询,并在五个爬取快照中合并。每次刷新约发现10,000个不同的租户。
  2. 获取: 以16路并发调用每个租户的公共JSON招聘板API;仅在发生瞬态5xx/408/429/网络错误时重试。
  3. 规范化: 每个ATS的记录被映射到规范模式(上表)—— 3个适配器函数,总计约200行代码。
  4. 发布: 使用 zstd 压缩,通过 pyarrow.parquet.write_to_dataset 写入每日分区,并通过 huggingface_hub.HfApi.upload_folder 上传。

已知限制

  • 约30%的租户获取失败率: 输入列表中的标识符包含Common Crawl仍引用的已失效/已更名公司。这些返回404并被丢弃。
  • 无墓碑标记: 出现在 date=N 但未出现在 date=N+1 中的职位会直接消失;没有明确的 closed_at 标志。需通过对比计算。
  • 跨ATS未去重: 一家公司在Greenhouse和Lever上发布相同职位将出现两次。实践中罕见。
  • 薪酬字段稀疏且有噪音: 在公开结构化薪酬数据的地方,通过正则表达式从ATS的自由格式 compensationTierSummary 字符串中解析。如需完整信息,请回退到 description_html

许可证与引用

  • 许可证说明: 数据集打包采用MIT许可证。底层的职位描述版权归各自雇主所有,并根据合理使用原则为研究和产品目的而重新分发。
  • 引用格式:

@misc{openapply2026, author = {edwarddgao}, title = {Open-Apply Jobs}, year = {2026}, url = {https://huggingface.co/datasets/edwarddgao/open-apply-jobs} }

相关链接

  • 源代码: https://github.com/edwarddgao/openapply
  • 数据集页面: https://huggingface.co/datasets/edwarddgao/open-apply-jobs
搜集汇总
数据集介绍
main_image_url
构建方式
在招聘数据领域,Open-Apply Jobs数据集通过系统化的自动化流程构建而成。其构建始于利用Common Crawl对主流招聘系统(Greenhouse、Lever、Ashby)的公开职业页面进行租户发现,识别出约一万个独立租户。随后通过高并发调用各租户的公开JSON API获取原始招聘信息,并针对不同招聘系统的数据结构设计了统一的规范化映射方案,将异构数据转换为包含职位标题、描述、薪资等字段的规范模式。最终,经过压缩的Parquet格式数据以日期分区形式每日发布,形成完整的招聘信息快照。
特点
该数据集的核心特征体现在其时效性与结构化设计上。数据每日自动更新,确保了招聘信息的实时性,并以Hive分区格式组织,便于按日期和来源进行高效查询。数据集覆盖了科技、初创企业及知识密集型行业的招聘信息,提供了丰富的结构化字段,如职位类型、工作地点及部分薪资数据。同时,数据保留了完整的HTML描述内容,为深度文本分析提供了可能,但需注意薪资字段的稀疏性及跨平台去重机制的缺失。
使用方法
使用该数据集时,研究人员可通过Hugging Face的datasets库直接加载,或利用DuckDB等工具进行高效的SQL查询,特别适合按日期分区筛选最新数据。典型应用包括追踪特定职位的市场动态、分析招聘趋势或构建职位推荐系统。由于数据以每日全量快照形式存储,通过对比连续日期的分区可识别职位的增减变化。用户需留意数据版权归属,确保在合理使用范围内进行研究与产品开发。
背景与挑战
背景概述
在就业市场与人力资源技术领域,实时、精准的职位信息获取是支撑劳动力市场分析、招聘策略优化及宏观经济研究的关键基础。Open-Apply Jobs数据集由edwarddgao于2026年创建,旨在通过自动化采集来自主流招聘管理系统(ATS)——包括Greenhouse、Lever和Ashby——的公开职位发布数据,构建一个每日更新的开放数据集。该数据集聚焦于技术、初创企业及知识密集型行业,其核心研究问题在于如何系统性地整合多源异构的招聘信息,以支持文本分类、信息检索等自然语言处理任务,并为就业趋势分析提供高质量、可追溯的数据支撑。通过直接对接ATS公开API并采用规范化处理流程,该数据集显著提升了职位数据的时效性与一致性,对人力资源智能化研究及招聘技术发展产生了积极影响。
当前挑战
Open-Apply Jobs数据集所针对的领域问题在于职位信息的高效聚合与结构化分析,其挑战主要体现在数据源的异构性:不同ATS平台的字段定义、数据格式及API规范存在差异,需设计适配器实现统一映射,确保语义一致性。构建过程中的挑战则更为具体:首先,数据采集面临约30%的租户获取失败率,源于公共爬虫索引的陈旧或失效公司标识;其次,数据完整性受限,薪资字段稀疏且噪声显著,仅部分平台提供结构化薪酬信息,多数需从HTML描述中解析;此外,数据集缺乏跨平台去重机制,同一职位在多ATS发布可能导致重复记录,且未显式标记职位关闭时间,需通过日期差分推断变动情况。这些挑战共同制约了数据集的覆盖广度与深度,对下游应用的准确性提出更高要求。
常用场景
经典使用场景
在劳动力市场与招聘分析领域,open-apply-jobs数据集凭借其每日更新的活跃职位发布信息,为研究人员提供了实时、可追溯的数据源。该数据集最经典的使用场景在于支持自然语言处理任务,如文本分类和信息检索,通过对职位标题、描述及元数据的分析,能够深入探究招聘趋势、技能需求变化以及地域分布模式,为学术研究奠定坚实的数据基础。
解决学术问题
该数据集有效解决了招聘市场动态监测中的关键学术问题,包括职位供需的时空演化、技能需求的量化分析以及薪酬结构的模式识别。通过整合来自Greenhouse、Lever和Ashby等主流招聘系统的结构化数据,它使得大规模、细粒度的实证研究成为可能,显著提升了劳动力经济学、计算社会科学等领域研究的时效性与准确性,对理解现代知识型就业市场具有重要理论意义。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,主要集中在智能招聘系统的算法开发上。例如,基于职位描述的语义嵌入模型被用于改进求职匹配精度;利用时序数据预测特定技能需求变化的趋势分析模型;以及结合多源信息进行薪酬公平性评估的偏差检测框架。这些工作不仅拓展了数据集的学术价值,也推动了招聘技术向更自动化、智能化的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作