open-apply-jobs

Hugging Face2026-04-19 更新2026-04-20 收录

下载链接：

https://huggingface.co/datasets/edwarddgao/open-apply-jobs

下载链接

链接失效反馈

官方服务：

资源简介：

Open-Apply Jobs 是一个每日更新的开放数据集，包含从公共 ATS API（Greenhouse、Lever、Ashby）直接获取的活跃职位发布信息。每条记录都可以追溯到招聘公司自己的职业公告板。数据集采用 Hive 分区的 Parquet 格式存储，按日期和来源（ATS）进行分区。数据集包含丰富的职位信息字段，如职位标题、申请链接、职位描述（HTML格式）、雇佣类型、部门、工作地点（列表形式）、远程工作标识、发布日期、薪资范围（部分记录）等。数据集适用于文本分类和文本检索任务，尤其适合用于招聘和职位发布相关的应用场景。数据集收集方法包括租户发现、数据获取、规范化和发布四个步骤，确保数据的完整性和一致性。已知的限制包括部分租户获取失败、无职位关闭标识、跨 ATS 的重复职位以及薪资字段的稀疏性和噪声。数据集采用 MIT 许可，但底层职位描述版权归各自雇主所有。

创建时间：

2026-04-17

原始信息汇总

Open-Apply Jobs 数据集概述

数据集基本信息

名称: Open-Apply Jobs
标识符: edwarddgao/open-apply-jobs
许可证: MIT
主要语言: 英语 (en)
任务类别: 文本分类、文本检索
标签: 工作、招聘、greenhouse、lever、ashby、ats
数据规模: 100K < n < 1M
数据格式: Hive分区Parquet文件

数据内容与来源

数据描述: 一个每日刷新的开放数据集，包含直接从公共ATS API（Greenhouse、Lever、Ashby）获取的活跃职位发布。每条记录均可追溯到招聘公司自身的招聘网站。
覆盖范围: 涵盖三个“现代”的开发者友好型ATS。重点覆盖科技、初创公司、AI/ML、生物技术、机构和其他知识密集型行业的雇主。
未覆盖范围: Workday、Oracle Cloud HCM、iCIMS、SuccessFactors、Taleo、SmartRecruiters、Workable、Jobvite。这些系统要么有私有API，要么偏向高容量零售，要么是SMB噪音，要么仅提供HTML源。

更新与存储

更新频率: 每日UTC时间06:00自动刷新。
分区方式: Hive分区Parquet (date=YYYY-MM-DD/source={ats})。
存储结构: 每个 date= 文件夹是该日活跃职位发布的完整快照，而非增量更新。对比两个连续日期的数据可获取新增、删除或修改的职位。
分区布局示例:

data/ ├── date=YYYY-MM-DD/ │ ├── source=greenhouse/part-.parquet │ ├── source=lever/part-.parquet │ └── source=ashby/part-*.parquet ├── date=YYYY-MM-DD/ │ └── ...

数据模式（Schema）

字段	类型	说明
`id`	string	`{source}:{slug}:{native_id}` — 数据集中唯一
`source`	string	`greenhouse`
`source_slug`	string	该ATS上的租户标识（例如 `databricks`, `spacex`)
`title`	string	职位标题
`apply_url`	string	ATS招聘网站上的规范URL
`description_html`	string?	完整的HTML描述（约100%填充）
`employment_type`	string?	例如 `FullTime`, `Contract`, `Internship`
`department`	string?	自由格式；取决于ATS
`locations`	list[string]	始终为列表；对于完全远程职位可能为空
`remote`	bool?	在可用时提供结构化数据；否则从位置文本推断
`posted_at`	string?	ISO 8601 UTC格式
`salary_min` / `salary_max`	float?	仅Ashby/Lever公开结构化薪酬数据（约30%）。Greenhouse的薪酬信息嵌入在 `description_html` 中
`salary_currency`	string?	ISO 4217 货币代码（`USD`, `EUR`, `GBP`)
`salary_period`	string?	`HOUR`

使用方法

使用 `datasets` 库加载

python from datasets import load_dataset ds = load_dataset(edwarddgao/open-apply-jobs)

使用 `duckdb` 查询最新快照

python import duckdb duckdb.sql(""" SELECT title, source_slug, apply_url, locations FROM read_parquet(hf://datasets/edwarddgao/open-apply-jobs/data//*.parquet, hive_partitioning=1) WHERE date = (SELECT MAX(date) FROM read_parquet( hf://datasets/edwarddgao/open-apply-jobs/data//*.parquet, hive_partitioning=1)) AND Software Engineer = ANY(string_split(title, )) """).show()

收集方法

租户发现: 针对 boards.greenhouse.io/*、jobs.lever.co/*、jobs.ashbyhq.com/* 进行Common Crawl CDX查询，并在五个爬取快照中合并。每次刷新约发现10,000个不同的租户。
获取: 以16路并发调用每个租户的公共JSON招聘板API；仅在发生瞬态5xx/408/429/网络错误时重试。
规范化: 每个ATS的记录被映射到规范模式（上表）—— 3个适配器函数，总计约200行代码。
发布: 使用 zstd 压缩，通过 pyarrow.parquet.write_to_dataset 写入每日分区，并通过 huggingface_hub.HfApi.upload_folder 上传。

已知限制

约30%的租户获取失败率: 输入列表中的标识符包含Common Crawl仍引用的已失效/已更名公司。这些返回404并被丢弃。
无墓碑标记: 出现在 date=N 但未出现在 date=N+1 中的职位会直接消失；没有明确的 closed_at 标志。需通过对比计算。
跨ATS未去重: 一家公司在Greenhouse和Lever上发布相同职位将出现两次。实践中罕见。
薪酬字段稀疏且有噪音: 在公开结构化薪酬数据的地方，通过正则表达式从ATS的自由格式 compensationTierSummary 字符串中解析。如需完整信息，请回退到 description_html。

许可证与引用

许可证说明: 数据集打包采用MIT许可证。底层的职位描述版权归各自雇主所有，并根据合理使用原则为研究和产品目的而重新分发。
引用格式:

@misc{openapply2026, author = {edwarddgao}, title = {Open-Apply Jobs}, year = {2026}, url = {https://huggingface.co/datasets/edwarddgao/open-apply-jobs} }

相关链接

源代码: https://github.com/edwarddgao/openapply
数据集页面: https://huggingface.co/datasets/edwarddgao/open-apply-jobs

搜集汇总

数据集介绍

构建方式

在招聘数据领域，Open-Apply Jobs数据集通过系统化的自动化流程构建而成。其构建始于利用Common Crawl对主流招聘系统（Greenhouse、Lever、Ashby）的公开职业页面进行租户发现，识别出约一万个独立租户。随后通过高并发调用各租户的公开JSON API获取原始招聘信息，并针对不同招聘系统的数据结构设计了统一的规范化映射方案，将异构数据转换为包含职位标题、描述、薪资等字段的规范模式。最终，经过压缩的Parquet格式数据以日期分区形式每日发布，形成完整的招聘信息快照。

特点

该数据集的核心特征体现在其时效性与结构化设计上。数据每日自动更新，确保了招聘信息的实时性，并以Hive分区格式组织，便于按日期和来源进行高效查询。数据集覆盖了科技、初创企业及知识密集型行业的招聘信息，提供了丰富的结构化字段，如职位类型、工作地点及部分薪资数据。同时，数据保留了完整的HTML描述内容，为深度文本分析提供了可能，但需注意薪资字段的稀疏性及跨平台去重机制的缺失。

使用方法

使用该数据集时，研究人员可通过Hugging Face的datasets库直接加载，或利用DuckDB等工具进行高效的SQL查询，特别适合按日期分区筛选最新数据。典型应用包括追踪特定职位的市场动态、分析招聘趋势或构建职位推荐系统。由于数据以每日全量快照形式存储，通过对比连续日期的分区可识别职位的增减变化。用户需留意数据版权归属，确保在合理使用范围内进行研究与产品开发。

背景与挑战

背景概述

在就业市场与人力资源技术领域，实时、精准的职位信息获取是支撑劳动力市场分析、招聘策略优化及宏观经济研究的关键基础。Open-Apply Jobs数据集由edwarddgao于2026年创建，旨在通过自动化采集来自主流招聘管理系统（ATS）——包括Greenhouse、Lever和Ashby——的公开职位发布数据，构建一个每日更新的开放数据集。该数据集聚焦于技术、初创企业及知识密集型行业，其核心研究问题在于如何系统性地整合多源异构的招聘信息，以支持文本分类、信息检索等自然语言处理任务，并为就业趋势分析提供高质量、可追溯的数据支撑。通过直接对接ATS公开API并采用规范化处理流程，该数据集显著提升了职位数据的时效性与一致性，对人力资源智能化研究及招聘技术发展产生了积极影响。

当前挑战

Open-Apply Jobs数据集所针对的领域问题在于职位信息的高效聚合与结构化分析，其挑战主要体现在数据源的异构性：不同ATS平台的字段定义、数据格式及API规范存在差异，需设计适配器实现统一映射，确保语义一致性。构建过程中的挑战则更为具体：首先，数据采集面临约30%的租户获取失败率，源于公共爬虫索引的陈旧或失效公司标识；其次，数据完整性受限，薪资字段稀疏且噪声显著，仅部分平台提供结构化薪酬信息，多数需从HTML描述中解析；此外，数据集缺乏跨平台去重机制，同一职位在多ATS发布可能导致重复记录，且未显式标记职位关闭时间，需通过日期差分推断变动情况。这些挑战共同制约了数据集的覆盖广度与深度，对下游应用的准确性提出更高要求。

常用场景

经典使用场景

在劳动力市场与招聘分析领域，open-apply-jobs数据集凭借其每日更新的活跃职位发布信息，为研究人员提供了实时、可追溯的数据源。该数据集最经典的使用场景在于支持自然语言处理任务，如文本分类和信息检索，通过对职位标题、描述及元数据的分析，能够深入探究招聘趋势、技能需求变化以及地域分布模式，为学术研究奠定坚实的数据基础。

解决学术问题

该数据集有效解决了招聘市场动态监测中的关键学术问题，包括职位供需的时空演化、技能需求的量化分析以及薪酬结构的模式识别。通过整合来自Greenhouse、Lever和Ashby等主流招聘系统的结构化数据，它使得大规模、细粒度的实证研究成为可能，显著提升了劳动力经济学、计算社会科学等领域研究的时效性与准确性，对理解现代知识型就业市场具有重要理论意义。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在智能招聘系统的算法开发上。例如，基于职位描述的语义嵌入模型被用于改进求职匹配精度；利用时序数据预测特定技能需求变化的趋势分析模型；以及结合多源信息进行薪酬公平性评估的偏差检测框架。这些工作不仅拓展了数据集的学术价值，也推动了招聘技术向更自动化、智能化的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

open-apply-jobs

Open-Apply Jobs 数据集概述

数据集基本信息

数据内容与来源

更新与存储

数据模式（Schema）

使用方法

使用 datasets 库加载

使用 duckdb 查询最新快照

收集方法

已知限制

许可证与引用

相关链接

使用 `datasets` 库加载

使用 `duckdb` 查询最新快照