edwarddgao/open-apply-jobs

Name: edwarddgao/open-apply-jobs
Creator: edwarddgao
Published: 2026-05-02 07:29:10
License: 暂无描述

Hugging Face2026-05-02 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/edwarddgao/open-apply-jobs

下载链接

链接失效反馈

官方服务：

资源简介：

Open-Apply Jobs是一个每日更新的开放数据集，包含从公共ATS API（Greenhouse、Lever、Ashby）直接获取的活跃职位发布信息。数据集中的每条记录都可以追溯到招聘公司自己的职业公告板。数据集主要用于文本分类和文本检索任务，涵盖了技术、初创公司、AI/ML、生物技术等领域的职位信息。数据集采用Hive分区的Parquet格式存储，每日自动刷新，并提供了详细的架构和使用示例。

Open-Apply Jobs is a daily-refreshed open dataset of active job postings sourced directly from public ATS APIs (Greenhouse, Lever, Ashby). Every record can be traced back to the hiring companys own career board. The dataset is primarily used for text classification and text retrieval tasks, covering job information in fields such as technology, startups, AI/ML, and biotech. The dataset is stored in Hive-partitioned Parquet format, automatically refreshed daily, and includes detailed schema and usage examples.

提供机构：

edwarddgao

搜集汇总

数据集介绍

构建方式

在人才招聘领域，公开岗位数据的可获取性与结构化程度长期制约着劳动力市场分析与自然语言处理研究的发展。Open-Apply Jobs数据集以每日自动更新的方式，直接从Greenhouse、Lever和Ashby三大现代ATS（申请人追踪系统）的公开API中采集活跃岗位信息，确保每一条记录均可回溯至招聘公司的官方职业页面。采集流程分为四步：首先通过Common Crawl CDX索引发掘约一万个租户标识；随后以16路并发请求调用各租户的公开JSON接口，仅对瞬时5xx、408、429及网络错误进行重试；接着将异构的ATS记录归一化至统一字段架构，适配逻辑仅约200行代码；最终以zstd压缩的Hive分区Parquet格式发布至HuggingFace，每日UTC时间06:00完成刷新。

特点

该数据集规模介于十万至百万条记录之间，核心优势在于其完整的时间序列语义——每个日期文件夹均为当日活跃岗位的全量快照，而非增量变更，因此可通过对比连续两日快照精准识别新增、下架或修改的职位。schema包含id、source、title、apply_url、description_html、employment_type、department、locations、remote、posted_at及薪资字段，其中薪资结构化程度因ATS而异：Ashby与Lever约30%的记录暴露结构化薪资，而Greenhouse的薪资信息通常嵌入HTML描述中。值得注意的是，数据集覆盖了大量科技、初创、AI/生物技术及知识密集型企业的岗位，但尚未囊括Workday、Oracle Cloud HCM等占据约70%企业岗位但API私有或偏向零售行业的遗留ATS。约30%的租户因已更名或解散而返回404，缺失岗位无显式关闭标记，且跨ATS去重当前不实施。

使用方法

研究人员与开发者可通过HuggingFace datasets库直接加载整个数据集：`load_dataset('edwarddgao/open-apply-jobs')`，该命令会读取所有日期的Parquet文件。若需聚焦最新快照，可利用Hive分区特性结合DuckDB等工具进行高效查询，例如通过`SELECT … FROM read_parquet('hf://…/data/**/*.parquet', hive_partitioning=1) WHERE date = (SELECT MAX(date) …)`仅获取最新一天的活跃岗位。由于数据以日期分区存储，分析岗位动态变化时，只需对连续两个日期文件夹执行外连接即可计算新增、移除与修改的职位集合。对于薪资稀疏（约30%）且存在噪声的问题，建议结合description_html字段进行全文解析以补全薪酬全貌。数据集以MIT协议发布，岗位描述内容版权归雇主所有，在研究与产品用途下按合理使用原则分发，雇主如需移除特定岗位可发起GitHub issue。

背景与挑战

背景概述

Open-Apply Jobs数据集创建于2026年，由研究者edwarddgao主导开发，旨在解决劳动力市场中结构化职位发布数据的稀缺问题。该数据集通过每日自动抓取三大主流申请人追踪系统（ATS）——Greenhouse、Lever和Ashby的公共API，汇聚了涵盖科技、生物技术及知识密集型行业的海量活跃职位信息。其核心研究问题在于为文本分类、信息检索等自然语言处理任务提供动态、可追溯的高质量训练资源，同时支撑劳动力市场分析、薪酬趋势挖掘等跨学科研究。凭借自动化更新机制与统一规范化架构，该数据集在学术界与工业界均展现出显著影响力，成为连接职位市场原始数据与智能化应用的关键桥梁。

当前挑战

该数据集面临的核心挑战在于捕捉庞杂且动态变化的就业市场全貌。首先，由于仅覆盖三个现代ATS系统，约70%的企业职位（如Workday、iCIMS等私有平台上的岗位）未能收录，导致数据代表性受限，尤其在零售或传统行业中信号稀疏。其次，构建过程中遭遇约30%的租户接口失效问题，源于已更名或解散的公司遗留记录，需通过高频刷新与错误容忍策略应对。此外，薪资字段（仅30%含结构化信息）缺失严重，且跨ATS同公司重复岗位缺乏去重机制，为精准分析带来噪声。这些技术与非技术壁垒共同构成了拓宽覆盖面与提升数据质量的双重挑战。

常用场景

经典使用场景

在劳动力市场分析与自然语言处理交叉领域，Open-Apply Jobs数据集为研究者提供了大规模、每日更新的活跃职位招聘信息流。其经典使用场景涵盖基于职位描述的文本分类任务，例如自动识别岗位的雇佣类型（全职、合同、实习）或所属部门，以及通过职位标题与描述中的语义线索进行远程工作属性推断。此外，该数据集的Hive分区Parquet存储格式便于研究者高效地进行时间序列分析，如追踪特定技术岗位（如软件工程师）的需求波动趋势，或通过比较连续日期的快照来挖掘岗位的新增、移除与修改动态，从而构建动态的劳动力市场需求模型。

解决学术问题

该数据集精准回应了学术研究中长期存在的两大痛点：一是缺乏大规模、结构化且来源可追溯的实时职位招聘数据，二是多源异构招聘信息（来自Greenhouse、Lever、Ashby等不同ATS系统）的整合难题。通过提供统一规范的模式（包含职位ID、薪资范围、地理位置、远程属性等字段）并每日自动刷新，研究者得以开展跨公司、跨行业的就业市场流动性分析、技能需求演化追踪以及薪资分布的区域异质性研究。其深远意义在于，它降低了经济与计算社会科学领域获取高质量劳动力市场数据的门槛，推动了数据驱动的劳动经济学与职业发展研究的可信复现。

衍生相关工作

基于Open-Apply Jobs数据集与公开的源代码仓库，已衍生出一系列具有影响力的研究与工程工作。在学术层面，它被用于训练面向招聘领域的词嵌入模型与文本编码器，例如微调BERT或RoBERTa模型以自动识别职位描述中的技能实体与经验要求，推动了信息提取技术在垂直场景的应用。在工程实践中，社区贡献了用于增量快照差异比较的DuckDB分析脚本，以及基于该数据的实时候选人匹配管线。此外，该数据集的收集方法论（通过Common Crawl发现ATS租户）已启发了后续对Workday等封闭系统进行代理爬取的探索性工作，加速了全品类职位数据的开源生态建设。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集