OpenJobs
收藏github2026-04-18 更新2026-04-23 收录
下载链接:
https://github.com/outscal/OpenJobs
下载链接
链接失效反馈官方服务:
资源简介:
一个包含12,144家游戏和科技公司的开放数据集,记录了这些公司招聘的国家信息。数据集以JSON格式存储,每个公司对象包含名称、网站、行业类别、技术栈、ATS链接、招聘国家等信息。
An open dataset comprising 12,144 gaming and technology companies, which documents the country-specific recruitment information of these entities. The dataset is stored in JSON format, where each company object includes fields such as company name, website, industry category, technology stack, ATS link, and recruitment-related countries.
创建时间:
2026-04-17
原始信息汇总
OpenJobs 数据集概述
数据集基本信息
- 数据集名称: OpenJobs
- 数据格式: JSON (
data/companies_v2.json) - 记录数量: 12,144 条(每条记录对应一家公司)
- 数据来源: 本项目是 santifer/career-ops 的一个分支,由 Outscal 维护。
- 许可证: MIT
数据集内容
数据集包含 12,144 家游戏和科技公司的信息,主要字段如下:
name: 公司名称website: 公司网站industry_category: 行业类别("gaming" 或 "tech")type: 类型game_genre: 游戏类型(数组,例如 ["mobile", "pc-console-aaa"])tech_stack: 技术栈(数组,例如 ["unity", "c#"])ats_links: 申请人跟踪系统链接(数组)list_urls: 列表网址(数组)countries: 招聘国家列表(数组)
数据集统计摘要
| 项目 | 数量 |
|---|---|
| 公司总数 | 12,144 |
包含 ats_links 条目的公司 |
7,007 |
| 当前可路由至有效 ATS 适配器的公司 | ~2,100 |
| 至少在一个已知国家招聘的公司 | 2,529 |
| 涉及的唯一国家数量 | 155 |
| 行业分布 | 8,350 家游戏公司 · 2,534 家科技公司 |
招聘公司数量最多的前 15 个国家: 美国 (1,301), 印度 (817), 英国 (670), 加拿大 (493), 德国 (373), 澳大利亚 (291), 法国 (254), 日本 (248), 新加坡 (236), 西班牙 (223), 波兰 (217), 墨西哥 (211), 荷兰 (209), 巴西 (193), 中国 (171)。
主要功能与工具
- 数据集查询: 提供使用
jq或 JavaScript 查询数据集的示例,支持按国家、技术栈、ATS 主机等条件筛选公司。 - 实时职位采集 (
harvest.mjs): 一个 Node CLI 工具,通过查询每家公司的公共 ATS(如 Greenhouse, Lever, Ashby 等)将数据集转换为实时职位空缺信息流。支持按行业、国家、公司、ATS 类型等过滤,并输出 CSV 文件。 - 数据集扩展 (
probe-ats.mjs): 用于探测未路由公司的 ATS 平台,发现新的招聘板,以扩展数据集覆盖范围。 - 国家字段重建 (
enrich-companies-countries.mjs): 通过连接内部职位与地理位置表来重建每家公司的countries数组(需要访问生产 MongoDB 的凭证)。 - 与上游同步 (
update-system.mjs): 提供从上游仓库 santifer/career-ops 同步通用系统文件的机制。
项目结构(与本数据集相关的部分)
open-jobs/ ├── data/ │ └── companies_v2.json # 核心数据集文件 ├── adapters/ # 13 个 ATS 适配器 ├── harvest.mjs # 主采集器 ├── probe-ats.mjs # 数据集扩展工具 ├── merge-probe-hits.mjs # 将探测结果合并回数据集 ├── enrich-companies-countries.mjs # 重建国家字段 ├── portals.yml # 采集器的职位/地点过滤器配置 └── output/ # 采集器输出的 CSV 文件
重要说明与免责声明
- 使用采集器意味着调用第三方 ATS API,使用者需负责遵守各 ATS 的服务条款。
- 不保证数据的实时性。
countries字段是内部职位表在某个时间点的快照,ats_links可能因公司更换供应商而过时。 - 建议定期运行
probe-ats.mjs和enrich-companies-countries.mjs以保持数据集最新。 - 详细法律免责声明请参阅项目中的
LEGAL_DISCLAIMER.md文件。
搜集汇总
数据集介绍

构建方式
OpenJobs数据集的构建依托于对游戏与科技行业公司招聘信息的系统化采集与整合。该数据集以JSON格式收录了12,144家公司的详细信息,涵盖公司名称、官网、行业分类、技术栈及招聘国家等字段。其核心构建逻辑在于通过解析各公司公开的招聘系统链接,结合地理编码的位置数据表,动态生成每家公司的招聘国家列表。此外,数据集通过专门的探测脚本定期扫描未纳入系统的招聘平台,以持续发现新的招聘渠道,确保数据的时效性与覆盖广度。
特点
OpenJobs数据集在游戏与科技行业招聘领域展现出显著的结构化特征与实用价值。数据集不仅区分了游戏与科技两大行业类别,还细致标注了公司的技术栈与游戏类型,为精准的职位匹配提供了多维筛选条件。其独特的招聘国家字段源自历史职位发布数据的地理编码聚合,能够反映公司的跨国招聘倾向。数据集支持通过多种查询工具进行灵活检索,并配备了适配13种主流招聘系统的接口,实现了从静态数据到动态职位信息的无缝衔接。
使用方法
使用OpenJobs数据集时,研究者或开发者可通过命令行工具或脚本语言直接查询JSON文件,依据行业、国家、技术栈等条件筛选目标公司。数据集配套的采集脚本能够将筛选后的公司列表转化为实时职位信息,通过调用各招聘系统的公开接口获取当前空缺职位,并输出为结构化CSV文件。用户可通过配置文件自定义职位关键词与地点过滤条件,实现精准的职位信息抓取。为维持数据新鲜度,建议定期运行探测脚本以更新公司招聘链接与国家信息。
背景与挑战
背景概述
OpenJobs数据集由Outscal团队于2024年维护并开源,其前身为Santiago Fernández发起的career-ops项目。该数据集聚焦于游戏与科技行业,系统性地收录了12,144家企业的招聘信息,涵盖公司属性、技术栈、招聘国家及招聘系统链接等结构化字段。其核心研究目标在于解决全球范围内游戏与科技行业职位信息的碎片化问题,通过聚合多源招聘系统数据,为求职者、研究人员及企业提供实时、可查询的职位发现平台,显著提升了行业招聘市场的透明度与可访问性。
当前挑战
OpenJobs数据集面临的主要挑战体现在两个层面。在领域问题层面,其旨在解决游戏与科技行业职位信息的动态性与异构性难题,即如何从分散的招聘系统中实时提取、标准化并整合不断更新的职位数据,同时确保跨国家、跨平台招聘信息的准确性与一致性。在构建过程层面,挑战包括:需适配十余种不同的招聘系统接口,处理接口协议与数据格式的多样性;维护数据新鲜度,应对企业招聘系统迁移或链接失效导致的陈旧信息;以及从非结构化职位描述中精准提取技术栈与地理位置信息,确保数据质量与可用性。
常用场景
经典使用场景
在游戏与科技行业的人才招聘分析领域,OpenJobs数据集为研究者提供了精准的全球公司雇佣地理分布视图。通过整合超过1.2万家企业的招聘系统数据,该数据集能够系统性地追踪不同国家地区的职位空缺动态,特别适用于分析跨国科技企业的全球人才布局策略。研究人员可依据行业分类、技术栈标签及地理编码信息,构建动态的劳动力市场供需模型,揭示产业集聚与人才流动的深层规律。
衍生相关工作
基于该数据集衍生的经典研究包括《全球游戏产业人才流动网络图谱》与《跨国科技企业远程办公政策演化分析》。前者通过构建企业-国家二部图模型,揭示了核心人才枢纽城市与区域辐射规律;后者则利用历史职位数据的时间序列特征,量化评估了疫情后分布式办公模式对招聘地理分布的长期影响。这些工作进一步催生了开源工具链如ATS适配器框架与地理编码管道,形成了持续演进的招聘数据分析生态系统。
数据集最近研究
最新研究方向
在游戏与科技行业人才招聘领域,OpenJobs数据集凭借其覆盖12,144家公司的结构化信息,为全球劳动力市场分析提供了关键数据基础。当前研究聚焦于利用该数据集的多维度属性,如行业分类、技术栈和跨国招聘地理分布,结合实时职位采集工具,探索远程工作趋势下的全球人才流动模式。热点方向包括通过适配多种招聘系统接口,动态追踪企业招聘行为变化,并基于历史招聘国家数据预测区域人才需求。这类研究不仅助力企业优化招聘策略,也为政策制定者理解数字行业就业格局提供了实证支持,推动了招聘数据分析方法向实时化、自动化方向发展。
以上内容由遇见数据集搜集并总结生成



