five

AI & Tech Jobs Dataset

收藏
github2025-08-06 更新2025-08-07 收录
下载链接:
https://github.com/ilovemyapps/fast-ai-startup-jobs-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
每日更新的数据集,跟踪114+顶级AI/科技公司的932+工程职位。

A daily-updated dataset that tracks more than 932 engineering positions at over 114 leading AI and technology companies.
创建时间:
2025-08-06
原始信息汇总

AI & Tech Jobs Dataset 概述

🎯 数据集简介

  • 目的:追踪AI和科技行业的工作机会
  • 更新频率:每日更新(UTC时间10:00)
  • 数据来源:公开的职位发布信息
  • 数据质量:经过清洗、去重和结构化处理
  • 历史记录:跟踪职位生命周期(新增/更新/关闭)

📊 关键统计

  • 活跃职位数:932+
  • 跟踪公司数:114+
  • 职位类型数:13
  • 覆盖地点数:64

🏢 公司分类

AI基础模型(3家公司)

OpenAI, Anthropic, xAI

AI开发者工具(6家公司)

Cursor, Replit, Mintlify, Sourcegraph, Sentry, Stainless API

AI数据与分析(6家公司)

Databricks, MongoDB, AlphaSense, Labelbox, Chalk, Tonic AI

AI安全与企业(5家公司)

Abnormal Security, Vanta, Semgrep, OSO, Kasada

AI硬件与机器人(5家公司)

Anduril, Skydio, Gecko Robotics, SandboxAQ, Shield AI

AI金融科技(4家公司)

Addepar, Ridgeline, Imprint, Extend

AI健康科技(4家公司)

Abridge, Anterior, Tennr, Flagship Pioneering

🗂️ 数据结构

data/ ├── companies/ # 各公司单独文件 │ ├── openai.json # 67个职位 │ ├── anthropic.json # 21个职位 │ ├── databricks.json # 68个职位 │ └── ... └── indexes/ # 优化搜索索引 ├── master.json # 公司概览与统计 ├── by_role.json # 按角色分类的完整职位(725KB) └── by_location.json # 按地点分类的完整职位(516KB)

📋 职位数据格式

json { "role_name": "Forward Deployed Engineer", "location": "San Francisco, CA", "job_link": "https://jobs.ashbyhq.com/openai/...", "employment_type": "FullTime", "team": "Customer Success", "published_date": "2025-08-01", "job_id": "abc123", "first_seen": "2025-08-03", "last_seen": "2025-08-06", "status": "active" }

📈 热门职位

  • 软件工程师:最常见职位
  • 机器学习工程师:高需求
  • Forward Deployed Engineer:面向客户的专门职位
  • 解决方案工程师:增长类别
  • 数据工程师:基础设施重点

🏆 热门招聘公司

  1. Anduril - 140个职位
  2. Databricks - 68个职位
  3. OpenAI - 67个职位
  4. xAI - 57个职位
  5. Pear VC Portfolio - 36个职位

📝 许可证

MIT许可证 - 免费用于商业和研究用途。

⚠️ 免责声明

该数据集包含公开可用的职位发布信息。所有职位列表直接链接至官方公司招聘页面。数据收集过程尊重适当延迟和缓存。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过自动化程序每日抓取114家以上顶尖AI及科技公司的公开职位信息,采用分布式爬虫技术实现对932+个工程类岗位的动态追踪。数据采集后经过严格的清洗流程,包括去重、结构化处理和质量校验,最终以JSON格式存储。系统会记录每个职位的生命周期状态(新增/更新/关闭),并采用MCP优化索引技术构建多维查询体系,确保数据的时效性和完整性。
使用方法
用户可通过三种方式使用数据集:直接浏览单个公司JSON文件获取详细职位列表;利用MCP优化索引文件实现按角色或地理位置的一键式查询;通过HTTP接口或Python代码进行程序化访问。数据集特别推荐开发者使用by_role.json查询特定技术岗位(如机器学习工程师),或通过by_location.json获取区域就业数据(如旧金山地区)。所有数据文件遵循统一JSON schema,包含就业类型、发布日期等标准化字段,支持直接集成到招聘分析系统或人才市场预测模型中。
背景与挑战
背景概述
AI & Tech Jobs Dataset是一个专注于追踪人工智能与科技行业就业机会的开放数据集,由Xiaoshuaifm等研究人员或机构创建并维护。该数据集自2025年起每日更新,覆盖114家以上顶尖AI/科技公司的932多个工程职位,涵盖13种角色类型和64个地理位置。其核心研究问题在于如何实时捕捉和分析快速变化的AI/科技就业市场动态,为求职者、研究人员和市场分析师提供精准的数据支持。该数据集通过结构化处理和优化索引技术,显著提升了职位搜索效率,对人才市场分析和职业规划研究具有重要参考价值。
当前挑战
该数据集面临的主要挑战体现在两个维度:领域问题方面,AI行业职位描述的高度专业化和快速演变特性,使得准确分类和实时更新成为难题;构建过程方面,需要解决多源异构数据的采集清洗、职位生命周期追踪的时效性保证,以及大规模数据索引的查询效率优化等技术挑战。每日更新的机制要求系统具备强大的自动化处理能力和数据质量控制体系,以确保信息的准确性和一致性。
常用场景
经典使用场景
在人工智能与科技行业快速发展的背景下,AI & Tech Jobs Dataset为研究者和从业者提供了实时更新的职位数据资源。该数据集最经典的使用场景包括分析AI领域的人才需求趋势,帮助求职者精准定位高需求职位,同时为企业提供市场招聘策略的数据支持。通过每日更新的职位信息,用户可以追踪不同技术岗位的供需变化,识别行业热点。
解决学术问题
该数据集有效解决了人工智能领域人才市场研究的核心问题,包括技术岗位需求的空间分布、时间演变规律以及行业间差异分析。其结构化数据为量化研究提供了可靠基础,使得学者能够深入探讨技术革新与就业市场之间的动态关系,填补了传统就业数据在实时性和细分领域的空白。
实际应用
在实际应用中,该数据集被广泛用于构建智能职业推荐系统、企业人才竞争分析工具以及区域科技政策制定。招聘平台利用其实时数据优化职位匹配算法,投资机构则通过分析招聘趋势评估科技公司发展潜力。教育机构亦可据此调整人才培养方向,实现产学研的精准对接。
数据集最近研究
最新研究方向
随着人工智能技术的迅猛发展,AI与科技行业的就业市场呈现出前所未有的活力。AI & Tech Jobs Dataset作为一项每日更新的开源数据集,精准捕捉了全球114家顶尖AI科技企业的932余个工程职位动态,为研究者提供了分析行业人才需求趋势的宝贵资源。当前,该数据集在前沿研究中主要聚焦于三个方向:通过机器学习算法预测不同技术岗位的需求波动,揭示AI细分领域如基础模型、开发者工具及健康科技的人才分布特征;结合地理空间数据分析科技人才流动模式与区域创新生态的关联性;以及基于职位生命周期数据构建企业招聘策略评估模型。这些研究不仅为政策制定者优化人才引进政策提供了数据支撑,也为教育机构调整AI相关专业设置提供了市场依据,更助力投资者把握科技行业的人力资本配置趋势。数据集采用的MCP优化索引结构,极大提升了大规模职位数据分析的效率,使其成为劳动力市场研究的标杆性工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作