five

eu-tech-jobs

收藏
Hugging Face2026-05-01 更新2026-05-02 收录
下载链接:
https://huggingface.co/datasets/Aramente/eu-tech-jobs
下载链接
链接失效反馈
官方服务:
资源简介:
EU Tech Jobs 是一个每日更新的开源数据集,收录了来自欧盟人工智能/科技公司和允许远程工作的欧盟公司的职位信息。数据集包含多个文件:最新职位列表(jobs.parquet)、精选公司列表(companies.parquet)、元数据文件(metadata.json)、历史快照(snapshots/YYYY-MM-DD/)以及每日差异文件(diffs/YYYY-MM-DD-diff.jsonl)。职位数据包含丰富的字段,如职位ID、公司slug、职位标题、申请URL、工作地点、国家列表、远程政策、资历级别、职位类别、薪资范围(如公开)、技术栈、发布时间、抓取时间、职位描述(Markdown格式)等。数据集通过GitHub Actions每日自动更新,数据来源包括公开的ATS API(如Greenhouse、Lever等)和欧盟职位聚合平台。数据集适用于表格分类和文本分类任务,特别适合用于招聘市场分析、职位推荐系统等应用场景。数据采用CC BY 4.0许可,代码采用MIT许可。

EU Tech Jobs is a daily updated open-source dataset that collects job postings from EU AI/tech companies and EU companies that allow remote work. The dataset includes multiple files: the latest job listings (jobs.parquet), a curated list of companies (companies.parquet), metadata files (metadata.json), historical snapshots (snapshots/YYYY-MM-DD/), and daily diff files (diffs/YYYY-MM-DD-diff.jsonl). Job data contains rich fields such as job ID, company slug, job title, application URL, job location, country list, remote policy, seniority level, job category, salary range (if disclosed), tech stack, posting time, scraping time, job description (in Markdown format), etc. The dataset is automatically updated daily via GitHub Actions, with data sourced from public ATS APIs (e.g., Greenhouse, Lever) and EU job aggregation platforms. The dataset is suitable for table classification and text classification tasks, particularly for job market analysis and job recommendation systems. The data is licensed under CC BY 4.0, and the code is licensed under MIT.
创建时间:
2026-04-30
原始信息汇总

EU Tech Jobs 数据集概述

基本信息

  • 数据集名称: EU Tech Jobs
  • 许可证: CC BY 4.0(数据),MIT(流水线代码)
  • 语言: 英语 (en)
  • 数据量: 10K 到 100K 条记录
  • 任务类型: 表格分类、文本分类
  • 标签: 工作、欧洲、科技、人工智能、开放数据、招聘

数据来源与更新

  • 每日更新(每日 07:00 CET 由 GitHub Actions 定时任务触发)
  • 数据来源:公开 ATS API(包括 Greenhouse、Lever、Ashby、Workable、Recruitee、Personio、SmartRecruiters)以及欧盟工作聚合器
  • 明确不抓取 LinkedIn、Indeed、Glassdoor,不提取个人联系信息,不在更严格的许可证下重新发布

数据文件结构

文件路径 内容说明
latest/jobs.parquet 最新快照,包含所有活跃职位
latest/companies.parquet 公司列表(含分类和 ATS 处理方式)
latest/metadata.json 流水线运行元数据(各提取器健康状态、执行时长)
snapshots/YYYY-MM-DD/ 按日期的历史快照
diffs/YYYY-MM-DD-diff.jsonl 每日差异(新增/移除/变更的职位)
feed.xml 新职位的 RSS 2.0 订阅源

Jobs 数据表字段 (Schema)

字段名 类型 说明
id string 基于 slug+url 的 SHA256 前16位,跨日稳定
company_slug string 匹配 companies.parquet 中的公司
title string 职位名称
url string 规范申请链接
location string ATS 报告的职位地点
countries list[string] 国家 ISO 3166-1 alpha-2 编码
remote_policy string onsite / hybrid / remote / remote-eu / remote-global
seniority string intern / junior / mid / senior / staff / principal / exec
role_family string engineering / ml-ai / data / product / design / sales / ops 等
salary_min, salary_max float 薪资范围(如有披露)
salary_currency, salary_period string ISO 4217 货币代码;周期为 year/month/day/hour
visa_sponsorship bool 是否提供签证赞助(如有披露)
stack list[string] 提取的技术关键词
posted_at timestamp 职位发布时间
scraped_at timestamp 数据抓取时间(UTC,秒级精度)
description_md string 清洗后的 Markdown 格式职位描述
source string 提取器名称(greenhouse, lever, ashby 等)

删除请求

如果某公司不希望其职位出现在数据集中,可在源仓库提交 Issue 或发送邮件至 kevin.duchier@gmail.com,7天内将完成删除。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由GitHub Actions构建,每日于07:00 CET自动运行,从Greenhouse、Lever、Ashby、Workable、Recruitee、Personio、SmartRecruiters等公共ATS接口及欧盟职位聚合器中抓取数据。公司信息以YAML文件形式手工策展,支持通过Pull Request扩充。整体流程遵循CC BY 4.0许可协议发布,代码部分则采用MIT许可,确保数据开放、可溯源且合法合规。
特点
数据集具备多项突出特性:每日更新的实时性确保用户始终获取最新职位动态;覆盖欧盟及远程欧盟AI/科技公司,聚焦前沿领域;包含丰富的结构化字段,如远程办公政策、资历等级、技术栈、薪资区间及签证赞助情况;历史快照与每日差异文件支持时间序列分析;所有数据以Parquet格式存储,兼顾压缩效率与查询性能。
使用方法
用户可通过Python的Pandas库直接读取Parquet文件,例如`pd.read_parquet('https://huggingface.co/datasets/Aramente/eu-tech-jobs/resolve/main/latest/jobs.parquet')`;亦可用DuckDB执行SQL查询进行聚合分析。数据集表格包括职位ID、公司标识、标题、地点、国家、远程政策、资历、角色领域、薪资、技术栈等核心列,支持灵活过滤与探索。RSS源提供每日新增职位的即时订阅,方便持续追踪。
背景与挑战
背景概述
eu-tech-jobs数据集由研究者Kevin Duchier于近期构建并维护,旨在系统化收集欧洲人工智能与科技领域的职位信息。该数据集通过每日自动更新的开放数据流,从Greenhouse、Lever等主流ATS系统及欧盟职位聚合平台抓取结构化的招聘信息,涵盖公司概况、职位属性、薪酬范围、技术栈等关键字段。其核心研究问题聚焦于欧洲科技劳动力市场的动态监测与量化分析,为计算社会科学、劳动经济学及人才流动研究提供标准化数据基础。数据集采用CC BY 4.0许可协议发布,并通过GitHub Actions实现管线的自动化运维,已吸引社区贡献者参与公司名录的维护,成为欧洲科技就业领域少有的高时效性公开数据资源。
当前挑战
该数据集面临的挑战具有双重性。一方面,在领域问题层面,欧洲科技就业市场长期缺乏统一、透明的结构化数据来源,不同ATS系统和招聘平台的字段定义分歧严重(如远程政策、薪资披露方式),加之部分企业对数据开放持保守态度,导致跨公司、跨国家的标准化对齐极为困难。另一方面,在构建过程中,数据爬取需应对API限速、字段缺失及反爬机制,同时需设计稳定且可扩展的管道以兼容多源异构数据;如何在不侵犯隐私的前提下保留职位描述的语义完整性,并在每日约10万条记录中高效检测新增、变更与失效的职位快照,对数据治理与版本控制提出了严苛要求。
常用场景
经典使用场景
eu-tech-jobs数据集是研究欧洲人工智能与科技行业劳动力市场的核心数据源,其经典使用场景集中于对技术岗位的时空分布与结构特征进行量化分析。研究者借助该数据集每日更新的职位快照与历史快照,能够追踪远程工作政策、薪资水平、技术栈需求及签证赞助政策在欧洲科技企业中的演变趋势。结合公司分类元数据,可系统探究不同规模企业及行业细分领域(如工程、机器学习、数据科学)的招聘模式,为理解欧洲科技生态的动态提供坚实的数据基础。
实际应用
在实际应用中,eu-tech-jobs成为求职者、招聘平台与企业决策者的重要分析工具。求职者可通过历史薪资趋势与技能要求数据优化职业规划与谈判策略;招聘机构利用其精心维护的公司列表与标准化职位分类,构建精准的人才搜寻模型。企业人力资源部门则能依据行业薪资基准与远程政策分布,动态调整招聘预算与雇佣方案。此外,该数据集的RSS订阅与每日差异追踪功能,使得实时监控新兴技术职位热点与竞争态势成为可能,赋能高效的人才流动市场。
衍生相关工作
围绕eu-tech-jobs数据集衍生了一系列值得关注的研究与实践工作。最直接的经典工作包括构建欧洲技术岗位的知识图谱,用以映射技术栈、公司规模与薪资区间的多重关联;基于历史快照的招聘趋势预测模型,借鉴时间序列分析方法预判特定角色(如AI工程师)的需求增长。此外,数据集的标准化管道设计为多语言职位匹配任务提供了预训练语料,推动了跨欧盟劳动力市场的语义检索系统开发。这些衍生工作不仅放大了原始数据的价值,也催生了欧洲科技就业分析的工具生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作