JobOffers_ESP

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/MiguelGP-13/JobOffers_ESP

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集收集了在欧洲和西班牙官方就业网站上发布的职位空缺信息，主要通过EURES网络获取。该数据集是为了学术项目而开发，旨在用于分析劳动力市场、文本挖掘和关于公共就业描述的机器学习。数据来自完全开放的公共来源，时间跨度为2025年10月10日至2026年10月26日。部分描述为加泰罗尼亚语。

创建时间：

2025-10-17

原始信息汇总

Ofertas de Empleo Públicas en España (EURES, 2025) 数据集概述

基本信息

数据集名称: Ofertas de Empleo Públicas en España (EURES, 2025)
许可证: CC BY 4.0
语言: 西班牙语
任务类别: 文本分类、句子相似性
规模: 1K<n<10K
数据格式: PARQUET UTF-8

数据集描述

该数据集收集了通过EURES网络在欧洲和西班牙官方就业门户网站发布的招聘信息，作为马德里理工大学数据科学与人工智能学位课程学术项目的一部分开发，旨在用于劳动力市场分析、文本挖掘和机器学习应用。

数据特征

记录数量: 7261条
时间范围: 2025年10月10日至2026年10月26日
数据来源: EURES门户网站和地区就业门户

数据结构

字段	描述	类型
id	标识符	string
timestamp	申请截止日期	string
titulo	职位标题	string
ocupacion	主要职业类别	string
descripcion	完整职位描述	string
provincia	自治区或省份	string
tipo_contrato	合同类型	string

数据收集与处理

收集方法: 使用Playwright库的Python爬虫脚本
处理步骤:
- 日期格式标准化为DD/MM/AAAA
- UTF-8编码转换
- 加泰罗尼亚语文本翻译为西班牙语
- 个人信息匿名化
- 重复数据删除

使用方式

python from datasets import load_dataset ds = load_dataset("MiguelGP-13/JobOffers_ESP", split="empleos")

维护信息

维护者:
- Álvaro Felipe (alvaro.felipe@alumnos.upm.es)
- Miguel Gómez (miguel.gprieto@alumnos.upm.es)
- Alex Pérez (alex.pcarpente@alumnos.upm.es)

引用要求

Álvaro Felipe, Miguel Gómez, Alex Pérez (2025). Ofertas de Empleo Públicas en España (EURES, 2025) [Dataset]. Universidad Politécnica de Madrid. Disponible en Hugging Face Datasets. Licencia CC BY 4.0.

搜集汇总

数据集介绍

构建方式

在劳动力市场研究领域，该数据集通过自动化网络采集技术构建而成。研究团队采用Python环境下的Playwright库开发了专用爬虫脚本，系统性地访问欧洲就业服务网络及西班牙地方就业门户的公开数据。采集过程遵循严格的伦理规范，通过并发控制与等待时间设置避免服务器过载，并运用HTML选择器精准提取职位描述、合同类型等结构化信息，最终将原始数据统一转换为PARQUET格式进行存储。

特点

该数据集呈现出多维度特征价值，其核心在于收录了7261条西班牙公共就业岗位的完整记录。每条数据涵盖职位名称、职业分类、省份分布等关键字段，特别保留了加泰罗尼亚语与西班牙语的双语描述文本。数据经过深度清洗处理，已移除个人隐私信息并统一日期格式，同时通过URL去重机制确保数据唯一性。这种精细加工使得数据集兼具语言学多样性与地域覆盖广度，为跨区域劳动力分析提供了理想样本。

使用方法

面向数据科学应用场景，该数据集支持即插即用的分析流程。研究人员可通过Hugging Face平台直接加载数据集，使用标准代码接口将PARQUET格式数据转换为Pandas DataFrame进行后续处理。该资源特别适用于文本分类、语义相似度计算等自然语言处理任务，也可作为劳动力市场趋势分析的基准数据。数据集遵循CC BY 4.0许可协议，使用者在学术出版物中需按规定格式引用原始作者与机构信息。

背景与挑战

背景概述

在劳动力市场数字化转型的背景下，JobOffers_ESP数据集由马德里理工大学数据科学与人工智能专业学生于2025年创建，聚焦于西班牙公共就业领域的文本挖掘研究。该数据集通过欧洲就业服务网络采集了七千余条结构化招聘信息，涵盖职位名称、职业分类、合同类型等关键字段，为分析劳动力市场动态提供了标准化语料库。其学术价值体现在通过公开数据构建跨区域可比性框架，推动了就业政策量化评估方法的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多语言文本分类中加泰罗尼亚语与西班牙语的语义对齐难题，以及非结构化职位描述中合同类型自动识别的准确性问题；在构建过程中，网页爬取面临动态加载内容的解析障碍，数据清洗需处理异构日期格式与缺失字段的规范化，同时要平衡自动化处理与人工校验的精度矛盾。

常用场景

经典使用场景

在劳动力市场分析领域，该数据集为研究西班牙公共就业市场动态提供了结构化文本资源。其核心应用聚焦于通过自然语言处理技术对职位描述进行自动分类，例如基于合同类型或职业领域构建多标签分类模型。文本相似性计算功能支持职位推荐系统的开发，通过语义匹配帮助求职者发现符合其技能背景的工作机会。

衍生相关工作

该数据集已催生多项经典研究工作，包括基于深度学习的职业自动分类系统、结合地理信息的区域性就业趋势预测模型等。在跨语言处理领域，研究者利用其双语特征开发了西班牙语-加泰罗尼亚语翻译模型。部分学者还基于该数据集构建了就业市场知识图谱，实现了职位技能的关联分析。

数据集最近研究