job-description-json

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/Rithankoushik/job-description-json

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含80对工作描述及其对应的结构化JSON输出。这些数据用于训练和评估职位解析模型。数据集中的每个样本都包括一份英文工作描述和一个从描述中提取的关键字段的结构化JSON。结构化JSON包括诸如职位名称、组织信息、联系详情、位置、雇佣详情、薪酬、技术技能和软技能、工作经验、资格、认证和语言等各种详细信息。

创建时间：

2025-08-06

原始信息汇总

数据集概述：Job Description to JSON Structured Data

基本信息

许可证: Apache 2.0
语言: 英语 (en)
样本数量: 80对高质量样本

数据集内容

每对样本包含：

职位描述: 自由格式的英文描述 (JD)
结构化JSON: 从JD中提取的关键字段

JSON结构示例

json { "job_titles": ["Sustainability Analyst"], "organization": { "employers": ["HelioCore Energy GmbH"], "websites": [] }, "job_contact_details": { "email_address": ["careers@heliocore.de"], "phone_number": [], "websites": [] }, "location": { "hiring": ["Berlin, Germany"], "org_location": ["Berlin, Germany"] }, "employment_details": { "employment_type": ["Full-time"], "work_mode": ["Hybrid"] }, "compensation": { "salary": [ { "amount_in_text": "€3,000 - €3,600 per month", "time_frequency": "monthly", "parsed": { "min": "3000", "max": "3600", "currency": "EUR" } } ], "benefits": [ "Green mobility stipend", "Learning budget", "Hybrid work flexibility", "Subsidized lunches", "Gym membership" ] }, "technical_skills": [ {"skill_name": "Sustainability reporting"}, {"skill_name": "ESG metrics"}, {"skill_name": "Data visualization"}, {"skill_name": "EU Taxonomy"}, {"skill_name": "Environmental impact analysis"}, {"skill_name": "Power BI"}, {"skill_name": "Excel"}, {"skill_name": "Carbon footprint modeling"} ], "soft_skills": [ "Analytical thinking", "Communication", "Attention to detail", "Team collaboration", "Problem-solving" ], "work_experience": { "min_in_years": 0, "max_in_years": 2, "role_experience": [ { "min_in_years": 0, "max_in_years": 2, "skill": "Sustainability analytics" } ], "skill_experience": [ { "min_in_years": 0, "max_in_years": 2, "skill": "ESG frameworks" }, { "min_in_years": 0, "max_in_years": 1, "skill": "Dashboarding" } ] }, "qualifications": [ { "qualification": ["Bachelors Degree"], "specilization": ["Environmental Science", "Sustainability", "Economics"] } ], "certifications": ["GRI Certified Sustainability Professional"], "languages": ["English", "German"] }

应用场景

用于训练和评估职位解析模型

搜集汇总

数据集介绍

构建方式

在自然语言处理与信息抽取领域，结构化数据生成任务日益重要。本数据集通过人工标注方式构建，涵盖80组高质量职位描述及其对应的JSON结构化输出。每一条数据均由专业标注人员从原始职位描述文本中精准提取关键字段，包括职位名称、机构信息、联系方式、薪资待遇、技能要求和工作经验等，确保了数据的准确性与一致性。

特点

该数据集具有高度结构化和丰富语义注解的特点，覆盖多元化的职位类型与行业背景。其JSON结构设计精细，包含嵌套对象和列表类型字段，能够充分表达职位描述中的复杂关系。数据样本均来源于真实场景，语言为英文，标注质量较高，适用于模型训练与评估，尤其适合信息抽取和文本到结构化数据生成任务。

使用方法

研究人员可将本数据集应用于自然语言处理模型的训练与验证，特别是在职位信息解析和结构化数据生成任务中。数据集支持序列到序列或信息抽取模型的训练，使用者可加载文本描述作为输入，对应JSON作为目标输出。同时，该数据也可用于评估模型的字段提取准确性、结构生成能力和泛化性能。

背景与挑战

背景概述

在自然语言处理与信息抽取领域，结构化招聘文本解析一直是一项具有重要应用价值的研究课题。job-description-json数据集由HelioCore Energy GmbH等机构的研究人员于近年构建，专注于从自由格式的职位描述中自动提取标准化信息。该数据集旨在推动招聘文本的自动化处理技术发展，为人才匹配、人力资源分析及企业招聘流程优化提供关键数据支撑，对智能招聘系统和语义解析模型的研究具有显著影响力。

当前挑战

该数据集核心挑战在于解决非结构化招聘文本中信息的高度异构性与语义模糊性问题，具体包括多类型实体如职位名称、技能要求、薪资范围的精确抽取，以及跨语言语境下表达不一致性的处理。构建过程中面临标注一致性与语义粒度控制的难题，需协调领域专家进行精细标注，确保80对样本中JSON结构与原文语义的高度对齐，同时维持字段体系的扩展性与标准化平衡。

常用场景

经典使用场景

在自然语言处理与信息抽取领域，该数据集为招聘文本的结构化解析提供了基准范例。研究者通过监督学习方式，训练序列标注与文本生成模型，从非结构化的职位描述中精准提取标准化字段，如职位名称、薪资范围、技能要求等，有效支持自动化招聘系统的开发与优化。

实际应用

实际应用中，该数据集支撑了智能招聘平台、人才管理系统以及人力资源自动化工具的开发。企业可藉此构建能自动解析海量职位描述、生成标准化数据报表的系统，极大提升招聘流程的效率与数据一致性，并为人才市场分析、薪酬调研提供结构化数据支持。

衍生相关工作

围绕该数据集，已衍生出多项基于BERT、GPT等预训练模型的细粒度信息抽取研究，例如结合序列标注与模板填充的混合方法、端到端的JSON生成模型。这些工作不仅提升了招聘文本的解析准确率，也为其他垂直领域（如法律文书、医疗报告）的结构化信息抽取提供了可迁移的技术框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集