Mehyaar/Annotated_NER_PDF_Resumes

Name: Mehyaar/Annotated_NER_PDF_Resumes
Creator: Mehyaar
Published: 2024-07-08 23:38:14
License: 暂无描述

Hugging Face2024-07-08 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/Mehyaar/Annotated_NER_PDF_Resumes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含5,029份简历样本，每份简历通过命名实体识别（NER）手动标注了IT技能。数据来源于PDF文件，并以JSON格式提供。每个JSON文件包含两个字段：`text`（从PDF提取的文本）和`annotations`（在文本中标注的IT技能列表，每个标注包括技能的起始位置、结束位置和标签）。该数据集适用于训练和评估NER模型，特别是用于从简历中提取IT技能。

This dataset includes 5,029 curriculum vitae (CV) samples, each annotated with IT skills using Named Entity Recognition (NER). The skills are manually labeled and extracted from PDFs, and the data is provided in JSON format. Each JSON file contains the fields `text` (extracted text from the CV PDF) and `annotations` (a list of IT skills annotated in the text, where each annotation includes the starting position, ending position, and label of the skill). This dataset is ideal for training and evaluating NER models, especially for extracting IT skills from CVs.

提供机构：

Mehyaar

原始信息汇总

IT Skills Named Entity Recognition (NER) Dataset

描述

该数据集包含5,029份简历样本，每份简历都使用**命名实体识别（NER）**标注了IT技能。技能是手动标注并从PDF中提取的，数据以JSON格式提供。该数据集非常适合用于训练和评估NER模型，特别是从简历中提取IT技能。

亮点

5,029份简历样本，标注了IT技能
手动标注IT技能，使用命名实体识别（NER）
从PDF中提取文本并标注IT技能
JSON格式，便于与NLP工具（如Spacy）集成
优秀的资源，用于训练和评估IT技能提取的NER模型

数据集详情

总简历数: 5,029
数据格式: JSON文件
标注: 使用命名实体识别标注的IT技能

数据描述

每个JSON文件包含以下字段：

字段	描述
`text`	从简历PDF中提取的文本
`annotations`	在文本中标注的IT技能列表，每个标注包括：

start: 技能在文本中的起始位置（零基索引）
end: 技能在文本中的结束位置（零基索引，不包括）
label: 实体类型（IT技能）

示例JSON文件

以下是数据集中使用的JSON结构示例：

json { "text": "One97 Communications Limited Data Scientist Jan 2019 to Till Date Detect important information from images and redact required fields. YOLO CNN Object-detection, OCR Insights, find anomaly or performance drop in all possible sub-space. Predict the Insurance claim probability. Estimate the premium amount to be charged B.Tech(Computer Science) from SGBAU university in 2017. M.Tech (Computer Science Engineering) from Indian Institute of Technology (IIT), Kanpur in 2019WORK EXPERIENCE EDUCATIONMACY WILLIAMS DATA SCIENTIST Data Scientist working on problems related to market research and customer analysis. I want to expand my arsenal of application building and work on different kinds of problems. Looking for a role where I can work with a coordinative team and exchange knowledge during the process. Java, C++, Python, Machine Learning, Algorithms, Natural Language Processing, Deep Learning, Computer Vision, Pattern Recognition, Data Science, Data Analysis, Software Engineer, Data Analyst, C, PySpark, Kubeflow.ABOUT SKILLS Customer browsing patterns. Predict potential RTO(Return To Origin) orders for e- commerce. Object Detection.PROJECTS ACTIVITES", "annotations": [ [657, 665, "SKILL: Building"], [822, 828, "SKILL: python"], [811, 815, "SKILL: java"], [781, 790, "SKILL: Knowledge"], [877, 887, "SKILL: Processing"], [194, 205, "SKILL: performance"], [442, 452, "SKILL: Technology"], [1007, 1014, "SKILL: PySpark"], [30, 44, "SKILL: Data Scientist"], ... ] }

用途

该数据集可用于：

训练命名实体识别（NER）模型，以从文本中识别IT技能。
评估NER模型在从简历中提取IT技能方面的性能。
开发新的NLP应用程序，用于技能提取和职位匹配。

搜集汇总

数据集介绍

构建方式

在信息技术领域，简历解析与技能提取已成为人才管理的关键环节。该数据集通过系统化流程构建，从五千余份PDF格式的简历中提取文本内容，并采用人工标注方式对信息技术技能进行命名实体识别标注。标注过程严格遵循实体边界定义，确保每个技能实体的起始位置与标签精确对应，最终以结构化JSON格式整合，为后续自然语言处理任务提供高质量基础。

使用方法

在自然语言处理研究中，该数据集可直接应用于命名实体识别模型的训练与评估。使用者可通过加载JSON文件获取文本及标注序列，利用标注中的字符级位置信息构建序列标注任务。数据集兼容主流NLP框架，如可通过Python代码批量读取并转换为标准IOB格式，进而用于训练BERT、SpaCy等模型，实现从简历文本中自动化提取信息技术技能，支持人才匹配、技能图谱构建等下游应用。

背景与挑战

背景概述

在自然语言处理领域，简历解析与技能抽取是人才招聘与职业分析的核心任务。Mehyaar/Annotated_NER_PDF_Resumes数据集由相关研究人员于近年构建，专注于信息技术领域的命名实体识别。该数据集包含5,029份简历样本，通过人工标注方式对IT技能实体进行精细标记，旨在解决从非结构化文本中自动化提取专业技能的关键问题。其出现推动了简历智能解析技术的发展，为人才匹配、职业市场分析等应用提供了高质量的训练资源，显著提升了实体识别模型在垂直领域的泛化能力。

当前挑战

该数据集致力于解决信息技术领域技能实体识别的挑战，包括技能表述的多样性与上下文依赖性，例如同一技能可能以缩写、全称或同义词形式出现。在构建过程中，面临从PDF格式简历中提取文本时结构信息丢失、版面噪声干扰等难题，同时人工标注需克服领域专业知识要求高、标注一致性维护等障碍。这些因素共同影响了数据集的标注质量与模型训练的稳定性。

常用场景

经典使用场景

在信息技术领域，简历解析与人才技能挖掘已成为人力资源管理和招聘流程中的关键环节。该数据集通过提供大量标注的简历样本，为命名实体识别模型提供了精准的训练基础，使得模型能够从非结构化的简历文本中自动识别并提取信息技术相关的技能实体，如编程语言、框架工具等。这一过程不仅提升了技能提取的自动化水平，还为后续的人才匹配和技能分析奠定了数据基础。

解决学术问题

该数据集有效解决了自然语言处理领域中针对特定领域实体识别的数据稀缺问题。通过提供大规模、高质量的人工标注信息技术技能实体，研究人员能够训练更精准的命名实体识别模型，推动领域自适应和细粒度实体识别技术的发展。其意义在于为学术研究提供了可靠的基准数据，促进了信息技术领域文本挖掘方法的创新，并对人才市场分析和智能招聘系统的理论构建产生了深远影响。

实际应用

在实际应用中，该数据集被广泛集成于智能招聘平台和人力资源管理系统。通过基于该数据集训练的命名实体识别模型，企业能够自动化解析海量简历，快速提取候选人的信息技术技能，实现高效的人才筛选和岗位匹配。这不仅大幅减少了人工审核的时间成本，还提升了招聘的准确性和公平性，为人才市场的数字化和智能化转型提供了技术支持。

数据集最近研究