SyntheticResumeData

github2025-10-14 更新2025-10-18 收录

下载链接：

https://github.com/jijunhao/SyntheticResumeData

下载链接

链接失效反馈

官方服务：

资源简介：

SynthResume是一个包含2,994份合成简历的语料库，通过半自动化的LLM驱动生成流程构建。构建过程包括：模板多样性（收集涵盖校园招聘和社会招聘等场景的多样化简历模板，覆盖单列、双列、多列和混合文本图像布局）、内容生成（使用大语言模型填充具有随机但语义合理且格式合规的虚构内容）、结构化标注（每份生成简历首先由Qwen-Max解析和预标注进行布局分析和字段标注，然后人工验证和修正以确保标注质量和一致性）。该数据集有效解决了真实简历标注成本高和隐私敏感性问题，同时显著提高了模型对复杂布局的泛化能力。

SynthResume is a corpus containing 2,994 synthetic resumes, constructed via a semi-automated LLM-driven generation pipeline. Its construction process includes three core stages: template diversification (collecting diverse resume templates covering scenarios such as campus recruitment and social recruitment, with layouts covering single-column, double-column, multi-column, and hybrid text-image layouts), content generation (using large language models to populate fictional content that is random yet semantically reasonable and format-compliant), and structured annotation (each generated resume is first parsed and pre-annotated by Qwen-Max for layout analysis and field labeling, then manually verified and corrected to ensure annotation quality and consistency). This dataset effectively addresses the issues of high annotation costs and privacy sensitivity associated with real resumes, while significantly improving the generalization capability of models for complex layouts.

创建时间：

2025-10-13

原始信息汇总

SyntheticResumeData 数据集概述

数据集简介

SynthResume是一个包含2,994份合成简历的语料库，通过半自动化的LLM驱动生成流程构建。该数据集有效解决了真实简历标注成本高和隐私敏感性问题，同时显著提升了模型对复杂版式的泛化能力。

构建流程

模板多样性：收集整理多样化简历模板，涵盖校园招聘和社会招聘等多种场景，包含单栏、双栏、多栏和混合图文等复杂版式
内容生成：利用大语言模型填充模板，生成随机但语义合理且格式合规的虚构内容
结构化标注：每份生成简历首先通过Qwen-Max进行解析和预标注，完成版式分析和字段标注，随后进行人工验证和修正，确保标注质量和一致性

目录结构

resume_list_pdf：包含合成的简历PDF文件
result_gt：包含对应简历的真实标注结果

应用场景

该数据可用于简历解析、版式分析等下游任务的训练和微调。

搜集汇总

数据集介绍

构建方式

在文档智能领域，真实简历数据的稀缺性与隐私敏感性催生了合成数据生成的需求。SyntheticResumeData通过半自动化流程构建，首先收集涵盖校园招聘与社会招聘场景的多样化模板，包含单栏、双栏及图文混排等复杂版式；继而采用大语言模型生成符合语义逻辑与格式规范的虚构内容填充模板；最终通过预标注与人工校验的双重机制，确保版面分析与字段标注的结构化质量。

特点

该数据集囊括2,994份合成简历，其核心价值在于平衡数据效用与伦理约束。通过精心设计的虚构内容既规避了真实个人信息泄露风险，又保留了简历特有的版式复杂性。标注体系融合自动化解析与人工修正，使数据兼具规模性与精确度，尤其适用于训练模型处理现实场景中异构版式的泛化能力。

使用方法

研究者可借助PDF格式的合成简历及其对应标注开展多模态任务探索。resume_list_pdf目录提供原始文档，result_gt目录包含经过验证的标注真值，支持端到端的简历解析模型训练。该资源适用于文档布局分析、信息抽取等下游任务，为提升模型在复杂版式下的鲁棒性提供标准化基准。

背景与挑战

背景概述

随着数字化招聘流程的普及，简历解析技术成为人力资源智能化管理的核心需求。SyntheticResumeData数据集由研究团队于2024年通过半自动化大语言模型驱动流程构建，旨在解决真实简历标注成本高昂与隐私敏感性问题。该数据集涵盖校园招聘与社会招聘等多场景模板，通过结构化标注流程显著提升了模型对复杂版式的泛化能力，为文档智能分析领域提供了关键数据支撑。

当前挑战

在文档智能领域，简历解析需应对多栏混排、图文交错等复杂版式的语义理解难题。数据集构建过程中面临三大挑战：其一，确保生成内容的语义合理性与格式合规性需平衡大语言模型创造力与领域约束；其二，跨模板多样性要求覆盖单双栏及混合布局的泛化表征；其三，标注质量依赖人工校验与自动预标注的协同优化，需维持结构一致性并控制迭代成本。

常用场景

经典使用场景

在文档智能与信息抽取领域，SyntheticResumeData数据集常被用于简历解析与布局分析任务。该数据集通过模拟真实场景中的多样化简历模板，涵盖单栏、双栏及混合图文等复杂版式，为模型训练提供了丰富的结构化文档样本。研究人员利用其标注数据训练深度学习模型，以识别简历中的教育背景、工作经历等关键字段，显著提升了模型对异构版式的适应能力。

解决学术问题

该数据集有效缓解了真实简历数据标注成本高昂与隐私敏感性问题。通过半自动化生成流程，它解决了文档布局分析研究中高质量标注数据稀缺的瓶颈，为复杂版式下的实体识别任务提供了标准化基准。其引入不仅降低了学术研究的准入门槛，更推动了跨领域文档理解模型泛化能力的系统性评估，对文档智能技术发展具有奠基意义。

衍生相关工作

基于该数据集衍生的经典工作包括DocParser等端到端文档解析框架，其通过多模态融合机制提升了混合版式的处理精度。后续研究进一步拓展至跨语言简历分析领域，如ResumeNER系列研究通过迁移学习实现了低资源语言的实体抽取，推动了文档理解技术在全球范围的普惠化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集