ResumeBench

github2025-10-11 更新2025-10-17 收录

下载链接：

https://github.com/ApplyU-ai/ResumeBench

下载链接

链接失效反馈

官方服务：

资源简介：

ResumeBench是首个符合隐私规范的基准测试数据集，包含2,500份合成简历，覆盖50种模板、30个职业领域和5种语言（英语、中文、西班牙语、法语、德语），通过人工参与流程生成，强调真实性、多样性和隐私合规性，用于评估大型语言模型在多语言简历解析中的表现。

ResumeBench is the first privacy-compliant benchmark dataset. It contains 2,500 synthetic resumes, covering 50 templates, 30 professional fields, and 5 languages including English, Chinese, Spanish, French and German. Generated through a human-in-the-loop workflow, it emphasizes authenticity, diversity and privacy compliance, and is designed to evaluate the performance of large language models (LLMs) in multilingual resume parsing.

创建时间：

2025-10-11

原始信息汇总

ResumeBench 数据集概述

数据集名称

ResumeBench: Beyond Human Labels

核心定位

首个隐私合规的基准测试集，专门用于评估大语言模型在多语言、结构丰富的简历解析任务上的性能

数据集规模

简历数量：2,500份合成简历
模板数量：50种简历模板
职业领域：30个职业领域
语言覆盖：5种语言（英语、中文、西班牙语、法语、德语）

关键特性

生成方式：采用人机协同管道生成，强调真实性、多样性和隐私合规性
模板多样性：包含单栏、双栏和设计格式等多种简历布局
基准类型：结合合成样本和真实世界样本的混合基准
评估范围：评估了24个最先进的大语言模型，包括GPT-4o、代码专业化LLM和VLM

学术认可

会议：EMNLP 2025主会议录用

使用许可

许可证类型：CC BY-NC 4.0（署名-非商业性使用 4.0 国际）
使用范围：仅限非商业研究和教育用途

获取方式

需发送申请邮件至 zijian.ling@applyu.ai，提供以下信息：

全名
邮箱地址
所属机构
数据集使用意图

引用要求

使用本数据集发表的任何成果必须引用相关论文

搜集汇总

数据集介绍

构建方式

在全球化招聘需求日益增长的背景下，ResumeBench采用人机协同的生成流程构建而成。该流程通过精心设计的50种简历模板，覆盖单栏、双栏及设计型布局，结合30个职业领域与5种语言的真实需求，确保生成内容在结构多样性与语义丰富性方面均达到高标准。生成过程中严格遵循隐私合规原则，所有数据均为合成生成，避免了敏感个人信息的泄露，同时通过人工审核提升数据的真实性与可用性。

特点

ResumeBench作为首个专注于多语言简历解析的基准数据集，其显著特点在于涵盖英语、中文、西班牙语、法语和德语五种语言，有效应对跨语言场景下的复杂性。数据集包含2,500份合成简历，模板多样性高，且融合了合成样本与真实世界样本，为评估大语言模型在结构对齐、多语言鲁棒性及语义推理方面的表现提供了全面支持。该数据集已用于评估包括GPT-4o、代码专用大模型及视觉语言模型在内的24种前沿模型，揭示了模型在实际应用中的潜在挑战。

使用方法

ResumeBench专为非商业研究与教育目的设计，用户需遵循CC BY-NC 4.0许可协议。访问数据集前，需通过电子邮件提交个人姓名、邮箱、所属机构及使用意图至指定联系人，经审核同意后方可获取。在使用过程中，任何基于该数据集的出版物均需引用相关论文，以确保学术规范的遵守。数据集支持对大语言模型在简历解析任务上的性能评估，用户可借助其多语言与结构丰富的特性，开展模型鲁棒性、跨语言泛化能力等方面的实验分析。

背景与挑战

背景概述

在人工智能驱动的全球化招聘浪潮中，简历解析技术作为人力资源智能化的核心环节，长期缺乏专门针对多语言复杂结构文档的评估基准。EMNLP 2025会议收录的ResumeBench数据集应运而生，由国际学术团队通过人机协同流程构建，涵盖50种模板与30个职业领域，以五种语言生成2500份合成简历。该基准首次实现隐私合规与多模态结构的统一，为大规模语言模型的语义解析能力提供了标准化评估框架，推动了智能招聘领域的量化研究进程。

当前挑战

简历解析领域长期面临多语言语义对齐与复杂版式理解的复合难题，传统方法难以兼顾结构化信息抽取与非标准化内容的语义推理。在数据集构建过程中，团队需平衡合成数据的真实性与隐私保护需求，通过人工介入确保跨语言职业术语的一致性，同时解决多栏布局、视觉元素等异质结构对自动化解析造成的干扰。这些挑战直接体现在模型评估阶段的结构化输出偏差与跨语言泛化能力不足等问题上。

常用场景

经典使用场景

在自然语言处理领域，ResumeBench作为首个多语言简历解析基准，主要应用于评估大语言模型在结构化文档理解中的性能。该数据集通过涵盖50种模板布局和30个职业领域，系统测试模型对复杂格式信息的抽取能力，尤其关注跨语言场景下教育背景、工作经历等关键字段的识别精度。

衍生相关工作

该基准已催生系列创新研究，包括基于模板增强的跨语言迁移学习方法、结合视觉-语言模型的多模态简历解析框架，以及针对低资源语言的领域自适应技术。这些工作通过扩展ResumeBench的评估维度，持续推动着文档结构化理解技术的前沿发展。

数据集最近研究