five

ResumeBench

收藏
github2025-10-11 更新2025-10-17 收录
下载链接:
https://github.com/ApplyU-ai/ResumeBench
下载链接
链接失效反馈
官方服务:
资源简介:
ResumeBench是首个符合隐私规范的基准测试数据集,包含2,500份合成简历,覆盖50种模板、30个职业领域和5种语言(英语、中文、西班牙语、法语、德语),通过人工参与流程生成,强调真实性、多样性和隐私合规性,用于评估大型语言模型在多语言简历解析中的表现。

ResumeBench is the first privacy-compliant benchmark dataset. It contains 2,500 synthetic resumes, covering 50 templates, 30 professional fields, and 5 languages including English, Chinese, Spanish, French and German. Generated through a human-in-the-loop workflow, it emphasizes authenticity, diversity and privacy compliance, and is designed to evaluate the performance of large language models (LLMs) in multilingual resume parsing.
创建时间:
2025-10-11
原始信息汇总

ResumeBench 数据集概述

数据集名称

ResumeBench: Beyond Human Labels

核心定位

首个隐私合规的基准测试集,专门用于评估大语言模型在多语言、结构丰富的简历解析任务上的性能

数据集规模

  • 简历数量:2,500份合成简历
  • 模板数量:50种简历模板
  • 职业领域:30个职业领域
  • 语言覆盖:5种语言(英语、中文、西班牙语、法语、德语)

关键特性

  • 生成方式:采用人机协同管道生成,强调真实性、多样性和隐私合规性
  • 模板多样性:包含单栏、双栏和设计格式等多种简历布局
  • 基准类型:结合合成样本和真实世界样本的混合基准
  • 评估范围:评估了24个最先进的大语言模型,包括GPT-4o、代码专业化LLM和VLM

学术认可

  • 会议:EMNLP 2025主会议录用

使用许可

  • 许可证类型:CC BY-NC 4.0(署名-非商业性使用 4.0 国际)
  • 使用范围:仅限非商业研究和教育用途

获取方式

需发送申请邮件至 zijian.ling@applyu.ai,提供以下信息:

  • 全名
  • 邮箱地址
  • 所属机构
  • 数据集使用意图

引用要求

使用本数据集发表的任何成果必须引用相关论文

搜集汇总
数据集介绍
main_image_url
构建方式
在全球化招聘需求日益增长的背景下,ResumeBench采用人机协同的生成流程构建而成。该流程通过精心设计的50种简历模板,覆盖单栏、双栏及设计型布局,结合30个职业领域与5种语言的真实需求,确保生成内容在结构多样性与语义丰富性方面均达到高标准。生成过程中严格遵循隐私合规原则,所有数据均为合成生成,避免了敏感个人信息的泄露,同时通过人工审核提升数据的真实性与可用性。
特点
ResumeBench作为首个专注于多语言简历解析的基准数据集,其显著特点在于涵盖英语、中文、西班牙语、法语和德语五种语言,有效应对跨语言场景下的复杂性。数据集包含2,500份合成简历,模板多样性高,且融合了合成样本与真实世界样本,为评估大语言模型在结构对齐、多语言鲁棒性及语义推理方面的表现提供了全面支持。该数据集已用于评估包括GPT-4o、代码专用大模型及视觉语言模型在内的24种前沿模型,揭示了模型在实际应用中的潜在挑战。
使用方法
ResumeBench专为非商业研究与教育目的设计,用户需遵循CC BY-NC 4.0许可协议。访问数据集前,需通过电子邮件提交个人姓名、邮箱、所属机构及使用意图至指定联系人,经审核同意后方可获取。在使用过程中,任何基于该数据集的出版物均需引用相关论文,以确保学术规范的遵守。数据集支持对大语言模型在简历解析任务上的性能评估,用户可借助其多语言与结构丰富的特性,开展模型鲁棒性、跨语言泛化能力等方面的实验分析。
背景与挑战
背景概述
在人工智能驱动的全球化招聘浪潮中,简历解析技术作为人力资源智能化的核心环节,长期缺乏专门针对多语言复杂结构文档的评估基准。EMNLP 2025会议收录的ResumeBench数据集应运而生,由国际学术团队通过人机协同流程构建,涵盖50种模板与30个职业领域,以五种语言生成2500份合成简历。该基准首次实现隐私合规与多模态结构的统一,为大规模语言模型的语义解析能力提供了标准化评估框架,推动了智能招聘领域的量化研究进程。
当前挑战
简历解析领域长期面临多语言语义对齐与复杂版式理解的复合难题,传统方法难以兼顾结构化信息抽取与非标准化内容的语义推理。在数据集构建过程中,团队需平衡合成数据的真实性与隐私保护需求,通过人工介入确保跨语言职业术语的一致性,同时解决多栏布局、视觉元素等异质结构对自动化解析造成的干扰。这些挑战直接体现在模型评估阶段的结构化输出偏差与跨语言泛化能力不足等问题上。
常用场景
经典使用场景
在自然语言处理领域,ResumeBench作为首个多语言简历解析基准,主要应用于评估大语言模型在结构化文档理解中的性能。该数据集通过涵盖50种模板布局和30个职业领域,系统测试模型对复杂格式信息的抽取能力,尤其关注跨语言场景下教育背景、工作经历等关键字段的识别精度。
衍生相关工作
该基准已催生系列创新研究,包括基于模板增强的跨语言迁移学习方法、结合视觉-语言模型的多模态简历解析框架,以及针对低资源语言的领域自适应技术。这些工作通过扩展ResumeBench的评估维度,持续推动着文档结构化理解技术的前沿发展。
数据集最近研究
最新研究方向
随着人工智能在人力资源领域的深度渗透,简历解析技术正面临多语言处理与结构化数据理解的重大挑战。ResumeBench作为首个遵循隐私合规原则的多语言简历解析基准,通过融合合成生成与真实样本的混合评估机制,推动了大型语言模型在跨语言鲁棒性、结构对齐能力及语义推理层面的前沿探索。该数据集涵盖五大语言体系与三十个职业领域的设计,不仅揭示了当前模型在复杂简历模板解析中的局限性,更为构建全球化智能招聘系统提供了关键性评估框架,对促进自然语言处理技术在现实场景中的落地应用具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作