JobResQA

Name: JobResQA
Creator: Avature机器学习; 加泰罗尼亚理工大学
Published: 2026-01-31 01:06:59
License: 暂无描述

arXiv2026-01-31 更新2026-02-05 收录

下载链接：

https://github.com/Avature/jobresqa-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

JobResQA是由Avature机器学习与加泰罗尼亚理工大学联合构建的多语言问答基准数据集，包含105组合成简历与职位描述对及581个标注问答对，覆盖英语、西班牙语等五种语言。数据通过去标识化与合成管道生成，既保持真实性又确保隐私安全，问题涵盖从基础事实提取到跨文档推理的三级复杂度。该数据集支持人力资源场景下的大语言模型能力评估，尤其关注多语言理解与公平性研究，为AI招聘系统的可靠性测试提供标准化工具。

提供机构：

Avature机器学习; 加泰罗尼亚理工大学

创建时间：

2026-01-31

原始信息汇总

JobResQA 数据集概述

数据集基本信息

数据集名称：JobResQA
核心定位：一个用于评估大语言模型在人力资源特定任务上能力的多语言问答基准。
数据规模：包含 581 个问答对，基于 105 对合成的简历与职位描述。
支持语言：5种语言，包括英语（en）、西班牙语（es）、意大利语（it）、德语（de）和中文（zh）。
数据特性：数据为合成生成，并经过匿名化处理以保护隐私。
许可协议：采用知识共享署名-相同方式共享 2.0 许可协议（CC BY-SA 2.0）。

数据集内容与结构

数据文件

数据集由5个语言特定的TSV文件组成，位于 data/ 目录下：

jobresqa.en.tsv - 英语数据
jobresqa.de.tsv - 德语数据
jobresqa.es.tsv - 西班牙语数据
jobresqa.it.tsv - 意大利语数据
jobresqa.zh.tsv - 中文数据

数据格式

每个TSV文件包含以下字段：example_id、resume_id、resume、jd_id、jd、question、short_answer、explanation、notes、complexity_level、language。

匿名化处理

所有个人身份信息均使用占位符替代，例如 [NAME]、[EMAIL]、[PHONE]、[COMPANY] 等。完整的占位符列表位于 resources/placeholders/ 目录。

任务复杂度分级

数据集中的问答对根据难度分为三个级别：

基础级别：占比 26.5%，涉及基本信息提取。
中级级别：占比 36.7%。
复杂级别：占比 36.8%，涉及跨文档推理。

附加资源与工具

资源目录

resources/prompts/：包含用于问答、评估、数据生成和翻译的LLM提示词。
resources/placeholders/：包含匿名化占位符及其跨语言翻译词典。
resources/mqm_annotation/：包含翻译质量评估的指标、错误分类和人工标注示例。

示例脚本

scripts/ 目录提供了多个实用脚本，包括：

run_qa.py：执行问答任务。
run_eval_qa.py：使用G-Eval评估答案。
run_resume_synthetic_generation.py：生成合成简历。
run_JD_synthetic_generation.py：生成职位描述。
run_translation.py：运行TEaR翻译框架。

公平性考量

数据集在设计时考虑了公平性，包含了受控的人口统计属性，可用于偏见分析。

搜集汇总

数据集介绍

构建方式

在人力资源领域智能化转型的背景下，JobResQA数据集的构建遵循了一条严谨的合成与多语言对齐路径。其核心流程始于从公开招聘平台收集真实的简历与职位描述，并通过语义匹配模型进行初步配对。为确保数据隐私与研究的可控性，原始文本经过实体识别与规则化的去标识化处理，将个人信息与公司标识替换为结构化占位符。随后，利用大型语言模型对去标识化后的内容进行合成生成，在保留原始职业语义与格式的同时，重构出匿名且逼真的简历-职位描述对。最终，通过人工审核与选择性后编辑，对合成文本的格式一致性、性别包容性及占位符标准化进行精细调整，形成了包含105对高质量合成数据的基础语料。

使用方法

JobResQA数据集主要服务于对大语言模型在人力资源特定机器阅读理解任务上的性能评测与研究。使用者可将其应用于多语言问答场景，通过设计零样本或少量样本提示，要求模型基于提供的合成简历与职位描述文本来回答招聘官风格的问题，并生成简洁答案与详细解释。数据集支持以LLM-as-a-Judge的框架进行评估，例如使用G-EVAL等指标，将模型输出与人工标注的参考答案在事实准确性、证据引用和语义一致性上进行比对和评分。此外，研究者可利用数据集中内置的占位符变量，进行受控实验，以探究模型在不同人口统计或职业属性下的表现差异，从而系统性地分析模型公平性与偏差。该数据集为开发与评估简历解析、人岗匹配等高风险人力资源应用提供了可复现的基准测试环境。

背景与挑战

背景概述

随着人工智能在人力资源领域的深入应用，大型语言模型在简历解析、人岗匹配等任务中展现出巨大潜力，但其准确性、公平性与可复现性面临严峻考验。JobResQA数据集由Avature Machine Learning与加泰罗尼亚理工大学的研究团队于2026年共同创建，旨在构建一个多语言、可控偏见的问答基准，专门评估大模型在简历与职位描述上的机器阅读理解能力。该数据集涵盖英语、西班牙语、意大利语、德语和中文五种语言，包含581个问答对，问题复杂度从基础事实提取延伸至跨文档推理，通过合成生成与人工循环翻译流程，在保障数据真实性与隐私的同时，为人力资源系统的公平性研究提供了系统化工具。

当前挑战

JobResQA致力于解决人力资源领域机器阅读理解的核心挑战，即模型在跨语言、跨文档环境下对简历与职位描述进行精准匹配与推理的能力。具体而言，数据集构建需克服多重困难：在领域问题层面，模型需处理从简单事实检索到复杂逻辑推断的多层次问答，并避免在性别、教育背景等维度上产生偏见；在构建过程中，研究团队面临合成数据生成的真实性平衡、多语言翻译的本地化质量保障，以及通过占位符实现属性可控性等多重技术难题，这些挑战共同塑造了数据集的严谨设计与评估价值。

常用场景

经典使用场景

在人力资源智能化转型的背景下，JobResQA数据集为评估大语言模型在简历与职位描述匹配任务中的机器阅读理解能力提供了标准化基准。该数据集通过模拟招聘专员的工作流程，构建了涵盖基础事实提取、多段落理解及跨文档推理三个复杂层次的问答对，使得研究者能够系统性地测试模型在真实招聘场景下的信息处理与逻辑推断效能。其多语言特性进一步拓展了评估维度，为跨文化人力资源系统的开发奠定了数据基础。

解决学术问题

JobResQA致力于解决人力资源领域自然语言处理研究中长期存在的若干关键问题。首先，它通过合成数据生成与去标识化技术，在保证数据真实性的同时有效规避了隐私泄露风险，为敏感领域的研究提供了合规的数据解决方案。其次，数据集内嵌的可控人口统计与职业属性（通过占位符实现），为系统性地量化分析模型在性别、地域、教育背景等维度上的偏见提供了实验框架。此外，其涵盖五种语言的平行语料填补了多语言人力资源问答评估资源的空白，使得研究者能够深入探究模型在不同语言语境下的性能差异与泛化能力。

实际应用

JobResQA数据集的实际应用价值主要体现在推动负责任的人工智能在人力资源领域的落地。基于该基准开发的评估工具，能够辅助企业对其部署的简历解析系统、智能人岗匹配算法或招聘聊天机器人进行性能诊断与偏见审计，确保其决策过程符合公平性与透明性的伦理要求。例如，在跨国企业的全球招聘中，可利用该数据集测试其AI工具对不同语言简历的理解是否一致，避免因语言能力差异导致的不公平筛选。这为遵守欧盟《人工智能法案》等法规提供了技术支撑，助力构建更可信、可靠的人力资源技术生态。

数据集最近研究