AI Recruitment Sourcing Dataset

arXiv2025-04-03 更新2025-04-07 收录

下载链接：

https://github.com/vslaykovsky/ai-sourcing-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由AI招聘Sourcing工具性能评估研究团队创建，包含48个搜索查询，用于比较不同AI招聘工具的搜索结果。数据集的搜索查询来源于Pearch.ai平台用户流量数据，经过匿名化和文本聚类处理，以保证查询的多样性和独特性。数据集旨在评估AI招聘工具在候选人相关性方面的性能，解决招聘效率问题，并已公开用于研究。

This dataset was created by a research team focused on performance evaluation of AI recruiting sourcing tools. It contains 48 search queries intended for comparing the search results generated by different AI recruiting tools. The search queries are sourced from the user traffic data of the Pearch.ai platform, and have been processed via anonymization and text clustering to guarantee the diversity and uniqueness of each query. This dataset is designed to assess the performance of AI recruiting tools in terms of candidate relevance and address recruitment efficiency issues, and has been publicly released for research purposes.

提供机构：

不详

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

在人工智能驱动的招聘领域，AI Recruitment Sourcing Dataset的构建采用了多源数据整合与专家评估相结合的方法。研究团队从Pearch.ai的用户流量数据中提取了48个匿名搜索查询，通过文本嵌入和k-means聚类技术确保查询的多样性和独特性。为确保公平性，这些查询被排除在Pearch.ai系统的训练数据之外。随后，研究团队利用LinkedIn Recruiter、JuiceBox、Exa.ai和Pearch.ai等四种招聘工具，通过统一的Web界面收集了1,735条搜索结果，并将所有结果简化为LinkedIn个人资料链接以便后续评估。

特点

该数据集的核心特点在于其多维度评估框架和高质量标注。数据集不仅包含了四种主流招聘工具的搜索结果，还通过人类专家和LLM-judge的双重评估机制，对搜索结果的相关性进行了量化。人类专家团队由八名经验丰富的招聘专家组成，他们基于严格的筛选标准被选中，并通过多数投票机制确保评估的可靠性。同时，LLM-judge的引入为数据集提供了自动化评估的可能性，其与人类专家的高度一致性（Pearson相关系数0.82）进一步验证了数据的科学性。这种双重评估机制使得数据集在招聘工具性能比较方面具有独特的权威性。

使用方法

该数据集的使用主要围绕招聘工具的性能评估展开。研究人员可以通过Elo评分系统对工具进行排名，该系统基于人类专家和LLM-judge的成对比较结果计算得出。数据集中的搜索查询和结果可用于复现研究，或作为基准测试新开发的招聘工具。对于实践者，数据集揭示了AI驱动工具在候选人匹配方面的优越性，特别是Pearch.ai的表现显著优于传统工具。此外，数据集支持进一步研究自动化评估在招聘领域的应用，例如探索LLM-judge在其他人力资源任务中的潜力。

背景与挑战

背景概述

AI Recruitment Sourcing Dataset由Vladimir Slaykovskiy等研究人员于2025年创建，旨在评估AI驱动的招聘寻源工具的性能。该数据集通过比较LinkedIn Recruiter、JuiceBox、Exa.ai及自主研发的Pearch.ai等工具的搜索结果，结合人类专家评估和Elo评分系统，量化了各平台在候选人匹配相关性上的表现。研究表明，AI驱动的工具在候选人匹配上显著优于传统方法，其中Pearch.ai表现最佳。这一数据集为人才招聘领域提供了首个系统性基准测试框架，推动了AI技术在招聘效率提升中的应用。

当前挑战

该数据集面临的核心挑战包括：1) 领域问题方面，传统招聘工具依赖布尔逻辑和关键词过滤，难以捕捉复杂语义查询（如'领导过10人以上销售团队'的隐含要求），而AI工具需证明其语义理解能力能突破此类局限；2) 构建过程中需解决评估一致性问题，通过设计人类专家与LLM-judge的双重评估机制来消除主观偏差，同时处理数据异构性（如不同工具返回的候选人格式差异），需统一转换为LinkedIn链接以确保评估可比性。

常用场景

经典使用场景

在人力资源与人才招聘领域，AI Recruitment Sourcing Dataset为评估AI驱动的招聘工具性能提供了标准化基准。该数据集通过构建48个多样化搜索查询，收集了来自LinkedIn Recruiter、JuiceBox等工具的1,735条候选人搜索结果，并采用Elo评分系统量化工具间的相对效能。其经典使用场景体现在横向对比不同系统在语义理解、候选人匹配精度等核心指标上的表现，例如验证Pearch.ai在匹配“具有3年医疗科技SAAS经验的客户成功经理”等复杂查询时的优越性。

衍生相关工作

该数据集催生了三个方向的衍生研究：一是扩展出Healthcare Talent Benchmark等垂直领域子集，二是衍生出《LLM-as-a-Judge for Technical Recruitment》等评估方法论论文，三是推动PeopleGPT等工具引入对比学习机制。其评估框架更被Chatbot Arena项目迁移至对话系统领域，形成跨任务的通用评估范式。数据集构建中的k-means聚类查询去重技术，也被后续研究改进为基于图神经网络的语义去噪方法。

数据集最近研究