People Search Benchmark

github2025-12-17 更新2025-12-19 收录

下载链接：

https://github.com/exa-labs/benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

一个开放的基准数据集，用于评估人员搜索。包含1,400个基于角色的合成查询，涵盖工程、营销、销售、人力资源、设计、产品、金融、法律、数据分析和信任与安全等多个类别。

An open benchmark dataset for personnel search evaluation. It contains 1,400 role-based synthetic queries covering multiple categories including engineering, marketing, sales, human resources, design, product, finance, law, data analysis, trust and safety, etc.

创建时间：

2025-12-17

原始信息汇总

People Search Benchmark 数据集概述

数据集简介

这是一个用于评估人物搜索的开放基准测试数据集，旨在测试搜索API在根据职位、地点和资历查找LinkedIn个人资料方面的性能。

数据集构成

查询总数：1,400条
查询类型：基于角色的合成查询
覆盖范围：跨多个职位职能类别

数据类别与分布

类别	查询数量	示例
`engineering`	365	Software, DevOps, Security
`marketing`	180	Marketing, Brand, Growth
`sales`	160	Sales, BD, Account Management
`people_hr`	100	HR, Recruiting, People Ops
`design`	100	Product Design, UX, Creative
`product`	90	Product Management
`finance`	85	Finance, Accounting, FP&A
`legal`	70	Legal, Compliance, IP
`data_analytics`	70	Data Science, Analytics
`trust_safety`	80	Trust & Safety, Policy

评估指标

指标	描述
R@1	首个结果正确的查询百分比
R@10	前10个结果中包含正确结果的查询百分比
Precision	返回结果中相关结果的百分比

数据格式

数据以JSON格式组织，每个查询条目包含以下字段：

query_id: 查询唯一标识符
text: 查询文本
bucket: 所属类别
metadata: 元数据，包含role_title（职位名称）、role_function（职能）、role_seniority（资历）、geo_name（地理名称）、geo_type（地理类型）

评估标准

采用二元LLM评估对每个结果进行评分：

评分1：个人资料符合所有标准（职位名称、地点、资历）
评分0：个人资料不符合任何一项标准

角色等价规则

接受：同一职能内的变体（如"Security Engineer"与"Application Security Engineer"）
不接受：不同职能间的变体（如"Data Analyst"与"Data Engineer"）

基准测试结果示例

搜索工具	R@1	R@10	Precision	查询数
exa	72.0%	94.5%	63.3%	1399
brave	44.4%	77.9%	30.2%	1373
parallel	20.8%	74.7%	26.9%	1387

使用要求

Python 3.11+
OpenAI API密钥（用于LLM评分）
搜索API凭证

许可证

MIT

搜集汇总

数据集介绍

构建方式

在人力资源与信息技术交叉领域，People Search Benchmark数据集通过精心设计的合成查询构建而成。该数据集涵盖了工程、市场营销、销售、人力资源、设计、产品、金融、法律、数据分析及信任与安全等十大职业类别，共包含1400条基于角色的查询。每条查询均明确标注了职位名称、职能领域、资历级别以及地理位置等元数据，确保了查询的多样性与代表性。数据生成过程严格遵循职业分类标准，旨在模拟真实世界中人才搜索的复杂场景，为评估搜索算法的性能提供了可靠基础。

特点

该数据集的核心特点在于其严谨的评估框架与精细的查询设计。评估指标包括首位命中率、前十命中率及精确率，全面衡量搜索系统在查找LinkedIn个人资料时的效能。查询内容深度融合了角色、地点与资历等多维度信息，并辅以严格的二元LLM评分机制，要求结果必须完全匹配所有标准，杜绝了模糊或部分匹配的情况。此外，数据集明确了角色等价规则，区分了同一职能内的合理变体与不同职能间的差异，增强了评估的准确性与公平性。

使用方法

使用该数据集时，研究人员可通过克隆代码库并安装依赖快速搭建评估环境。数据集提供了Python API与命令行工具两种调用方式，支持集成自定义的搜索器实现。用户需配置相应的搜索API密钥与OpenAI API密钥以执行搜索与LLM评分。评估流程允许限制查询数量、调整每查询结果数，并将结果输出为JSON格式。通过实现符合接口规范的搜索器类，用户可以便捷地测试不同搜索算法在多样化职业查询下的表现，从而优化人才检索系统的精准度与效率。

背景与挑战

背景概述

在信息检索与人才发现领域，精准定位特定职业背景的专业人士始终是一项核心研究课题。People Search Benchmark数据集由Exa Labs于近期创建，旨在构建一个开放的评估基准，专门用于衡量搜索系统在LinkedIn平台上依据职位角色、地理位置及资历级别查找个人资料的效能。该数据集涵盖了工程、营销、销售、人力资源等十大职能类别，共计1400条合成查询，为研究人员和开发者提供了标准化测试环境，以推动人才搜索技术的创新与优化。

当前挑战

该数据集致力于解决人才搜索中的多维度匹配挑战，即如何准确识别同时满足职位职能、地理区域和资历层级三个关键条件的个人资料，这要求搜索算法具备深度的语义理解与上下文推理能力。在构建过程中，挑战主要源于合成查询的生成需模拟真实搜索意图，同时确保评估标准的严格性，例如通过LLM进行二元评分时，要求结果完全符合所有准则，任何部分匹配均被视为无效，这增加了数据标注的复杂性与一致性维护难度。

常用场景

经典使用场景

在信息检索与人才搜索领域，People Search Benchmark数据集为评估基于角色的专业人才搜索算法提供了标准化基准。该数据集通过1,400条涵盖工程、营销、销售等10个职能类别的合成查询，模拟了真实世界中根据职位、地点和资历等维度寻找LinkedIn个人资料的需求。研究人员和开发者利用这一基准，能够系统性地测试搜索API在返回相关性结果方面的性能，特别是在R@1、R@10和精确率等关键指标上的表现，从而推动人才搜索技术的精准化与智能化发展。

实际应用

在实际应用层面，People Search Benchmark数据集被广泛用于优化企业招聘平台、职业社交网络及人力资源科技产品的搜索功能。例如，招聘团队可以借助基于该数据集训练的模型，快速精准地定位符合特定职位要求（如“波士顿的高级薪资专员”）的候选人LinkedIn资料，大幅提升人才筛选的效率和准确性。同时，该数据集也为搜索引擎提供商（如Exa、Brave）提供了性能调优的参照，帮助其改进在专业垂直领域的检索质量，满足市场对高效人才发现工具日益增长的需求。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在检索算法优化与评估方法创新上。例如，基于内置的ExaSearcher、BraveSearcher等搜索器实现，研究者们开发了多种混合检索模型，结合语义匹配与元数据过滤技术以提升R@1指标。同时，在评估方面，严格的LLM二元评分机制启发了对检索结果相关性判定的新范式，促使后续工作探索更细粒度的匹配准则（如资历等效性处理），这些进展共同推动了人才搜索领域向更高精度与可解释性方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集