People Search Benchmark
收藏github2025-12-17 更新2025-12-19 收录
下载链接:
https://github.com/exa-labs/benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
一个开放的基准数据集,用于评估人员搜索。包含1,400个基于角色的合成查询,涵盖工程、营销、销售、人力资源、设计、产品、金融、法律、数据分析和信任与安全等多个类别。
An open benchmark dataset for personnel search evaluation. It contains 1,400 role-based synthetic queries covering multiple categories including engineering, marketing, sales, human resources, design, product, finance, law, data analysis, trust and safety, etc.
创建时间:
2025-12-17
原始信息汇总
People Search Benchmark 数据集概述
数据集简介
这是一个用于评估人物搜索的开放基准测试数据集,旨在测试搜索API在根据职位、地点和资历查找LinkedIn个人资料方面的性能。
数据集构成
- 查询总数:1,400条
- 查询类型:基于角色的合成查询
- 覆盖范围:跨多个职位职能类别
数据类别与分布
| 类别 | 查询数量 | 示例 |
|---|---|---|
engineering |
365 | Software, DevOps, Security |
marketing |
180 | Marketing, Brand, Growth |
sales |
160 | Sales, BD, Account Management |
people_hr |
100 | HR, Recruiting, People Ops |
design |
100 | Product Design, UX, Creative |
product |
90 | Product Management |
finance |
85 | Finance, Accounting, FP&A |
legal |
70 | Legal, Compliance, IP |
data_analytics |
70 | Data Science, Analytics |
trust_safety |
80 | Trust & Safety, Policy |
评估指标
| 指标 | 描述 |
|---|---|
| R@1 | 首个结果正确的查询百分比 |
| R@10 | 前10个结果中包含正确结果的查询百分比 |
| Precision | 返回结果中相关结果的百分比 |
数据格式
数据以JSON格式组织,每个查询条目包含以下字段:
query_id: 查询唯一标识符text: 查询文本bucket: 所属类别metadata: 元数据,包含role_title(职位名称)、role_function(职能)、role_seniority(资历)、geo_name(地理名称)、geo_type(地理类型)
评估标准
采用二元LLM评估对每个结果进行评分:
- 评分1:个人资料符合所有标准(职位名称、地点、资历)
- 评分0:个人资料不符合任何一项标准
角色等价规则
- 接受:同一职能内的变体(如"Security Engineer"与"Application Security Engineer")
- 不接受:不同职能间的变体(如"Data Analyst"与"Data Engineer")
基准测试结果示例
| 搜索工具 | R@1 | R@10 | Precision | 查询数 |
|---|---|---|---|---|
| exa | 72.0% | 94.5% | 63.3% | 1399 |
| brave | 44.4% | 77.9% | 30.2% | 1373 |
| parallel | 20.8% | 74.7% | 26.9% | 1387 |
使用要求
- Python 3.11+
- OpenAI API密钥(用于LLM评分)
- 搜索API凭证
许可证
MIT
搜集汇总
数据集介绍

构建方式
在人力资源与信息技术交叉领域,People Search Benchmark数据集通过精心设计的合成查询构建而成。该数据集涵盖了工程、市场营销、销售、人力资源、设计、产品、金融、法律、数据分析及信任与安全等十大职业类别,共包含1400条基于角色的查询。每条查询均明确标注了职位名称、职能领域、资历级别以及地理位置等元数据,确保了查询的多样性与代表性。数据生成过程严格遵循职业分类标准,旨在模拟真实世界中人才搜索的复杂场景,为评估搜索算法的性能提供了可靠基础。
特点
该数据集的核心特点在于其严谨的评估框架与精细的查询设计。评估指标包括首位命中率、前十命中率及精确率,全面衡量搜索系统在查找LinkedIn个人资料时的效能。查询内容深度融合了角色、地点与资历等多维度信息,并辅以严格的二元LLM评分机制,要求结果必须完全匹配所有标准,杜绝了模糊或部分匹配的情况。此外,数据集明确了角色等价规则,区分了同一职能内的合理变体与不同职能间的差异,增强了评估的准确性与公平性。
使用方法
使用该数据集时,研究人员可通过克隆代码库并安装依赖快速搭建评估环境。数据集提供了Python API与命令行工具两种调用方式,支持集成自定义的搜索器实现。用户需配置相应的搜索API密钥与OpenAI API密钥以执行搜索与LLM评分。评估流程允许限制查询数量、调整每查询结果数,并将结果输出为JSON格式。通过实现符合接口规范的搜索器类,用户可以便捷地测试不同搜索算法在多样化职业查询下的表现,从而优化人才检索系统的精准度与效率。
背景与挑战
背景概述
在信息检索与人才发现领域,精准定位特定职业背景的专业人士始终是一项核心研究课题。People Search Benchmark数据集由Exa Labs于近期创建,旨在构建一个开放的评估基准,专门用于衡量搜索系统在LinkedIn平台上依据职位角色、地理位置及资历级别查找个人资料的效能。该数据集涵盖了工程、营销、销售、人力资源等十大职能类别,共计1400条合成查询,为研究人员和开发者提供了标准化测试环境,以推动人才搜索技术的创新与优化。
当前挑战
该数据集致力于解决人才搜索中的多维度匹配挑战,即如何准确识别同时满足职位职能、地理区域和资历层级三个关键条件的个人资料,这要求搜索算法具备深度的语义理解与上下文推理能力。在构建过程中,挑战主要源于合成查询的生成需模拟真实搜索意图,同时确保评估标准的严格性,例如通过LLM进行二元评分时,要求结果完全符合所有准则,任何部分匹配均被视为无效,这增加了数据标注的复杂性与一致性维护难度。
常用场景
经典使用场景
在信息检索与人才搜索领域,People Search Benchmark数据集为评估基于角色的专业人才搜索算法提供了标准化基准。该数据集通过1,400条涵盖工程、营销、销售等10个职能类别的合成查询,模拟了真实世界中根据职位、地点和资历等维度寻找LinkedIn个人资料的需求。研究人员和开发者利用这一基准,能够系统性地测试搜索API在返回相关性结果方面的性能,特别是在R@1、R@10和精确率等关键指标上的表现,从而推动人才搜索技术的精准化与智能化发展。
实际应用
在实际应用层面,People Search Benchmark数据集被广泛用于优化企业招聘平台、职业社交网络及人力资源科技产品的搜索功能。例如,招聘团队可以借助基于该数据集训练的模型,快速精准地定位符合特定职位要求(如“波士顿的高级薪资专员”)的候选人LinkedIn资料,大幅提升人才筛选的效率和准确性。同时,该数据集也为搜索引擎提供商(如Exa、Brave)提供了性能调优的参照,帮助其改进在专业垂直领域的检索质量,满足市场对高效人才发现工具日益增长的需求。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,主要集中在检索算法优化与评估方法创新上。例如,基于内置的ExaSearcher、BraveSearcher等搜索器实现,研究者们开发了多种混合检索模型,结合语义匹配与元数据过滤技术以提升R@1指标。同时,在评估方面,严格的LLM二元评分机制启发了对检索结果相关性判定的新范式,促使后续工作探索更细粒度的匹配准则(如资历等效性处理),这些进展共同推动了人才搜索领域向更高精度与可解释性方向发展。
以上内容由遇见数据集搜集并总结生成



