five

People Search Benchmark

收藏
github2025-12-17 更新2025-12-19 收录
下载链接:
https://github.com/exa-labs/benchmarks
下载链接
链接失效反馈
官方服务:
资源简介:
一个开放的基准数据集,用于评估人员搜索。包含1,400个基于角色的合成查询,涵盖工程、营销、销售、人力资源、设计、产品、金融、法律、数据分析和信任与安全等多个类别。

An open benchmark dataset for personnel search evaluation. It contains 1,400 role-based synthetic queries covering multiple categories including engineering, marketing, sales, human resources, design, product, finance, law, data analysis, trust and safety, etc.
创建时间:
2025-12-17
原始信息汇总

People Search Benchmark 数据集概述

数据集简介

这是一个用于评估人物搜索的开放基准测试数据集,旨在测试搜索API在根据职位、地点和资历查找LinkedIn个人资料方面的性能。

数据集构成

  • 查询总数:1,400条
  • 查询类型:基于角色的合成查询
  • 覆盖范围:跨多个职位职能类别

数据类别与分布

类别 查询数量 示例
engineering 365 Software, DevOps, Security
marketing 180 Marketing, Brand, Growth
sales 160 Sales, BD, Account Management
people_hr 100 HR, Recruiting, People Ops
design 100 Product Design, UX, Creative
product 90 Product Management
finance 85 Finance, Accounting, FP&A
legal 70 Legal, Compliance, IP
data_analytics 70 Data Science, Analytics
trust_safety 80 Trust & Safety, Policy

评估指标

指标 描述
R@1 首个结果正确的查询百分比
R@10 前10个结果中包含正确结果的查询百分比
Precision 返回结果中相关结果的百分比

数据格式

数据以JSON格式组织,每个查询条目包含以下字段:

  • query_id: 查询唯一标识符
  • text: 查询文本
  • bucket: 所属类别
  • metadata: 元数据,包含role_title(职位名称)、role_function(职能)、role_seniority(资历)、geo_name(地理名称)、geo_type(地理类型)

评估标准

采用二元LLM评估对每个结果进行评分:

  • 评分1:个人资料符合所有标准(职位名称、地点、资历)
  • 评分0:个人资料不符合任何一项标准

角色等价规则

  • 接受:同一职能内的变体(如"Security Engineer"与"Application Security Engineer")
  • 不接受:不同职能间的变体(如"Data Analyst"与"Data Engineer")

基准测试结果示例

搜索工具 R@1 R@10 Precision 查询数
exa 72.0% 94.5% 63.3% 1399
brave 44.4% 77.9% 30.2% 1373
parallel 20.8% 74.7% 26.9% 1387

使用要求

  • Python 3.11+
  • OpenAI API密钥(用于LLM评分)
  • 搜索API凭证

许可证

MIT

搜集汇总
数据集介绍
main_image_url
构建方式
在人力资源与信息技术交叉领域,People Search Benchmark数据集通过精心设计的合成查询构建而成。该数据集涵盖了工程、市场营销、销售、人力资源、设计、产品、金融、法律、数据分析及信任与安全等十大职业类别,共包含1400条基于角色的查询。每条查询均明确标注了职位名称、职能领域、资历级别以及地理位置等元数据,确保了查询的多样性与代表性。数据生成过程严格遵循职业分类标准,旨在模拟真实世界中人才搜索的复杂场景,为评估搜索算法的性能提供了可靠基础。
特点
该数据集的核心特点在于其严谨的评估框架与精细的查询设计。评估指标包括首位命中率、前十命中率及精确率,全面衡量搜索系统在查找LinkedIn个人资料时的效能。查询内容深度融合了角色、地点与资历等多维度信息,并辅以严格的二元LLM评分机制,要求结果必须完全匹配所有标准,杜绝了模糊或部分匹配的情况。此外,数据集明确了角色等价规则,区分了同一职能内的合理变体与不同职能间的差异,增强了评估的准确性与公平性。
使用方法
使用该数据集时,研究人员可通过克隆代码库并安装依赖快速搭建评估环境。数据集提供了Python API与命令行工具两种调用方式,支持集成自定义的搜索器实现。用户需配置相应的搜索API密钥与OpenAI API密钥以执行搜索与LLM评分。评估流程允许限制查询数量、调整每查询结果数,并将结果输出为JSON格式。通过实现符合接口规范的搜索器类,用户可以便捷地测试不同搜索算法在多样化职业查询下的表现,从而优化人才检索系统的精准度与效率。
背景与挑战
背景概述
在信息检索与人才发现领域,精准定位特定职业背景的专业人士始终是一项核心研究课题。People Search Benchmark数据集由Exa Labs于近期创建,旨在构建一个开放的评估基准,专门用于衡量搜索系统在LinkedIn平台上依据职位角色、地理位置及资历级别查找个人资料的效能。该数据集涵盖了工程、营销、销售、人力资源等十大职能类别,共计1400条合成查询,为研究人员和开发者提供了标准化测试环境,以推动人才搜索技术的创新与优化。
当前挑战
该数据集致力于解决人才搜索中的多维度匹配挑战,即如何准确识别同时满足职位职能、地理区域和资历层级三个关键条件的个人资料,这要求搜索算法具备深度的语义理解与上下文推理能力。在构建过程中,挑战主要源于合成查询的生成需模拟真实搜索意图,同时确保评估标准的严格性,例如通过LLM进行二元评分时,要求结果完全符合所有准则,任何部分匹配均被视为无效,这增加了数据标注的复杂性与一致性维护难度。
常用场景
经典使用场景
在信息检索与人才搜索领域,People Search Benchmark数据集为评估基于角色的专业人才搜索算法提供了标准化基准。该数据集通过1,400条涵盖工程、营销、销售等10个职能类别的合成查询,模拟了真实世界中根据职位、地点和资历等维度寻找LinkedIn个人资料的需求。研究人员和开发者利用这一基准,能够系统性地测试搜索API在返回相关性结果方面的性能,特别是在R@1、R@10和精确率等关键指标上的表现,从而推动人才搜索技术的精准化与智能化发展。
实际应用
在实际应用层面,People Search Benchmark数据集被广泛用于优化企业招聘平台、职业社交网络及人力资源科技产品的搜索功能。例如,招聘团队可以借助基于该数据集训练的模型,快速精准地定位符合特定职位要求(如“波士顿的高级薪资专员”)的候选人LinkedIn资料,大幅提升人才筛选的效率和准确性。同时,该数据集也为搜索引擎提供商(如Exa、Brave)提供了性能调优的参照,帮助其改进在专业垂直领域的检索质量,满足市场对高效人才发现工具日益增长的需求。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,主要集中在检索算法优化与评估方法创新上。例如,基于内置的ExaSearcher、BraveSearcher等搜索器实现,研究者们开发了多种混合检索模型,结合语义匹配与元数据过滤技术以提升R@1指标。同时,在评估方面,严格的LLM二元评分机制启发了对检索结果相关性判定的新范式,促使后续工作探索更细粒度的匹配准则(如资历等效性处理),这些进展共同推动了人才搜索领域向更高精度与可解释性方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作