NLx语料库

Name: NLx语料库
Creator: 华盛顿公平增长中心
Published: 2025-10-02 05:27:11
License: 暂无描述

arXiv2025-10-02 更新2025-10-04 收录

下载链接：

https://equitablegrowth.org/working-papers/extracting-onet-features-from-the-nlx-corpus-to-build-public-use-aggregate-labor-market-data/

下载链接

链接失效反馈

官方服务：

资源简介：

NLx语料库是一个包含超过1.55亿在线招聘广告的大型文本语料库，由美国国家劳动力交易所（NLx）研究枢纽提供。该语料库包含了丰富的职业信息，包括O*NET任务、职业代码、工具和技术，以及工资、技能、行业和更多特征。该数据集通过每月活跃工作的职业、州和行业层面的特征进行了汇总，时间跨度为2015年至2025年。NLx语料库被认为是美国最准确、最全面的实时在线招聘广告集合，为研究人员和实践者提供了对劳动力市场的实时洞察。该数据集对于学术研究人员、社区学院和高等教育中的劳动力发展和教育规划专业人员具有重要意义。NLx语料库旨在解决在线招聘广告数据获取困难、缺乏标准化和透明度等问题，为劳动力市场研究提供准确、结构化、及时的数据。

The NLx Corpus is a large-scale text corpus containing over 155 million online job advertisements, curated and provided by the Research Hub of the National Labor Exchange (NLx). It includes rich occupational-related information, such as O*NET task descriptors, occupation codes, tools and technologies employed, as well as wage data, skill requirements, industry classifications and a wide range of other characteristics. This dataset is aggregated at the occupation, state and industry levels based on metrics of monthly active job postings, covering the period from 2015 to 2025. Widely regarded as the most accurate and comprehensive real-time repository of online job advertisements in the United States, the NLx Corpus delivers real-time insights into the labor market for both researchers and industry practitioners. It holds substantial importance for academic researchers, as well as professionals involved in workforce development and education planning at community colleges and institutions of higher education. The NLx Corpus was developed to address key pain points in existing online job advertisement data, including limited accessibility, lack of standardization and insufficient transparency, thereby providing accurate, structured and timely data to support labor market research.

提供机构：

华盛顿公平增长中心

创建时间：

2025-10-02

搜集汇总

数据集介绍

构建方式

NLx语料库的构建依托美国国家劳动力交换研究中心的1550万条在线招聘广告原始数据，采用基于O*NET职业信息网络框架的标准化提取方法。通过自主研发的职位广告分析工具包（JAAT），运用自然语言处理技术将非结构化文本转化为结构化数据，具体包括任务匹配、技能匹配、职位匹配等模块化工具。在数据处理过程中，采用语义相似度计算与人工审核相结合的迭代优化机制，通过嵌入模型对文本特征进行向量化表征，并设定相似度阈值确保数据质量，最终形成包含100亿个数据点的标准化劳动市场数据集。

特点

该数据集最显著的特征在于其与O*NET标准职业分类体系的深度整合，实现了招聘文本与标准化职业要素的精准映射。数据覆盖2015-2025年间的月度活跃职位，包含职业代码、工作任务、技能要求、工具技术等多维特征，并创新性地引入行业、地域和薪酬等关联维度。相较于传统调查数据，该数据集具有实时更新、规模庞大和结构化程度高的优势，同时通过公开的算法工具包确保数据处理过程的透明性和可复现性，为劳动市场研究提供了前所未有的细粒度分析能力。

使用方法

研究人员可通过聚合查询接口获取按职业、行业、地域和时间维度汇总的统计特征，包括任务频率分布、技能需求趋势等核心指标。使用前需进行数据代表性评估，建议结合美国人口普查局和劳工统计局的基准数据进行加权校正。对于微观分析需求，可借助JAAT工具包对原始招聘文本进行定制化特征提取，但需注意不同职业分类的语义匹配阈值可能存在差异。该数据集特别适用于劳动市场动态监测、职业技能演变分析和政策效果评估等研究场景。

背景与挑战

背景概述

NLx语料库由美国国家劳动力交换中心（NLx）研究枢纽于2021年正式推出，旨在构建一个透明、标准化的在线职位空缺数据公共平台。该语料库整合了自2007年以来超过1.55亿条美国在线招聘广告，由非营利机构Direct Employers Association与各州劳动力机构合作管理，得到了美国国家科学基金会和比尔及梅琳达·盖茨基金会的支持。其核心研究问题在于解决传统劳动力市场数据更新滞后、样本量有限的问题，通过结合职业信息网络（O*NET）标准分类体系，为经济学、教育规划和政策制定领域提供高时效性的结构化劳动力需求洞察。该数据集显著推动了劳动力市场研究的范式革新，使实时分析职业任务演变、技能需求动态成为可能。

当前挑战

NLx语料库面临双重挑战：在领域问题层面，需解决传统职业分类体系（如O*NET）更新缓慢、依赖小样本调查的局限性，同时应对在线招聘数据中存在的语义噪声、职位标题与实际职责不匹配等语义鸿沟问题；在构建过程中，技术挑战包括从非结构化文本中精准提取数十亿级数据点的复杂性，例如需开发多阶段自然语言处理模型（如JAAT工具包）来匹配O*NET框架下的任务与技能标签，并克服计算资源限制下的海量文本处理效率瓶颈。此外，数据代表性偏差（如过度覆盖高学历岗位）与隐私保护要求下的原始数据访问限制，进一步增加了构建标准化公共数据集的难度。

常用场景

经典使用场景

在劳动经济学与人力资源管理领域，NLx语料库通过结合O*NET职业分类框架，为研究者提供了从海量在线招聘广告中提取结构化信息的标准化工具。其经典应用场景包括分析职业任务构成、技能需求演变以及劳动力市场动态，例如通过Job Ad Analysis Toolkit (JAAT) 从1.55亿条招聘广告中提取超过100亿个数据点，系统追踪2015至2025年间各职业的任务强度变化与技术暴露度。

解决学术问题

该数据集有效解决了传统调查数据更新滞后、样本量有限的核心瓶颈。通过自然语言处理技术将非结构化招聘文本映射至O*NET标准体系，实现了对职业任务测量、技能需求变迁的纵向研究。其贡献在于构建了透明可复现的数据提取流程，为劳动经济学中技术冲击对就业结构影响、职业极化现象等经典议题提供了高频动态数据支撑。

衍生相关工作

基于该数据集衍生的经典研究包括职业自动化风险评估框架构建、生成式AI对劳动力市场影响的实证分析，以及技能需求空间分布图谱绘制。相关成果推动了O*NET taxonomy与机器学习方法的深度融合，催生了如技能匹配算法优化、职业路径预测模型等创新方向，为数字时代的劳动力研究开辟了新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集