avps
收藏Hugging Face2026-05-23 更新2026-05-24 收录
下载链接:
https://huggingface.co/datasets/opt-nc/avps
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“AVPS OPT-NC - Avis de Vacances de Poste”(OPT-NC 职位空缺公告),包含了新喀里多尼亚邮政和电信办公室(OPT-NC)发布的职位空缺公告信息,并已通过语义嵌入向量进行增强处理。数据集旨在支持语义搜索、文本检索和句子相似性等自然语言处理任务。数据内容主要包括职位公告的文本、元数据以及使用BAAI/bge-m3模型生成的1024维语义嵌入向量。具体字段包括职位ID、用于嵌入的合成文本(标题+职责+技能)、嵌入向量、职位标题、职等/级别、内部部门(全称和缩写)、服务部门、标准化城市(如努美阿、科内)、工作地点、申请截止日期、是否立即可用、网页链接和原始PDF链接等。数据集规模约为30个职位公告,并每日更新以覆盖OPT-NC在data.gouv.nc上发布的所有最新职位。数据集提供了Parquet(主数据集)、CSV(含计算字段)和JSONL(结构化文本和元数据)三种格式。
The dataset is named AVPS OPT-NC - Avis de Vacances de Poste (OPT-NC Job Vacancy Announcements), containing job vacancy announcement information published by the New Caledonia Post and Telecommunications Office (OPT-NC), and enhanced with semantic embedding vectors. It aims to support natural language processing tasks such as semantic search, text retrieval, and sentence similarity. The data primarily includes the text of job announcements, metadata, and 1024-dimensional semantic embedding vectors generated using the BAAI/bge-m3 model. Specific fields include job ID, synthetic text for embedding (title + responsibilities + skills), embedding vector, job title, grade/level, internal department (full name and abbreviation), service department, standardized city (e.g., Nouméa, Koné), work location, application deadline, immediate availability, web link, and original PDF link. The dataset size is approximately 30 job announcements and is updated daily to cover all latest positions published by OPT-NC on data.gouv.nc. It is available in three formats: Parquet (main dataset), CSV (with computed fields), and JSONL (structured text and metadata).
创建时间:
2026-05-15
原始信息汇总
数据集概述:AVPS OPT-NC - Avis de Vacances de Poste
该数据集收录了新喀里多尼亚邮电局(OPT-NC)发布的职位空缺通知(Avis de Vacances de Poste, AVP),并经由语义嵌入技术(embeddings)进行了增强处理。
- 语言: 法语 (fr)
- 许可证: CC-BY-4.0
- 数据集大小: 少于1K条记录 (n<1K)
- 任务类别: 句子相似度 (sentence-similarity)、文本检索 (text-retrieval)
- 数据来源: data.gouv.nc
- 官方网站: https://opt-nc.github.io/avps/
- GitHub仓库: opt-nc/avps
数据集内容
数据集提供三种格式的文件:
| 文件名 | 描述 | 格式 |
|---|---|---|
avp_opt_with_embeddings.parquet |
主数据集,包含由 BAAI/bge-m3 模型生成的 1024 维嵌入向量 | Parquet |
avp_opt_enrichi.csv |
经过数据增强的 CSV 文件,包含计算得出的字段(城市、部门、服务) | CSV |
avp_opt_embeddings.jsonl |
JSONL 格式,包含结构化文本和元数据 | JSONL |
主要数据字段:
id: 职位编号(例如 "26-0672")text: 用于生成嵌入向量的结构化文本(标题 + 任务 + 技能)embedding: 由 BAAI/bge-m3 生成的 1024 维嵌入向量 (float32)titre: 职位名称corps_grade: 职位所属的职系或职级direction_interne: OPT-NC 内部部门全称direction_interne_acronyme: 部门缩写(如 DT, DPSP, DSI)service: 内部服务(如适用)ville: 标准化后的城市名称(如 Nouméa, Koné)lieu_travail: 工作地点的完整地址date_cloture: 申请截止日期disponible_immediatement: 布尔值,表示职位是否可立即就任url: 职位详情页面的链接url_pdf: 原始 PDF 文件的链接
统计信息
- 职位数量: 约 30 个,每日更新
- 时间范围: 当前正在发布的职位
- 更新频率: 通过 GitHub Actions 每日更新
- 覆盖范围: data.gouv.nc 上发布的所有 OPT-NC 职位
嵌入模型
- 模型: BAAI/bge-m3
- 向量维度: 1024
- 向量归一化: 是(可直接用于余弦相似度计算)
- 语言: 多语言(针对法语优化)
数据处理流程
- 从 data.gouv.nc 提取原始 Parquet 数据
- 使用 marker-pdf 将 PDF 转换为 Markdown 格式
- 数据增强:标准化城市名称,提取部门/服务信息
- 结构抽取:提取关键章节(任务、技能、活动)
- 使用 BAAI/bge-m3 模型生成嵌入向量
- 导出为 CSV、JSONL、Parquet 格式
- 自动发布至 Hugging Face
使用指引
- 加载数据集: 可使用
datasets库加载,或使用pandas读取 Parquet 文件。 - 语义搜索: 可使用
sentence-transformers库和BAAI/bge-m3模型对查询进行编码,并通过余弦相似度进行检索。 - 探索性分析: 可进行按部门、城市、是否可立即就任等维度的统计分析。
搜集汇总
数据集介绍

构建方式
该数据集源自新喀里多尼亚邮政与电信局(OPT-NC)公开发布的职位空缺通知(Avis de Vacances de Poste),经由自动化流水线精心构建而成。系统从data.gouv.nc平台提取原始Parquet格式数据,通过marker-pdf工具将PDF文档转换为Markdown结构,继而执行地点标准化、部门与分支机构的实体抽取等数据清洗与富化操作。最终,利用BAAI/bge-m3多语言嵌入模型将经过结构化的文本信息(含职位标题、职责描述与技能要求)转换为维度为1024的归一化语义向量,并以Parquet、CSV和JSONL三种格式发布,便于下游任务直接调用。整个过程由GitHub Actions每日自动触发,确保数据集的时效性与持续性更新。
特点
此数据集专为法语的句子相似度计算与文本检索任务设计,核心特点在于其预置的高质量语义嵌入向量。每个职位记录不仅包含详尽的元数据字段(如职位编号、单位、地点、截止日期、即时可到岗标志等),还附带由BAAI/bge-m3模型生成的1024维标准嵌入,使研究者可即时开展余弦相似度语义搜索,无需额外投入嵌入计算成本。数据集规模虽小(约30条记录),但覆盖了OPT-NC旗下所有在招岗位,更新频率高达每日一次,兼具精准性与时效性。CC-BY-4.0许可协议进一步保障了数据在学术与商业场景中的合规复用。
使用方法
用户可通过HuggingFace Datasets库轻松加载数据集,推荐使用Parquet格式文件以获得高效的嵌入向量存取体验。加载后,即可采用Python进行数据分析和语义检索:利用sentence-transformers库加载相同的BAAI/bge-m3模型对用户查询进行编码,继而借助scikit-learn的余弦相似度函数计算查询嵌入与数据集中所有嵌入的匹配分数,从而快速返回最相关的职位推荐。此外,数据集还支持按部门、地点、即时可到岗状态等维度进行探索性统计,满足个性化筛选与宏观分析需求。所有操作均在开源生态内无缝完成,门槛低且可复现性强。
背景与挑战
背景概述
在公共部门人力资源管理领域,职位空缺公告的高效检索与匹配是优化招聘流程的关键环节。AVPS(Avis de Vacances de Poste)数据集由新喀里多尼亚邮政与电信办公室(OPT-NC)于近期创建,旨在将分散的职位公告转化为结构化、可语义检索的语料库。该数据集依托法国政府开放数据平台data.gouv.nc的原始来源,由OPT-NC技术团队主导开发,聚焦于解决小语种(法语)环境下职位描述与候选人技能之间的精准匹配问题。其核心研究问题在于如何利用语义嵌入技术提升法语职位公告的检索效率,尤其适用于新喀里多尼亚地区的本地化就业场景。通过引入BAAI/bge-m3多语言嵌入模型,该数据集为公共部门招聘系统的智能化升级提供了基准资源,对推动法语区小规模机构的招聘数字化转型具有示范意义。
当前挑战
该数据集所应对的领域挑战主要源于传统职位公告检索的局限性:在信息过载的招聘市场中,基于关键词的匹配系统难以捕捉职位描述与候选人背景之间的深层语义关联,尤其在法语这种形态丰富的语言中,同义词、缩写及行业术语的多样性加剧了这一困境。此外,构建过程亦面临多重障碍:数据源来自政府开放平台,原始格式为PDF等非结构化文档,需通过marker-pdf工具进行大规模的格式转换与文本清洗;有限的数据规模(约30条记录)使得模型训练与评估受限于统计显著性;每日自动更新的流水线要求兼顾实时性与数据质量,同时需处理地名、部门名称的标准化问题,这些挑战共同构成了确保数据集可用性与鲁棒性的核心难点。
常用场景
经典使用场景
在法语自然语言处理与公共就业信息检索领域,AVPS数据集凭借其结构化的招聘公告文本与预计算的高维语义嵌入向量,成为语义搜索与文本相似度计算的典范资源。研究者常利用该数据集构建基于余弦相似度的职位检索系统,通过用户查询如‘具备市场营销与行政管理能力的部门主管’等自然语言表述,从约30条实时更新的岗位公告中精准匹配最相关的职位信息。数据集提供的标准化文本字段包含职位名称、核心职责与所需技能,结合BAAI/bge-m3多语言嵌入模型生成的1024维向量,使得跨语言与细粒度语义匹配成为可能,为法语区小而美的垂直领域检索任务提供了高质量的实验平台。
实际应用
在实际应用中,AVPS数据集为法属新喀里多尼亚邮政电信公署的职位发布与人才匹配流程注入了智能化动力。借助该数据集,人力资源部门可以部署一个基于自然语言查询的职位推荐工具,候选人无需熟悉复杂的职位编码体系,仅用自然语言描述自身技能与职业期望,系统便能实时返回最匹配的开放岗位及工作地点、所属部门等关键信息。此外,该数据集支撑的语义搜索功能还整合到自动问答与智能客服场景中,帮助求职者快速获取如‘库内奥地区是否有即时到岗的市场岗位’等具体问题的答案,显著提升了招聘流程的信息获取效率与用户体验。
衍生相关工作
基于AVPS数据集,一系列衍生工作围绕小样本语义检索与公共就业数据挖掘展开。最为突出的是,社区开发者利用该数据集的嵌入向量与GitHub Actions自动化流水线,构建了端到端的实时职位监控与推荐系统,实现了每日从官方数据源提取、文本结构化到向量索引更新的全链路自动化。此外,研究者借鉴该数据集的处理范式,将类似的‘PDF公告→Markdown结构化→嵌入生成’的Pipeline迁移至其他法语公共机构的数据集建设中,推动了诸如‘服务质量投诉记录’与‘公共招标文件’等垂直领域的语义化改造。这些工作不仅验证了AVPS方案的普适性,也为低资源公共数据的高效利用树立了标杆。
以上内容由遇见数据集搜集并总结生成



