VietJobs
收藏arXiv2026-03-05 更新2026-03-07 收录
下载链接:
https://github.com/VinNLP/VietJobs
下载链接
链接失效反馈官方服务:
资源简介:
VietJobs是首个大规模公开的越南语招聘广告数据集,由越南维纳大学团队构建,包含48,092条覆盖越南全国34个省市的职位信息,总词汇量达1,540万。数据集涵盖16个职业领域,整合了职位标题、薪资、技能等结构化字段,并通过开源框架Crawl4AI结合GPT-4o等大模型解析生成。其地理与行业多样性支持自然语言处理及劳动力市场分析,尤其适用于越南语低资源场景下的职位分类、薪资预测等任务研究。
VietJobs is the first large-scale publicly available Vietnamese job advertisement dataset, constructed by the team from Vinh University, Vietnam. It contains 48,092 job postings covering 34 provinces and cities across Vietnam, with a total vocabulary size of 15.4 million. The dataset covers 16 occupational domains, integrating structured fields including job title, salary, required skills, and more. It is generated via parsing using the open-source framework Crawl4AI combined with large language models such as GPT-4o. Its geographical and industrial diversity supports research in natural language processing and labor market analysis, and is particularly suitable for studies on tasks such as job classification and salary prediction in low-resource Vietnamese language scenarios.
提供机构:
越南维纳大学·工程与计算机科学学院
创建时间:
2026-03-05
原始信息汇总
VietJobs: 越南语招聘广告数据集概述
数据集简介
VietJobs 是一个专为越南语自然语言处理研究设计的综合性数据集,尤其侧重于招聘广告分析。该数据集支持多种下游任务。
核心特性
- 全面覆盖:涵盖越南全部34个省和直辖市。
- 大规模:包含48,092条招聘广告,总词数超过1500万。
- 多任务就绪:已为分类和回归任务进行预处理。
- 研究就绪:包含训练、评估和微调脚本。
- 大语言模型兼容:格式适用于现代语言模型训练。
支持的任务
- 职位分类:将招聘广告分类到行业领域。
- 薪资估计:根据职位描述预测薪资范围。
- 信息抽取:结构化抽取职位属性。
数据集统计信息
| 指标 | 数值 |
|---|---|
| 招聘广告总数 | 48,092 |
| 总词数 | 15,000,000+ |
| 地理覆盖范围 | 34个省/直辖市 |
| 平均广告长度 | ~321词 |
| 职位类别数 | 16个类别 |
| 时间范围 | 2025年7月 – 2025年10月 |
数据分布详情
- 职位类别:技术、金融、医疗保健、教育、制造业等。
- 经验水平:初级到高级(0–10年以上)。
- 合同类型:全职、兼职、实习、自由职业。
- 薪资范围:1–500百万越南盾。
数据获取与使用
- 主仓库地址:https://github.com/dinhieufam/vietjobs
- 数据集地址:https://huggingface.co/datasets/dinhieufam/VietJobs
- 许可证:MIT 许可证。
仓库结构
data/— 数据集样本和目录结构(完整数据集在HuggingFace)。run_format_prompt.sh— 格式化提示并为训练准备数据。run_finetune_lora.sh— 使用LoRA微调模型。run_evaluation.sh— 运行评估流程。requirements.txt— Python依赖项。
搜集汇总
数据集介绍
构建方式
在越南劳动力市场数字化转型的背景下,VietJobs数据集通过系统化方法构建而成。研究团队于2025年7月利用Crawl4AI开源框架,从越南在线招聘平台TopCV公开页面采集数据,覆盖全国34个省市。采集过程采用两阶段策略:首先进行初始URL获取,随后通过GPT-4o和Gemini 2.5等大型语言模型辅助解析,从多样化的HTML模板中结构化提取信息。整个流程耗时约一周,最终形成包含48,092条职位公告的语料库,文本总量超过1500万词,确保了数据的时效性与地理代表性。
特点
该数据集展现出多维度特征,其核心价值在于全面捕捉越南招聘语言的社会经济多样性。语料库涵盖16个标准化职业领域,包括商务销售、制造业、信息技术等,并详细标注职位类别、薪资范围、技能要求等结构化字段。地理分布上,数据覆盖越南全部行政区划,其中河内与胡志明市样本最为集中。文本特征方面,词汇量超过7.8万,包含少量英语代码切换现象,反映了越南职场语言的实际使用模式。薪资字段覆盖率达71.5%,为劳动力市场分析提供了量化基础。
使用方法
数据集设计支持自然语言处理与劳动力市场分析的交叉研究。在方法论层面,研究者可基于标准化职业分类体系开展职位分类任务,利用描述文本预测16个职业类别。薪资预测任务则支持回归分析,通过职位标题、合同类型等结构化字段估算薪资范围。实验框架提供零样本、少样本与微调三种评估模式,已对Qwen2.5-7B-Instruct等大型语言模型进行基准测试。数据集的统一格式便于直接应用于传统机器学习或深度学习模型,为越南语低资源场景下的招聘语言研究建立可复现的实验基础。
背景与挑战
背景概述
随着越南劳动力市场的数字化转型,在线招聘平台日益成为连接求职者与雇主的核心渠道。然而,越南语作为一种低资源语言,其招聘语言的复杂性和多样性长期缺乏大规模、高质量的数据集支持,制约了自然语言处理与劳动力市场分析的交叉研究。在此背景下,VinUniversity的研究团队于2025年创建了VietJobs数据集,这是首个公开可用的大规模越南语招聘广告语料库。该数据集汇集了来自越南全国34个省份的48,092条招聘信息,涵盖16个职业领域,旨在为越南语NLP研究提供基础资源,并支持对招聘语言、社会经济表征及人工智能驱动的劳动力市场分析进行深入探索。
当前挑战
VietJobs数据集致力于解决越南语自然语言处理在劳动力市场分析领域的核心挑战,即对招聘广告进行自动化分类与薪资预测。具体而言,越南语的声调结构、复合形态以及频繁的英语代码转换,为文本的标记化、归一化及语义理解带来了显著困难。在数据集构建过程中,研究者面临多重挑战:首先,从多样化的网页模板中提取并结构化信息需要克服HTML解析的复杂性;其次,原始招聘广告中的薪资信息存在大量缺失或不规范表述,需要进行系统性的清洗与标准化;此外,确保数据集在全国范围内的地理与职业多样性,同时避免单一平台带来的系统性偏差,也是构建过程中的关键考量。
常用场景
经典使用场景
在越南自然语言处理与劳动力市场分析领域,VietJobs数据集为研究者提供了探索招聘语言模式与结构化预测任务的经典场景。该数据集通过涵盖全国34个省份的48092条招聘广告,构建了一个包含职位类别、薪资范围、技能要求等多维度信息的语料库。其最典型的应用体现在利用大规模语言模型进行职位分类与薪资估计的基准测试,例如在零样本、少样本及微调设置下评估Qwen2.5-7B-Instruct等模型的性能,从而揭示多语言模型在越南语特定语境下的适应能力与挑战。
实际应用
在实际应用层面,VietJobs数据集为越南在线招聘平台、人力资源服务机构及政策制定部门提供了数据驱动的决策支持。企业可利用该数据集训练智能系统,实现招聘广告的自动分类与薪资基准分析,优化人才匹配效率。政府部门则可借助其宏观视角监测劳动力市场趋势,识别区域就业差异与技能需求变化,从而制定更具针对性的就业政策与培训计划。这些应用不仅提升了招聘流程的智能化水平,也为促进劳动力市场的透明与公平提供了实证基础。
衍生相关工作
基于VietJobs数据集,学术界衍生出一系列聚焦于越南语招聘语言分析与预测建模的经典工作。研究者在职位分类任务中探索了多语言模型与区域专用模型的性能对比,如Llama-SEA-LION-v3-8B-IT在少样本场景下的优异表现。在薪资估计方面,工作重点转向结合结构化属性与文本特征的混合建模方法,并尝试与Kaggle上的越南职位数据集进行融合训练以提升泛化能力。这些研究不仅深化了对越南语招聘语言的理解,也为低资源语言的自然语言处理任务提供了可复现的基准框架。
以上内容由遇见数据集搜集并总结生成



