Vietnamese IT Job Posting Data
收藏github2025-06-28 更新2025-07-01 收录
下载链接:
https://github.com/SonPhatTranDeveloper/IT-Job-Posting
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含一个数据集,其中有3,101个在越南主要求职平台(LinkedIn、ITViec和TopCV)上的IT职位发布。数据集以.csv文件格式保存,包含职位标题、公司、公司缩略图、地点、职位描述、平台、职位URL、IT角色类型、主要编程语言和关键技术等列。
This repository contains a dataset consisting of 3,101 IT job postings from major Vietnamese job platforms (LinkedIn, ITViec, and TopCV). The dataset is saved in .csv file format and includes columns such as job title, company name, company thumbnail, location, job description, platform, job URL, IT role type, primary programming languages, and key technologies.
创建时间:
2025-06-28
原始信息汇总
越南IT职位发布数据集概述
数据集来源
- 数据来源平台:LinkedIn、ITViec、TopCV
- 数据量:3,101条职位发布信息
数据格式
- 文件格式:CSV文件
- 字段说明:
title:职位名称company:公司名称company_image_url:公司缩略图链接location:工作地点description:职位描述site:来源平台(LinkedIn/TopCV/ITViec)job_url:职位详情页链接it_role_type:IT角色类型(如后端开发、移动开发等)main_programming_languages:主要编程语言(从职位描述中提取)key_technologies:关键技术(从职位描述中提取)city:所在城市(从工作地点中提取)
使用说明
- 用途限制:仅限教育用途
- 免责声明:作者不对数据集的恶意使用负责
搜集汇总
数据集介绍

构建方式
越南IT职位发布数据集通过系统化采集越南三大主流招聘平台(LinkedIn、ITViec和TopCV)的公开数据构建而成,共收录3,101条有效职位记录。数据采集过程采用自动化爬虫技术确保信息完整性,并运用大语言模型对职位描述进行结构化处理,提取出核心技术栈、编程语言等关键字段,同时保留原始URL和公司logo等元数据以增强可追溯性。
特点
该数据集以多维结构呈现越南IT就业市场动态,其核心价值在于通过自然语言处理技术深度解析职位描述,标准化输出it_role_type(职位类型)、main_programming_languages(主流编程语言)等结构化字段。独特之处在于包含company_image_url等视觉元素数据,以及通过地理位置解析生成的city字段,为区域就业分析提供地理维度参考。数据覆盖后端开发、移动开发等主流技术岗位,具有显著的行业代表性。
使用方法
研究者可通过CSV格式直接加载数据集,利用job_url字段进行原始信息核验。建议结合自然语言处理技术分析description字段的文本特征,或通过it_role_type与key_technologies字段的交叉分析揭示技术趋势。使用时应遵守README声明的教育用途限制,避免直接商业应用。对于城市维度分析,可优先标准化city字段以消除地理位置表述差异。
背景与挑战
背景概述
越南IT职位发布数据集由研究人员于近年构建,聚焦于越南信息技术行业的就业市场动态。该数据集采集自LinkedIn、ITViec和TopCV三大主流招聘平台,共包含3,101条职位记录,涵盖了职位名称、公司信息、工作地点、职位描述等关键字段。通过采用大语言模型技术,研究者还从原始数据中提取了核心编程语言、关键技术等结构化信息,为研究越南IT劳动力市场的供需关系、技能需求演变提供了重要数据支撑。该数据集的建立填补了东南亚地区IT就业市场量化研究的空白,对区域经济发展分析和教育政策制定具有参考价值。
当前挑战
该数据集致力于解决东南亚IT就业市场分析的难题,其核心挑战在于多源异构数据的标准化处理。招聘平台的非结构化文本需要转化为可分析的字段,特别是从职位描述中准确提取技术栈和技能要求存在语义歧义。构建过程中,研究者面临数据采集完整性与平台反爬机制的平衡问题,不同平台的字段差异增加了数据清洗复杂度。大语言模型在越南语语境下的信息抽取精度仍需优化,特别是对复合技术术语的识别。如何确保教育用途的数据脱敏合规性,也是数据集应用的重要考量。
常用场景
经典使用场景
在人力资源与信息技术交叉研究领域,Vietnamese IT Job Posting Data数据集为分析越南IT行业就业趋势提供了关键数据支持。研究者可通过该数据集深入挖掘不同技术岗位的需求分布,例如后端开发与移动开发的占比差异,或主流编程语言在招聘广告中的出现频率。这些分析能够揭示越南IT人才市场的动态变化,为相关研究提供实证基础。
解决学术问题
该数据集有效解决了东南亚地区IT就业市场研究数据匮乏的学术难题。通过结构化记录岗位名称、技术要求和地理位置等关键字段,学者能够量化分析技术栈演变与区域经济发展的关联性。特别是利用LLM提取的技术关键词,为研究技术扩散规律提供了前所未有的细粒度数据,填补了发展中国家技术劳动力市场研究的空白。
衍生相关工作
基于该数据集已产生多项重要研究成果,包括《越南IT人才流动模式分析》《东盟国家技术栈比较研究》等。部分团队开发了职位推荐算法,通过分析技术关键词匹配度提升求职效率。另有研究结合城市字段与GDP数据,建立了技术岗位密度与区域数字经济发展的相关性模型,推动了产业经济学研究的发展。
以上内容由遇见数据集搜集并总结生成



