JCTC

Name: JCTC
Creator: 上海高级研究学院，中国科学院，中国
Published: 2017-06-12 10:33:08
License: 暂无描述

arXiv2017-06-12 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1705.06123v2

下载链接

链接失效反馈

官方服务：

资源简介：

JCTC是一个大规模的职位发布语料库，专门用于文本分类研究。该数据集由上海高级研究学院和中国科学院联合创建，包含了从中国三大招聘网站收集的107,328个职位发布数据。数据集的构建过程涉及将在线职位发布映射到中国职业大分类（CGCO）的特定类别，通过机器学习算法和人工判断的迭代过程完成。JCTC的应用领域主要集中在劳动力市场分析，特别是为政府机构提供决策支持。此外，该数据集还用于评估和改进文本分类算法，是中文文本分类领域中规模最大的语料库之一。

JCTC is a large-scale job posting corpus dedicated to text classification research. It was jointly developed by the Shanghai Advanced Research Institute and the Chinese Academy of Sciences, and contains 107,328 job posting records collected from three major Chinese recruitment websites. The dataset construction process involves mapping online job postings to specific categories of the Chinese General Classification of Occupations (CGCO), which is completed through an iterative workflow combining machine learning algorithms and manual judgment. The main application scenarios of JCTC focus on labor market analysis, particularly providing decision support for government agencies. Additionally, this dataset is also used to evaluate and optimize text classification algorithms, and ranks among the largest corpora in the field of Chinese text classification.

提供机构：

上海高级研究学院，中国科学院，中国

创建时间：

2017-05-17

搜集汇总

数据集介绍

构建方式

JCTC的构建始于从中国三大招聘网站（ChinaHR、Zhaopin、51job）采集的107,328条有效招聘信息，并以中国政府颁布的《中华人民共和国职业分类大典》（CGCO）为分类标准。构建过程分为两个模块：在模块一中，采用无监督学习算法（WE-cos）计算招聘描述与CGCO中1481个细类描述的语义相似度，将相似度最高的类别作为候选标签，再由五名大学生判定标签的正确性，多数同意则纳入初步语料库。模块二中，以初步语料为训练集训练支持向量机（SVM）分类器，对剩余未标注数据进行分类，仅当算法与人工判定一致时才将样本加入语料库。此迭代循环持续至未标注数据量不足总量的5%，最终获得包含102,581条样本、覆盖465个类别的JCTC语料库。

特点

JCTC是首个将在线招聘信息映射至权威分类体系（CGCO）的中文文本分类语料库，填补了招聘领域语料缺失的空白。其规模为当前中文文本分类语料库之最，包含102,581条样本，远超复旦新闻语料库（约2万条）等现有资源。语料库具有层次化结构，所有类别按CGCO的四级体系组织，支持层次化文本分类研究。数据呈现显著的不平衡性，例如“销售人员”类别包含9,632条样本，而“铁路列车司机”仅有一条，真实反映了劳动力市场的需求分布。此外，构建方法通过人机协同创新地降低了主观性影响，人工仅需判定标签正确性而非直接分类，提升了准确率与效率。

使用方法

JCTC可供研究者直接用于文本分类算法的训练与评估，论文已提供了基于CNN、LSTM、GRU等五种深度学习方法的基线性能（准确率介于74.95%至88.95%之间）。使用时建议采用10折交叉验证以充分利用数据，并注意处理类别不平衡问题。语料库的层次化特性使其尤其适用于大规模文本信息的层次化分类任务，如新闻与专利管理。同时，由于JCTC与CGCO的分类体系一致，劳动市场分析机构或政府部门可借助该语料库对在线招聘数据进行精准统计，追踪新兴职业动态。研究者也可借鉴其构建方法，将CGCO替换为其他国家的类似职业分类标准，以拓展至多语言场景。

背景与挑战

背景概述

在劳动力市场信息化的浪潮中，在线招聘网站已成为求职者与用人单位之间的核心桥梁，海量的招聘数据随之沉淀。然而，由于各企业依据自身理解随意设定职位名称，导致大量性质相似的岗位被冠以不同头衔，或相同头衔下掩盖着迥异的工作内容，使得基于在线招聘数据的劳动力市场分析难以精准开展。为弥合这一鸿沟，中国科学院上海高等研究院的徐浩宇等研究人员于2016年前后构建了JCTC（Job posting Corpus for Text Classification）数据集。该数据集以中国政府发布的《中华人民共和国职业分类大典》为分类标准，首次将在线招聘信息映射至权威的职业分类体系，覆盖465个细分类别、共计102,581条招聘样本，是当时规模最大的中文文本分类语料库。JCTC的诞生为劳动力市场监测、宏观经济分析及层次化文本分类研究提供了坚实的数据基石，在自然语言处理与劳动经济学交叉领域产生了深远影响。

当前挑战

JCTC数据集所面对的挑战主要体现在两个层面。其一，领域问题层面，核心挑战在于解决招聘信息中职位名称与岗位实质内容之间的语义错配。由于企业自定义职位头衔的随意性，相同头衔可能对应不同工作内容，不同头衔又可能指向同一类岗位，传统的基于关键词匹配或简单分类的方法难以准确捕捉岗位本质，导致劳动力统计失真。其二，语料构建过程中，挑战源于分类体系的复杂性与人工标注的主观性。CGCO包含1481个细粒度类别，部分类别间界限模糊，即便领域专家也难以直接精准归类；同时，纯人工标注不仅耗时费力（预估标注十万级样本需430天以上），且受个体知识背景影响显著，一致性难以保证。为此，JCTC创新性地采用无监督学习与人工校验迭代的协同框架，将人的角色从直接分类降级为对机器标注结果的二值判定，有效降低了主观偏差并大幅提升了构建效率。

常用场景

经典使用场景

JCTC作为首个大规模中文招聘文本分类语料库，其最经典的使用场景在于将海量在线招聘信息映射至中国政府颁布的《中华人民共和国职业分类大典》体系之中。研究者可利用该语料库对职位描述进行精细化的类别标注，从而将杂乱无章的企业自定义职位头衔统一归入标准化的职业类别框架，为后续的劳动市场分析奠定坚实的数据基础。

衍生相关工作

JCTC的发布催生了一系列基于深度学习的招聘文本分类研究工作。论文中已提供了CNN、LSTM、GRU等经典模型的基线性能，其中CNN-non-static凭借自适应词向量取得了最佳分类效果。后续研究者在此基础上进一步探索了层次化分类算法、不平衡数据集处理策略以及跨语言迁移学习等方向，推动了招聘信息挖掘领域从简单数据收集向系统性分类研究的重要转型。

数据集最近研究