求职招聘系统岗位简历匹配数据|招聘系统数据集|数据挖掘数据集

浙江省数据知识产权登记平台2023-10-28 更新2024-05-08 收录

招聘系统

数据挖掘

下载链接：

https://www.zjip.org.cn/home/announce/trends/7390

下载链接

链接失效反馈

资源简介：

通过企业岗位和求职者求职意向的分析，尽享相互匹配推荐，缩短用户搜索行为路径，直接根据需求推荐合适的简历。通过预设的K‑means算法模型确定出每个数据点与聚类中心的距离，该数据点与聚类中心越相似，则该数据点对应的简历与聚类中心对应的岗位类型的契合程度越高。然后根据契合度高低对待推荐简历进行推荐，可以有效提高简历推荐的成功率。数据采集：从预先存储的简历数据库中，选出若干份简历。数据处理：提取简历中的预设类别的信息，包括：学历、工作年限、技能、期望薪资等，将预设类别的信息进行标准化处理，形成简历训练数据集。对于文本数据，采用LabelEncoder将预设类别的信息中的文本数据处理为数字信息。对于工作年限、期望薪资等数据，采用min-max标准化(Min-Max Normalization)对此类预设类别的信息进行归一化处理，将数据缩放到0-1之间。数据分析：采用K-means算法模型分析，先假设已经通过聚类将数据分成了K个簇，对簇中的每个向量，计算其轮廓系数。当轮廓系数取值范围为（-1, 1）时，轮廓系数越接近于1，则聚类效果越好，越接近-1，聚类效果越差，从而确定K的最佳值。从数据集中随机选择K个数据点作为质心。计算每个数据点与这K个质心之间的距离，将其划分给与其距离最近的质心，初步将数据集分为K类。在分好的K个类别中，计算每个类别所属的数据点的中心点作为新的K个质心。直至收敛，生成与聚类中心对应的簇及数据点对应的契合度。距离聚类中心越近的数据点，契合度越高，根据契合度高低对待推荐简历进行推荐。

提供机构：

台州浩瀚网络有限公司

创建时间：

2023-09-27

AI搜集汇总

数据集介绍

特点

该数据集包含2607条求职招聘系统岗位简历匹配数据，每日更新，主要用于通过K-means算法模型分析企业岗位和求职者求职意向的契合度，实现高效简历推荐。数据涵盖招聘岗位类别、工资、工作年限、学历、技能要求等关键字段，适用于信息传输、软件和信息技术服务业。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

BANTH

BANTH数据集是由Penta Global Limited和Islamic University of Technology合作创建的，专门用于检测和分类转写孟加拉语中的仇恨言论。该数据集包含37,350条样本，主要来源于YouTube评论，涵盖新闻与政治、人物与博客、娱乐等多个类别。数据集的创建过程包括数据抓取、过滤、清洗和多轮人工标注与验证，确保了数据的高质量和准确性。BANTH数据集的应用领域主要集中在多标签仇恨言论检测，旨在解决低资源语言中仇恨言论自动检测的挑战，并为未来的跨语言和多标签分类研究奠定基础。

arXiv 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录