five

SuperJob

收藏
github2019-02-03 更新2024-05-31 收录
下载链接:
https://github.com/Omrigan/mentorhack-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
包含128,000份个人简历及其经验和190,000份职位描述,每份均以JSON格式单独记录。

This dataset comprises 128,000 individual resumes along with their experiences and 190,000 job descriptions, each recorded separately in JSON format.
创建时间:
2018-02-13
原始信息汇总

数据集概述

SuperJob

  • 内容: 包含128,000份个人简历和190,000个职位描述。
  • 格式: JSON格式,每份记录单独一行。
  • 链接: SuperJob数据集

LeaderId

  • 内容: 描述事件和参与人员的个人资料。
  • 数量: 25,000份个人资料。
  • 链接: LeaderId数据集

АСИ 项目

  • 内容: 提交给АСИ的3000个项目提案,包括详细描述和当前审批状态。
  • 获取方式: 通过Telegram联系@tenich。

Github 仓库

  • 内容: 包含完整历史记录的Github仓库,如提交、作者、分支等。
  • 格式: .git标准格式。
  • 链接: Github仓库下载器
  • 示例: 前100个仓库可在此处获取。

Open-source 项目

  • 内容: 从包管理器收集的项目,包括名称、版本历史和代码仓库地址。
  • 数量: 2.7百万个项目。
  • 链接: Open-source项目数据

维基百科编辑历史

  • 内容: 维基百科文章的编辑记录,包括页面ID、修订号和用户评论。
  • 数据量: 18GB压缩数据,数TB未压缩数据。
  • 链接: 维基百科编辑数据

Kickstarter

  • 内容: 2014-2018年间的项目数据,包括描述、筹集资金、起始地点等元数据。
  • 格式: JSON和CSV。
  • 链接: Kickstarter数据集

ВШЭ 学生评分和课程表

  • 内容: 学生评分和课程表,包括时间、学生、教师、课程和课程类型。
  • 链接: 课程表链接,评分[链接](https://www.hse.ru/ba/<инициалы программы>/ratings?)

Mozilla 缺陷跟踪

  • 内容: 约11,000个缺陷记录,包括标题、描述、评论、日期、报告者、状态和依赖关系。
  • 链接: Mozilla缺陷数据

Android 代码审查

  • 内容: Git补丁及其元数据,包括提交消息、补丁、时间和审查者信息。
  • 链接: Android代码审查数据

IRC 聊天记录

  • 内容: 频道消息,包括发送者、文本和日期。
  • 链接: IRC聊天数据

Slack 通信记录

  • 内容: ODS社区在Slack的通信记录,涉及2000用户,100频道,超过200,000条消息。
  • 链接: Slack通信数据

Gitter 通信记录

  • 内容: freeCodeChamp组织的Gitter消息,时间跨度为2014年12月至2017年12月。
  • 链接: Gitter通信数据

Linux内核邮件列表

斯科尔科沃项目列表

  • 内容: 3400个项目,包括描述、主题、团队、投资者、演示和是否获得资助。
  • 格式: CSV。
  • 链接: 斯科尔科沃项目数据

Stepic 在线课程互动数据

  • 内容: 用户与在线课程的互动历史,包括完成步骤的时间序列。
  • 链接: Stepic数据集

俄罗斯劳动部数据

  • 内容: 详细数据可访问链接或通过电话和Telegram联系。
搜集汇总
数据集介绍
main_image_url
构建方式
SuperJob数据集的构建,采取了从SuperJob网站上抓取个人简历和职位描述的方式。每个简历和职位描述均以JSON格式存储,共计128,000份简历和190,000个职位描述,形成了结构化程度高、易于处理的数据集。
特点
该数据集的主要特点在于其内容的丰富性和格式的标准化。涵盖了大量的个人简历和职位信息,为人力资源分析、职业发展路径研究以及招聘算法优化等领域提供了宝贵的数据资源。简历和职位描述均采用JSON格式,便于数据解析和处理。
使用方法
使用SuperJob数据集时,用户首先需要从提供的链接中下载数据。由于数据以JSON格式存储,可以使用相应的编程语言库(如Python的json库)进行读取和处理。针对大数据分析,用户可以利用分布式计算框架来进行高效的数据处理和分析。
背景与挑战
背景概述
SuperJob数据集是在俄罗斯的“Менторхак”黑客马拉松活动中发布的一组数据资源。该数据集由多个子数据集组成,其中核心数据集SuperJob包含了大约128,000份以JSON格式存储的个人简历和190,000个职位描述,这些数据为人力资源管理、人才市场分析以及招聘系统的优化等研究领域提供了宝贵的资源。创建该数据集的目的在于促进对这些领域的研究,并推动相关技术的发展。SuperJob数据集自发布以来,受到了学术界和工业界的广泛关注,为相关领域的研究提供了重要的数据支持。
当前挑战
SuperJob数据集面临的挑战主要涉及两个方面:一是如何有效地处理和挖掘大规模的简历和职位描述数据,以提取有用信息,支持人才市场分析等应用;二是数据集构建过程中的隐私保护和数据质量控制问题。在处理领域问题上,需要克服自然语言处理、数据挖掘和模式识别等技术难题;在构建过程中,则需要确保数据的真实性、完整性和合法性,同时保护个人的隐私信息不被泄露。
常用场景
经典使用场景
SuperJob数据集,作为一份涵盖广泛职业简历与职位描述的资源,其经典的使用场景主要集中于人力资源管理、职业发展分析以及人才市场研究。通过对该数据集的深入分析,研究者能够描绘出当前劳动力市场的供需状况,洞察特定行业或职位的技能要求和薪资趋势。
解决学术问题
该数据集解决了学术界在人力资源领域内的多项研究问题,如职业路径的演变、劳动力市场的动态变化、以及求职者与职位之间的匹配度分析等。它的存在为研究者提供了实证研究的坚实基础,使得相关研究更加精确和具有说服力。
衍生相关工作
SuperJob数据集催生了一系列相关研究工作,如基于数据挖掘的职业推荐系统、职场技能需求分析工具,以及针对特定行业的人才流动研究等。这些衍生工作进一步拓宽了数据集的应用范围,提升了其在学术界和产业界的影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作