SuperJob
收藏github2019-02-03 更新2024-05-31 收录
下载链接:
https://github.com/Omrigan/mentorhack-datasets
下载链接
链接失效反馈官方服务:
资源简介:
包含128,000份个人简历及其经验和190,000份职位描述,每份均以JSON格式单独记录。
This dataset comprises 128,000 individual resumes along with their experiences and 190,000 job descriptions, each recorded separately in JSON format.
创建时间:
2018-02-13
原始信息汇总
数据集概述
SuperJob
- 内容: 包含128,000份个人简历和190,000个职位描述。
- 格式: JSON格式,每份记录单独一行。
- 链接: SuperJob数据集
LeaderId
- 内容: 描述事件和参与人员的个人资料。
- 数量: 25,000份个人资料。
- 链接: LeaderId数据集
АСИ 项目
- 内容: 提交给АСИ的3000个项目提案,包括详细描述和当前审批状态。
- 获取方式: 通过Telegram联系@tenich。
Github 仓库
- 内容: 包含完整历史记录的Github仓库,如提交、作者、分支等。
- 格式: .git标准格式。
- 链接: Github仓库下载器
- 示例: 前100个仓库可在此处获取。
Open-source 项目
- 内容: 从包管理器收集的项目,包括名称、版本历史和代码仓库地址。
- 数量: 2.7百万个项目。
- 链接: Open-source项目数据
维基百科编辑历史
- 内容: 维基百科文章的编辑记录,包括页面ID、修订号和用户评论。
- 数据量: 18GB压缩数据,数TB未压缩数据。
- 链接: 维基百科编辑数据
Kickstarter
- 内容: 2014-2018年间的项目数据,包括描述、筹集资金、起始地点等元数据。
- 格式: JSON和CSV。
- 链接: Kickstarter数据集
ВШЭ 学生评分和课程表
- 内容: 学生评分和课程表,包括时间、学生、教师、课程和课程类型。
- 链接: 课程表链接,评分[链接](https://www.hse.ru/ba/<инициалы программы>/ratings?)
Mozilla 缺陷跟踪
- 内容: 约11,000个缺陷记录,包括标题、描述、评论、日期、报告者、状态和依赖关系。
- 链接: Mozilla缺陷数据
Android 代码审查
- 内容: Git补丁及其元数据,包括提交消息、补丁、时间和审查者信息。
- 链接: Android代码审查数据
IRC 聊天记录
- 内容: 频道消息,包括发送者、文本和日期。
- 链接: IRC聊天数据
Slack 通信记录
- 内容: ODS社区在Slack的通信记录,涉及2000用户,100频道,超过200,000条消息。
- 链接: Slack通信数据
Gitter 通信记录
- 内容: freeCodeChamp组织的Gitter消息,时间跨度为2014年12月至2017年12月。
- 链接: Gitter通信数据
Linux内核邮件列表
- 内容: 邮件内容,包括标题、正文、日期、发送者和接收者。
- 链接: Linux内核邮件列表
斯科尔科沃项目列表
- 内容: 3400个项目,包括描述、主题、团队、投资者、演示和是否获得资助。
- 格式: CSV。
- 链接: 斯科尔科沃项目数据
Stepic 在线课程互动数据
- 内容: 用户与在线课程的互动历史,包括完成步骤的时间序列。
- 链接: Stepic数据集
俄罗斯劳动部数据
- 内容: 详细数据可访问链接或通过电话和Telegram联系。
搜集汇总
数据集介绍

构建方式
SuperJob数据集的构建,采取了从SuperJob网站上抓取个人简历和职位描述的方式。每个简历和职位描述均以JSON格式存储,共计128,000份简历和190,000个职位描述,形成了结构化程度高、易于处理的数据集。
特点
该数据集的主要特点在于其内容的丰富性和格式的标准化。涵盖了大量的个人简历和职位信息,为人力资源分析、职业发展路径研究以及招聘算法优化等领域提供了宝贵的数据资源。简历和职位描述均采用JSON格式,便于数据解析和处理。
使用方法
使用SuperJob数据集时,用户首先需要从提供的链接中下载数据。由于数据以JSON格式存储,可以使用相应的编程语言库(如Python的json库)进行读取和处理。针对大数据分析,用户可以利用分布式计算框架来进行高效的数据处理和分析。
背景与挑战
背景概述
SuperJob数据集是在俄罗斯的“Менторхак”黑客马拉松活动中发布的一组数据资源。该数据集由多个子数据集组成,其中核心数据集SuperJob包含了大约128,000份以JSON格式存储的个人简历和190,000个职位描述,这些数据为人力资源管理、人才市场分析以及招聘系统的优化等研究领域提供了宝贵的资源。创建该数据集的目的在于促进对这些领域的研究,并推动相关技术的发展。SuperJob数据集自发布以来,受到了学术界和工业界的广泛关注,为相关领域的研究提供了重要的数据支持。
当前挑战
SuperJob数据集面临的挑战主要涉及两个方面:一是如何有效地处理和挖掘大规模的简历和职位描述数据,以提取有用信息,支持人才市场分析等应用;二是数据集构建过程中的隐私保护和数据质量控制问题。在处理领域问题上,需要克服自然语言处理、数据挖掘和模式识别等技术难题;在构建过程中,则需要确保数据的真实性、完整性和合法性,同时保护个人的隐私信息不被泄露。
常用场景
经典使用场景
SuperJob数据集,作为一份涵盖广泛职业简历与职位描述的资源,其经典的使用场景主要集中于人力资源管理、职业发展分析以及人才市场研究。通过对该数据集的深入分析,研究者能够描绘出当前劳动力市场的供需状况,洞察特定行业或职位的技能要求和薪资趋势。
解决学术问题
该数据集解决了学术界在人力资源领域内的多项研究问题,如职业路径的演变、劳动力市场的动态变化、以及求职者与职位之间的匹配度分析等。它的存在为研究者提供了实证研究的坚实基础,使得相关研究更加精确和具有说服力。
衍生相关工作
SuperJob数据集催生了一系列相关研究工作,如基于数据挖掘的职业推荐系统、职场技能需求分析工具,以及针对特定行业的人才流动研究等。这些衍生工作进一步拓宽了数据集的应用范围,提升了其在学术界和产业界的影响力。
以上内容由遇见数据集搜集并总结生成



