SuperJob

github2019-02-03 更新2024-05-31 收录

下载链接：

https://github.com/Omrigan/mentorhack-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含128,000份个人简历及其经验和190,000份职位描述，每份均以JSON格式单独记录。

This dataset comprises 128,000 individual resumes along with their experiences and 190,000 job descriptions, each recorded separately in JSON format.

创建时间：

2018-02-13

原始信息汇总

数据集概述

SuperJob

内容: 包含128,000份个人简历和190,000个职位描述。
格式: JSON格式，每份记录单独一行。
链接: SuperJob数据集

LeaderId

内容: 描述事件和参与人员的个人资料。
数量: 25,000份个人资料。
链接: LeaderId数据集

АСИ 项目

内容: 提交给АСИ的3000个项目提案，包括详细描述和当前审批状态。
获取方式: 通过Telegram联系@tenich。

Github 仓库

内容: 包含完整历史记录的Github仓库，如提交、作者、分支等。
格式: .git标准格式。
链接: Github仓库下载器
示例: 前100个仓库可在此处获取。

Open-source 项目

内容: 从包管理器收集的项目，包括名称、版本历史和代码仓库地址。
数量: 2.7百万个项目。
链接: Open-source项目数据

维基百科编辑历史

内容: 维基百科文章的编辑记录，包括页面ID、修订号和用户评论。
数据量: 18GB压缩数据，数TB未压缩数据。
链接: 维基百科编辑数据

Kickstarter

内容: 2014-2018年间的项目数据，包括描述、筹集资金、起始地点等元数据。
格式: JSON和CSV。
链接: Kickstarter数据集

ВШЭ 学生评分和课程表

内容: 学生评分和课程表，包括时间、学生、教师、课程和课程类型。
链接: 课程表链接，评分[链接](https://www.hse.ru/ba/<инициалы программы>/ratings?)

Mozilla 缺陷跟踪

内容: 约11,000个缺陷记录，包括标题、描述、评论、日期、报告者、状态和依赖关系。
链接: Mozilla缺陷数据

Android 代码审查

内容: Git补丁及其元数据，包括提交消息、补丁、时间和审查者信息。
链接: Android代码审查数据

IRC 聊天记录

内容: 频道消息，包括发送者、文本和日期。
链接: IRC聊天数据

Slack 通信记录

内容: ODS社区在Slack的通信记录，涉及2000用户，100频道，超过200,000条消息。
链接: Slack通信数据

Gitter 通信记录

内容: freeCodeChamp组织的Gitter消息，时间跨度为2014年12月至2017年12月。
链接: Gitter通信数据

Linux内核邮件列表

内容: 邮件内容，包括标题、正文、日期、发送者和接收者。
链接: Linux内核邮件列表

斯科尔科沃项目列表

内容: 3400个项目，包括描述、主题、团队、投资者、演示和是否获得资助。
格式: CSV。
链接: 斯科尔科沃项目数据

Stepic 在线课程互动数据

内容: 用户与在线课程的互动历史，包括完成步骤的时间序列。
链接: Stepic数据集

俄罗斯劳动部数据

内容: 详细数据可访问链接或通过电话和Telegram联系。

搜集汇总

数据集介绍

构建方式

SuperJob数据集的构建，采取了从SuperJob网站上抓取个人简历和职位描述的方式。每个简历和职位描述均以JSON格式存储，共计128,000份简历和190,000个职位描述，形成了结构化程度高、易于处理的数据集。

特点

该数据集的主要特点在于其内容的丰富性和格式的标准化。涵盖了大量的个人简历和职位信息，为人力资源分析、职业发展路径研究以及招聘算法优化等领域提供了宝贵的数据资源。简历和职位描述均采用JSON格式，便于数据解析和处理。

使用方法

使用SuperJob数据集时，用户首先需要从提供的链接中下载数据。由于数据以JSON格式存储，可以使用相应的编程语言库（如Python的json库）进行读取和处理。针对大数据分析，用户可以利用分布式计算框架来进行高效的数据处理和分析。

背景与挑战

背景概述

SuperJob数据集是在俄罗斯的“Менторхак”黑客马拉松活动中发布的一组数据资源。该数据集由多个子数据集组成，其中核心数据集SuperJob包含了大约128,000份以JSON格式存储的个人简历和190,000个职位描述，这些数据为人力资源管理、人才市场分析以及招聘系统的优化等研究领域提供了宝贵的资源。创建该数据集的目的在于促进对这些领域的研究，并推动相关技术的发展。SuperJob数据集自发布以来，受到了学术界和工业界的广泛关注，为相关领域的研究提供了重要的数据支持。

当前挑战

SuperJob数据集面临的挑战主要涉及两个方面：一是如何有效地处理和挖掘大规模的简历和职位描述数据，以提取有用信息，支持人才市场分析等应用；二是数据集构建过程中的隐私保护和数据质量控制问题。在处理领域问题上，需要克服自然语言处理、数据挖掘和模式识别等技术难题；在构建过程中，则需要确保数据的真实性、完整性和合法性，同时保护个人的隐私信息不被泄露。

常用场景

经典使用场景

SuperJob数据集，作为一份涵盖广泛职业简历与职位描述的资源，其经典的使用场景主要集中于人力资源管理、职业发展分析以及人才市场研究。通过对该数据集的深入分析，研究者能够描绘出当前劳动力市场的供需状况，洞察特定行业或职位的技能要求和薪资趋势。

解决学术问题

该数据集解决了学术界在人力资源领域内的多项研究问题，如职业路径的演变、劳动力市场的动态变化、以及求职者与职位之间的匹配度分析等。它的存在为研究者提供了实证研究的坚实基础，使得相关研究更加精确和具有说服力。

衍生相关工作

SuperJob数据集催生了一系列相关研究工作，如基于数据挖掘的职业推荐系统、职场技能需求分析工具，以及针对特定行业的人才流动研究等。这些衍生工作进一步拓宽了数据集的应用范围，提升了其在学术界和产业界的影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集