five

employee_reviews.csv|人力资源分析数据集|员工满意度数据集

收藏
github2019-11-27 更新2024-05-31 收录
人力资源分析
员工满意度
下载链接:
https://github.com/Adarsh4052/Employee-Status-Classification-Based-On-Company-Reviews-Dataset-Using-Machine-Learning
下载链接
链接失效反馈
资源简介:
该数据集包含多个公司的员工评论。每个评论包括公司名称、地点、发布日期、职位、员工状态、评论摘要、优缺点、对管理的建议以及各种评分等特征。

This dataset encompasses employee reviews from multiple companies. Each review includes features such as the company name, location, publication date, job title, employee status, review summary, pros and cons, suggestions for management, and various ratings.
创建时间:
2019-05-26
原始信息汇总

数据集概述

数据集名称

  • 名称: Employee-Status-Classification-Based-On-Company-Reviews-Dataset-Using-Machine-Learning

数据集内容

  • 描述: 该数据集包含员工对不同公司的评价,用于通过机器学习算法分类员工的就业状态(当前员工或前员工)。

数据集特征

  • 特征列表:
    1. Index: 行索引
    2. Company: 公司名称
    3. Location: 公司所在城市、州及国家
    4. Date Posted: 评价发布日期
    5. Job-Title: 评价者的职位及就业状态
    6. Summary: 评价摘要
    7. Pros: 公司及职位的优点
    8. Cons: 公司及职位的缺点
    9. Advice to management: 对公司管理的建议
    10. Overall Rating: 总体评分(1-5)
    11. Work/Life Balance Rating: 工作与生活平衡评分(1-5)
    12. Culture and Values Rating: 文化和价值观评分(1-5)
    13. Career Opportunities Rating: 职业机会评分(1-5)
    14. Comp & Benefits Rating: 薪酬与福利评分(1-5)
    15. Senior Management Rating: 高级管理层评分(1-5)
    16. Helpful Review Count: 认为评价有帮助的人数
    17. Link to Review: 评价链接

数据集来源

  • 来源: https://www.kaggle.com/petersunga/google-amazon-facebook-employee-reviews/home

数据集文件

  • 文件名: employee_reviews.csv
AI搜集汇总
数据集介绍
main_image_url
构建方式
针对员工关于公司的意见及其评论,本项目采用机器学习算法对评论进行分类,以识别评论者是否为公司的在职或离职员工。数据集的构建首先经过数据预处理,包括类别不平衡处理、数据清洗、缺失值处理、特征工程、文本数据预处理、类别特征数值化以及数据归一化等步骤。之后,项目进一步细分为三个实验,分别针对仅数值数据、仅文本数据以及数值与文本数据组合进行预测建模。
特点
该数据集的特点在于涵盖了不同公司员工的多维度评论,包含公司名称、位置、评论日期、职位及在职状态、评论摘要、优缺点、对管理的建议以及多项评分指标。此外,数据集还包含了评论对其他用户的有用性评分和评论链接,尽管部分链接可能已过期。数据集的多样性及丰富性使其成为研究员工对公司看法并进行在职状态分类的理想资源。
使用方法
用户在使用该数据集时,可根据具体需求选择适当的机器学习模型进行训练。项目已提供了多种模型的实现,包括规则模型、线性分类器、基于树的模型、基于距离的模型、概率模型以及集成模型。用户可通过K折交叉验证对模型进行评估,并利用精确度、召回率、F1分数、AUC等指标进行性能度量。数据集的处理和模型的选择应在确保数据质量和模型适用性的前提下进行。
背景与挑战
背景概述
employee_reviews.csv数据集是一项旨在通过机器学习算法对员工关于公司的意见进行分类的研究成果,该数据集创建于近年来,由研究人员针对员工评价进行就业状态分类的项目中产生。该数据集聚焦于员工对公司看法的挖掘,试图根据员工所提供的反馈判断其为现任或前任员工。核心研究问题是如何准确分类员工的就业状态,这对于人力资源管理和公司声誉分析等领域具有重要的现实意义。该数据集由多个研究人员共同开发,并在学术界和工业界产生了广泛的影响力。
当前挑战
该数据集在构建和应用过程中面临了多项挑战。首先,数据预处理阶段遇到了类别不平衡、数据清洗、缺失值处理、特征工程、文本数据预处理等问题。其次,在构建机器学习模型时,研究人员需要处理数值数据和文本数据的不同特性,以及它们在预测模型中的融合问题。此外,模型评估和调优过程中,如何平衡准确度、精确度、召回率和F1分数等指标,也是一大挑战。这些挑战不仅考验了数据集的质量,也对研究人员的算法设计和优化能力提出了高要求。
常用场景
经典使用场景
在机器学习领域,员工评价数据的分类应用至关重要。Employee-Status-Classification-Based-On-Company-Reviews-Dataset是一个专注于根据员工评价对就业状态进行分类的数据集,其经典的使用场景在于通过文本和数值数据预测员工是当前员工还是前员工。该数据集通过自然语言处理技术对文本数据进行预处理,并结合数值特征进行机器学习模型的训练与评估,从而实现对员工状态的准确分类。
解决学术问题
该数据集解决了分类任务中的常见问题,如数据不平衡、缺失值处理、特征工程等,为学术研究提供了处理文本和数值混合数据的有效方法。通过使用不同的机器学习模型,该数据集有助于评估不同算法在处理具有类别不平衡特性的文本分类问题上的性能,对提高模型准确性和泛化能力具有重要价值。
衍生相关工作
基于该数据集,研究者可以开展多种衍生的相关工作,如深入探讨文本特征与员工状态之间的关系,开发更加复杂的模型来提升预测精度,或扩展数据集以包含更多公司的评价数据,进一步推动员工评价分析领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录