การเปรียบเทียบประสิทธิภาพของเทคนิคการเข้ารหัสข้อมูลเชิงกลุ่มแบบ Entity-Embedding และแบบ One-Hot Encoding ในการสร้างโมเดลการทำนายการลาออกของลูกจ้าง

Name: การเปรียบเทียบประสิทธิภาพของเทคนิคการเข้ารหัสข้อมูลเชิงกลุ่มแบบ Entity-Embedding และแบบ One-Hot Encoding ในการสร้างโมเดลการทำนายการลาออกของลูกจ้าง
Creator: มหาวิทยาลัยธรรมศาสตร์
Published: 2023-09-19 03:18:32
License: 暂无描述

DataCite Commons2023-09-19 更新2025-04-16 收录

下载链接：

http://doi.nrct.go.th/?page=resolve_doi&resolve_doi=10.14457/TU.the.2022.590

下载链接

链接失效反馈

官方服务：

资源简介：

การลาออกของพนักงานเป็นปัญหาที่สร้างผลกระทบให้กับทุกธุรกิจ ซึ่งปัญหาการลาออกของลูกจ้างนำไปสู่ปัญหาอื่นๆ อีกมากมาย อาทิ เช่น 1) การสูญเสียเวลาและทรัพยากรต่างๆ ในการสรรหาลูกจ้างคนใหม่และฝึกสอนงาน 2) การลาออกของลูกจ้างคนใดคนหนึ่งอาจจะนำไปสู่การเพิ่มภาระงานและหน้าที่ให้กับลูกจ้างคนอื่นๆ ซึ่งอาจจะทำให้ลูกจ้างคนอื่นๆ ลาออกตามไปในท้ายที่สุด 3) การหาลุกจ้างคนใหม่ที่จะมีความสามารถและประสบการณ์มาทดแทนลูกจ้างคนเก่านั้นเป็นเรื่องที่ยาก ในปัจจุบันวิธีแก้ปัญหาที่ได้กล่าวมาข้างต้นคือการวิเคราะห์และทำนายการลาออกของลูกจ้างโดยใช้โมเดลการเรียนรู้ของเครื่องซึ่งกำลังได้รับความนิยมในปัจจุบัน แต่อย่างไรก็ตามงานวิจัยที่ผ่านมาได้ใช้เทคนิคการเข้ารหัสข้อมูลชนิดเชิงกลุ่ม (categorical data) แบบดั้งเดิมก็คือ เทคนิค One Hot Encoding ซึ่งเทคนิคนี้จะเป็นการเพิ่มมิติให้กับข้อมูล และทำให้ข้อมูลมีความเบาบางขึ้น (sparse data) ส่งผลให้ประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องลดลง ในงานวิจัยนี้จึงนำเสนอการเข้ารหัสข้อมูลชนิดเชิงกลุ่ม (categorical data) โดยใช้เทคนิค Entity Embedding ซึ่งเทคนิคนี้จะช่วยแก้ปัญหาที่เกิดจากการเข้ารหัสข้อมูลด้วยเทคนิค One Hot Encoding ที่ได้กล่าวไปข้างต้น และจะเพิ่มประสิทธิภาพให้กับโมเดลการเรียนรู้ของเครื่องอีกด้วย โดยงานวิจัยนี้จะใช้ชุดข้อมูล IBM HR จากเว็บไซต์ Kaggle และจะใช้โมเดล Adaboost, Decision Tree, Random Forest, XGBoost, Logistic Regression และ Neural networks เป็นโมเดลการเรียนรู้ของเครื่องสำหรับการทำนายการลาออกของลูกจ้าง ในงานวิจัยนี้จะแบ่งเป็น 2 ตอน ได้แก่ ตอนแรกจะเป็นการเปรียบเทียบประสิทธิภาพของเทคนิค One Hot Encoding กับเทคนิค Entity Embedding โดยไม่มีการทำ Synthetic Minority Over-samplingTechnique : SMOTE) และ Feature scaling และตอนที่สองจะเป็นการเปรียบเทียบประสิทธิภาพระหว่างเทคนิค One Hot Encoding กับเทคนิค Entity Embedding โดยมีการทำ SMOTE และ Feature scaling จากผลการทดลองตอนที่ 1 พบว่าเมื่อเปรียบเทียบที่โมเดลเดียวกัน การใช้เทคนิค Entity Embedding มีแนวโน้มที่จะมีค่า F1 Score สูงกว่าเทคนิค One Hot Encoding นอกจากนี้ยังพบข้อสังเกตคือในกลุ่มโมเดลเชิงเส้นอย่างโมเดล Logistic Regression และ Neural networks ที่ใช้เทคนิค Entity Embedding ให้ประสิทธิภาพที่ดีกว่าเทคนิค One Hot Encoding อย่างมาก ในขณะที่ในกลุ่มโมเดลต้นไม้อย่างโมเดล Adaboost, Decision Tree, Random Forest, XGBoost, Logistic Regression และ Neural networks ที่ใช้เทคนิค Entity Embedding จะให้ประสิทธิภาพที่ดีกว่าเพียงเล็กน้อย จากผลการทดลองตอนที่ 2 พบว่าหลังจากการทำ SMOTE และ Feature scaling การใช้เทคนิค Entity Embedding จะมีแนวโน้มให้ประสิทธิภาพที่ดีกว่าเทคนิค One Hot Encoding เพียงเล็กน้อย นอกจากนี้ยังพบว่าเทคนิค One Hot Encoding มีความอ่อนไหวต่อการทำ SMOTE และ Feature scaling มากกว่าเทคนิค Entity Embedding ซึ่งจะเห็นความแตกต่างได้อย่างชัดเจนในกลุ่มโมเดลเชิงเส้น ในขณะที่กลุ่มโมเดลต้นไม้จะเห็นความแตกต่างได้เพียงเล็กน้อย กล่าวสรุปได้ว่าชุดข้อมูล IBM HR ที่ใช้ร่วมกับเทคนิค Entity Embedding มีแนวโน้มที่จะให้ค่าประสิทธิภาพที่ดีกว่าเทคนิค One Hot Encoding

提供机构：

มหาวิทยาลัยธรรมศาสตร์

创建时间：

2023-09-19