การวิเคราะห์ผลการเปรียบเทียบของเทคนิคการคาดคะเนข้อมูลสูญหายพื้นฐานที่มีมาตรวัดต่างกัน
收藏DataCite Commons2023-09-19 更新2025-04-16 收录
下载链接:
http://doi.nrct.go.th/?page=resolve_doi&resolve_doi=10.14457/TU.the.2022.596
下载链接
链接失效反馈官方服务:
资源简介:
ข้อมูลสูญหายส่งผลกระทบต่อการวิเคราะห์ข้อมูลและโมเดลการเรียนรู้ของเครื่องจักรเป็นอย่างมากเนื่องจากผลลัพธ์ของการวิเคราะห์ และโมเดลการเรียนรู้ของเครื่องจักรย่อมขึ้นอยู่กับข้อมูลที่นำมาใช้ หากข้อมูลไม่สมบูรณ์ย่อมส่งผลให้การวิเคราะห์และการเรียนรู้ของเครื่องจักรผิดพลาดได้ ในปัจจุบันมีงานวิจัยจำนวนไม่น้อยที่พยายามคิดค้นวิธีการแทนที่ข้อมูลสูญหายยกตัวอย่างเช่นใช้การเฉลี่ยเลขคณิตและฐานนิยม นอกจากนั้นยังมีการนำวิธีการที่ซับซ้อนยิ่งขึ้นอย่างการทำเหมืองข้อมูลมาใช้แทนที่ข้อมูลสูญหาย และศึกษาเปรียบเทียบประสิทธิภาพกับวิธีอื่นๆ เนื่องจากลักษณะของข้อมูลที่มีหลายชนิดเมื่อชนิดของข้อมูลที่สูญหายมีมาตรวัดต่างกันหากใช้การแทนที่ข้อมูลสูญหายตามมาตรวัดประสิทธิภาพที่ได้จะต่างกันกับการแทนที่ข้อมูลสูญหายแบบ ไม่พิจารณาชนิดของข้อมูลหรือไม่ งานวิจัยนี้จึงสนใจศึกษาโดยใช้ชุดข้อมูลตัวบ่งชี้สุขภาพเบาหวาน ทดลองแทนที่ข้อมูลสูญหายด้วย 3 เทคนิคได้แก่ ฐานนิยม มัธยฐาน-ฐานนิยม และ เคเนียร์เรสเนเบอร์ ทดสอบกับข้อมูล 2 ขนาดได้แก่ 249,049 ตัวอย่าง และ 5,000 ตัวอย่าง โดยมีอัตราการสูญหายที่ 10-50% และวัดผลโดยใช้ความถูกต้องที่ได้จากโมเดลการจำแนกผู้ที่มีภาวะเบาหวาน จากการทดลองพบว่าโมเดลที่ถูกแทนที่ข้อมูลสูญหายด้วย ฐานนิยม มัธยฐาน-ฐานนิยม และ เคเนียร์เรสเนเบอร์ให้ความถูกต้องเฉลี่ยใกล้เคียงกับโมเดลที่สร้างจากข้อมูลที่มีความสูญหาย และการใช้เทคนิคแทนที่ข้อมูลสูญหายตามมาตรวัดโดยใช้ฐานนิยมกับข้อมูลชนิดหมวดหมู่และใช้ มัธยฐานกับข้อมูลชนิดตัวเลขไม่ได้ช่วยปรับปรุงความถูกต้องให้ดีขึ้นในข้อมูลขนาดใหญ่ ส่วนในข้อมูลขนาดเล็กพบว่าวิธีการนี้สามารถปรับปรุงความถูกต้องให้ดีขึ้นเพียงเล็กน้อย
提供机构:
มหาวิทยาลัยธรรมศาสตร์
创建时间:
2023-09-19



