การตีความตัวแบบการเรียนรู้ของเครื่องด้วย SHAP (shapley additive explanations): กรณีศึกษาโมเดลการจำแนกและโมเดลการถดถอย

Name: การตีความตัวแบบการเรียนรู้ของเครื่องด้วย SHAP (shapley additive explanations): กรณีศึกษาโมเดลการจำแนกและโมเดลการถดถอย
Creator: มหาวิทยาลัยธรรมศาสตร์
Published: 2024-06-13 01:30:25
License: 暂无描述

DataCite Commons2024-06-13 更新2024-07-13 收录

下载链接：

http://doi.nrct.go.th/?page=resolve_doi&resolve_doi=10.14457/TU.the.2022.1594

下载链接

链接失效反馈

官方服务：

资源简介：

การสร้างความสามารถที่อธิบายได้ให้กับโมเดลการเรียนรู้ของเครื่อง เป็นแรงบันดาลใจหลักในการทำวิจัยนี้ โดยการนำ SHAP (Shapley Additive exPlanations) มาช่วยอธิบายว่า โมเดลการเรียนรู้ของเครื่องมีกระบวนการตัดสินใจอย่างไร ซึ่ง SHAP เป็นเฟรมเวิร์คที่มีเครื่องมือเพื่อช่วยให้เราทำความเข้าใจถึงกระบวนการตัดสินใจ ว่าคุณสมบัติ (feature) ต่าง ๆ มีความสำคัญอย่างไรกับผลลัพธ์การทำนาย (model output) และทำให้เราเข้าใจความสัมพันธ์ระหว่างตัวแปร (input variable) ที่ส่งผลต่อการทำนาย (prediction) ซึ่งจะช่วยสร้างความมั่นใจและเข้าใจในตัวแบบที่เราสร้างขึ้นได้ดียิ่งขึ้นการค้นคว้าอิสระนี้มีวัตถุประสงค์เพื่อแสดงให้เห็นถึงกระบวนการสร้างความสามารถที่อธิบายได้ให้กับโมเดลการเรียนรู้ของเครื่องโดยนำ SHAP เข้ามาช่วยอธิบายและตีความปัญหาด้านการคัดแยก (classification problem) และปัญหาด้านการถดถอย (regression problem) ในการตีความตัวแบบเหมืองทั้งในระดับ global interpretation และ local interpretation โดยปัญหาด้านการคัดแยก (classification problem) ใช้กรณีศึกษาการคัดแยกผู้ป่วยที่มีผลตรวจ covid-19 เป็นบวก และการคัดแยกประเภทของการจำหน่ายผู้ป่วยเข้าไปที่ intensive care unit (ICU) ด้วยการเลือกใช้อัลกอริทึมที่แตกต่างกัน 7 อัลกอริทึมได้แก่ Logistic regression, Decision tree, Random forest, K-NN, SVMs, XGBoost, Multi-layer perceptron (MLP) สำหรับปัญหาด้านการถดถอย (regression problem) ใช้กรณีศึกษาการทำนายค่ารักษาพยาบาล ด้วยการเลือกใช้อัลกอริทึมที่แตกต่างกัน 3 อัลกอริทึม ได้แก่ linear regressor, random forest regressor, XGBoost regressorตัวแบบเหมือง XGBoost model ถูกเลือกเพื่อเป็นตัวแทนในการสร้าง “glass-box” ร่วมกันกับ SHAP เพื่อใช้ในการการอธิบายปัญหาทั้งสองกรณีศึกษา ผู้วิจัยได้สร้างส่วนขยายการแปรผลตัวแบบด้วย SHAP รวมถึงการนำ SHAP values เข้ามาอธิบายความสำคัญ และ contribution ของคุณลักษณะต่าง ๆ ที่ส่งผลโดยตรงต่อโมเดลทำนายผลการวิจัยพบว่า สำหรับปัญหาด้านการคัดแยกกรณี Covid-19 ด้วยการนำ SHAP เข้ามาช่วยในกระบวนการคัดเลือกคุณสมบัติ สามารถคัดเลือกคุณสมบัติที่สำคัญที่สุด 10 ลำดับจาก 42 ลำดับ ทำให้สามารถลดต้นทุนการคำนวณได้ถึงร้อยละ 58.7 ในขณะที่ค่าความแม่นยำคงที่ที่ร้อยละ 90 ส่วนปัญหาด้านการถดถอย พบว่า โมเดล SVMs ให้ค่าความแม่นยำที่ดีที่สุดที่ร้อยละ 87.3 โดยสามารถระบุคุณสมบัติที่สำคัญที่สุด 4 คุณสมบัติที่ส่งผลต่อโมเดลทำนายในงานวิจัยนี้ได้นำ SHAP values มาช่วยค้นหา contribution ของคุณลักษณะต่าง ๆ ให้กับโมเดลทำนาย (model prediction) ซึ่งข้อมูลดังกล่าวเป็นข้อมูลสนับสนุนการตัดสินใจที่สำคัญในการคัดเลือกคุณสมบัติ และเป็นปัจจัยสำคัญที่ส่งผลต่อการตัดสินใจของโมเดลทำนาย นอกจากนี้ ยังช่วยให้เราเข้าใจพฤติกรรมของโมเดลทำนายได้ดียิ่งขึ้นและยังสามารถช่วยในกระบวนการคัดเลือกคุณสมบัติ (feature selection) ที่สำคัญที่สุดสำหรับโมเดลทำนายด้วยแนวคิด “glass box”

提供机构：

มหาวิทยาลัยธรรมศาสตร์

创建时间：

2024-06-13