ตัวตรวจสอบการสะกดภาษาอังกฤษที่มีความเป็นส่วนตัวด้วย differential privacy

Name: ตัวตรวจสอบการสะกดภาษาอังกฤษที่มีความเป็นส่วนตัวด้วย differential privacy
Creator: มหาวิทยาลัยธรรมศาสตร์
Published: 2024-08-02 04:00:46
License: 暂无描述

DataCite Commons2024-08-02 更新2025-04-16 收录

下载链接：

http://doi.nrct.go.th/?page=resolve_doi&resolve_doi=10.14457/TU.the.2023.338

下载链接

链接失效反馈

官方服务：

资源简介：

การพิมพ์เพื่อสนทนาและพิมพ์เพื่อการทำงาน มีลักษณะหรือรูปแบบของการพิมพ์ผิดที่แตกต่างกัน เพื่อให้สามารถสร้างตัวแบบ (model) สำหรับตรวจสอบการสะกดคำที่สอดคล้องกับการใช้งานของบุคคลทั่วไปและมีประสิทธิภาพในการทำงานสูงสุด จึงมีความจำเป็นต้องใช้ชุดข้อมูลที่รวบรวมมาจากการพิมพ์เพื่อสนทนาในชีวิตประจำวันของบุคคลทั่วไป แต่เนื่องจากการพิมพ์เพื่อสนทนานั้น มิได้มีการเผยแพร่สู่สาธารณะ และถึงได้รับการร้องขอก็มีแนวโน้มสูงที่จะถูกปฏิเสธ เนื่องด้วยความกังวลว่าความเป็นส่วนตัวของข้อมูลจะถูกละเมิด เพื่อที่จะสร้างความมั่นใจให้กับผู้เป็นเจ้าของข้อมูลว่าความเป็นส่วนตัวของข้อมูลจะไม่ถูกละเมิด ผู้เก็บรวมรวบข้อมูลจึงมีความจำเป็นต้องมีกระบวนการรักษาความเป็นส่วนตัวและความปลอดภัยต่าง ๆ ที่จะทำให้ไม่มีข้อมูลใด ๆ หลุดสู่สาธารณะ แต่กลับพบว่าการป้องกันไม่ให้ข้อมูลหลุดสู่สาธารณะนั้นยังไม่เพียงพอที่จะรักษาความเป็นส่วนตัวของข้อมูลไว้ได้ เพราะการเผยแพร่ผลลัพธ์ที่แท้จริงของการประมวลผลทางสถิติใด ๆ รวมถึงผลลัพธ์ที่ได้จากอัลกอริทึมการเรียนรู้ของเครื่องจักร เป็นจำนวนที่มากเกินไป จะทำให้ผู้ไม่ประสงค์ดี (adversary) สามารถล่วงรู้ถึงข้อมูลได้อย่างค่อนข้างแม่นยำ ด้วยเหตุนี้จึงต้องมีกระบวนการอื่นเพิ่มเติม เพื่อที่จะป้องกันไม่ให้ผู้ไม่ประสงค์ดีสามารถอนุมานข้อมูลจากผลลัพธ์ของการสอบถาม (query) คุณสมบัตินี้เรียกว่าดิฟเฟอเรนเชียลไพรเวซี (differential privacy) โดยกระบวนการที่ใช้ในการทำให้การสอบถามมีความเป็นดิฟเฟอเรนเชียลไพรเวซีคือการทำให้ผลลัพธ์ที่ได้จากการสอบถามเกิดความคลาดเคลื่อน ด้วยการใส่สัญญาณรบกวนให้กับผลลัพธ์ที่แท้จริง โดยจะเรียกเทคนิคเหล่านี้ว่า กลไกรักษาความเป็นส่วนตัว (privacy mechanism)งานวิจัยนี้มีวัตถุประสงค์ เพื่อสร้างตัวแบบตรวจสอบการสะกดคำภาษาอังกฤษที่มีความเป็นส่วนตัวด้วยกลไกรักษาความเป็นส่วนตัวของดิฟเฟอเรนเชียลไพรเวซี และเปรียบเทียบความแม่นยำของตัวแบบปกติกับตัวแบบที่มีความเป็นส่วนตัว เพื่อหาว่ากลไกรักษาความเป็นส่วนตัวมีผลกระทบต่อความแม่นยำของตัวแบบมากน้อยแค่ไหน รวมถึงเปรียบเทียบความสามารถในการจดจำข้อมูล (memorization) ของตัวแบบปกติกับตัวแบบที่มีความเป็นส่วนตัว เพื่อหาว่ากลไกรักษาความเป็นส่วนตัวมีความสามารถในการยับยั้งการจดจำข้อมูลมากน้อยแค่ไหนผู้วิจัยนี้ได้เลือกตัวแบบที่เป็นโครงข่ายประสาทแบบย้อนกลับระดับครึ่งตัวอักษร (Semi-Character Recurrent Neural Network) มาใช้ในการทดลอง ซึ่งคือตัวแบบที่มีโครงสร้างเป็นโครงข่ายประสาทแบบลองชอร์ตเทิร์มเมมอรี (Long Short-Term Memory) ที่มีค่ารับเข้าเป็นเวกเตอร์ย่อยสามตัวที่เรียกว่า เวกเตอร์กึ่งตัวอักษร (semi-character vector) ในภาพรวมสามารถแบ่งการทดลองออกได้เป็นสองส่วน ส่วนแรกคือการเปรียบเทียบความแม่นยำของตัวแบบปกติกับตัวแบบที่มีความเป็นส่วนตัว และส่วนที่สองคือการเปรียบเทียบความสามารถในการจดจำข้อมูลของตัวแบบปกติกับตัวแบบที่มีความเป็นส่วนตัว โดยตัวแบบปกติคือตัวแบบที่ฝึกด้วย SGD (Mini-batch Gradient Descent) และตัวแบบที่มีความเป็นส่วนตัวคือตัวแบบที่ฝึกด้วย DP-SGD (Differentially Private Mini-batch Gradient Descent) ซึ่งได้กำหนดให้ กระบวนการฝึก ไฮเพอร์พารามิเตอร์ (hyperparameter) และชุดข้อมูลที่ใช้ ในการฝึกตัวแบบทั้ง 2 ประเภทเหมือนหรือใกล้เคียงกันเท่าที่เป็นไปได้ DP-SGD คืออัลกอริทึมที่จะใส่สัญญาณรบกวนให้กับผลลัพธ์ที่แท้จริงของการคำนวณค่าเกรเดียนต์ของอัลกอริทึม SGD และนำค่าเกรเดียนต์ที่ถูกใส่สัญญารรบกวนไปปรับค่าน้ำหนักและไบแอสของเซลล์ประสาทเทียม โดยขนาดของสัญญาณรบกวนจะขึ้นอยู่กับพารามิเตอร์ความเป็นส่วนตัวที่ประกอบด้วย เอปซิลอน (ε) เดลตา (δ) และเกณฑ์การตัดค่า (clipping threshold)จากการวิจัย พบว่าตัวแบบที่มีความเป็นส่วนตัวนั้นไม่สามารถตรวจสอบการสะกดคำผิดได้ เนื่องจากการกำหนดค่าพารามิเตอร์ความเป็นส่วนตัวที่ไม่เหมาะสมทำให้ขนาดของสัญญาณรบกวนที่ใส่ให้กับผลลัพธ์ของการคำนวณค่าเกรเดียนต์มีขนาดใหญ่เกินไป ส่งผลให้ตัวแบบเกิดความผิดผลาดในการทำนายเป็นอย่างมาก และยังพบกลไกรักษาความเป็นส่วนตัวมีผลกระทบต่อความแม่นยำของตัวแบบมาก โดยค่าที่ได้จากมาตราวัดอัตราความผิดพลาดของตัวอักษร (character error rate) ของตัวแบบที่มีความเป็นส่วนตัวนั้น มากกว่าตัวแบบปกติถึง 14 เท่า และค่าที่ได้จากมาตราวัดกลู (GLEU) ของตัวแบบที่มีความเป็นส่วนตัวนั้นน้อยกว่าตัวแบบปกติถึง 43 เท่า ในส่วนของเปรียบเทียบความสามารถในการจดจำข้อมูล พบว่าขนาดของสัญญาณรบกวนที่ใส่ให้กับค่าเกรเดียนต์มีขนาดใหญ่เกินไป จนตัวแบบที่มีความเป็นส่วนตัวไม่สามารถจดจำข้อมูลใด ๆ ได้เลย

提供机构：

มหาวิทยาลัยธรรมศาสตร์

创建时间：

2024-08-02