five

การแบ่งกลุ่มข้อความภัยพิบัติจากทวิตเตอร์โดยใช้เทคนิคการประมวลผลภาษาธรรมชาติ

收藏
DataCite Commons2023-01-20 更新2025-04-16 收录
下载链接:
http://doi.nrct.go.th/?page=resolve_doi&resolve_doi=10.14457/TU.the.2022.61
下载链接
链接失效反馈
官方服务:
资源简介:
ในปัจจุบันสื่อสังคมออนไลน์ ได้เข้ามามีบทบาทในการดำเนินชีวิตของมนุษย์เป็นอย่างมากโดย ทวิตเตอร์ (Twitter) เป็นหนึ่งในสื่อสังคมออนไลน์ที่ทำให้การแพร่กระจายของข่าวสารเกิดขึ้นได้อย่างรวดเร็วและทำได้ง่ายดาย โดยเหตุการณ์ภัยพิบัตินั้นเป็นหนึ่งในข่าวสารที่มักมีการส่งต่อกันอย่างแพร่หลาย ซึ่งในการวิเคราะห์ข้อความที่เป็นข้อความที่เกี่ยวกับภัยพิบัติมักจะเป็นการวิเคราะห์ว่าข้อความภัยพิบัตินั้นเป็นจริงหรือไม่ หรือข้อความนั้นเกี่ยวกับภัยพิบัติประเภทใด ซึ่งงานในลักษณะดังกล่าวจะใช้การเรียนรู้ของเครื่องแบบมีผู้ฝึกสอน ซึ่งต้องมีป้ายกำกับ แต่ในความเป็นจริง ข้อความภัยพิบัติอาจสามารถวิเคราะห์หรือจัดหมวดหมู่ได้จากการเรียนรู้ของเครื่องแบบไม่มีผู้สอน โดยจัดกลุ่มข้อความที่มีลักษณะที่ใกล้เคียงกันเข้าเป็นกลุ่มเดียวกัน ทำให้สามารถจัดกลุ่มภัยพิบัติที่เกิดขึ้นใหม่ ๆ ตลอดเวลาได้โดยไม่จำกัดประเภท งานวิจัยที่ผ่านมาได้มีการศึกษาเปรียบเทียบเทคนิคการแทนคำ (Word representation) ต่าง ๆ เพื่อนำมาจัดกลุ่มข้อความเช่น CountVect, TF-IDF, Word2Vec, GloVe และ BERT แต่ยังไม่มีงานวิจัยใดที่เปรียบเทียบเทคนิคเหล่านี้กับข้อความที่เกี่ยวข้องกับภัยพิบัติที่ได้จากทวิตเตอร์งานวิจัยนี้จึงมีแนวคิดที่จะจัดกลุ่มข้อความภัยพิบัติออกเป็นหมวดหมู่ โดยจะเปรียบเทียบการใช้เทคนิคการแทนคำที่แตกต่างกัน 5 เทคนิคได้แก่ CountVect, TF-IDF, Word2Vec, GloVe และ BERT โดยทำการจัดกลุ่มข้อความด้วยอัลกอริทึม K-means และพิจารณาจำนวนกลุ่มที่เหมาะสมทั้งจากปัจจัยภายใน และปัจจัยภายนอกจากผลการทดลองพบว่าการแทนคำด้วยเทคนิค Word2Vec แบบ Skip-Gram ให้ประสิทธิภาพสูงที่สุด ถัดมาเป็นเทคนิค Word2Vec แบบ CBOW, BERT, GloVe, CountVect และ TF-IDF ตามลำดับ เมื่อใช้การวัดประสิทธิ์ภาพด้วยค่าสัมประสิทธิ์ Silhouette และทำการจัดกลุ่มด้วยอัลกอริทึม K-means
提供机构:
มหาวิทยาลัยธรรมศาสตร์
创建时间:
2023-01-20
二维码
社区交流群
二维码
科研交流群
商业服务