การคัดกรองปัญหาสุขภาพจิตด้วยเทคโนโลยี AI
excerpt
ปัญหาสุขภาพจิตมีแนวโน้มทวีความรุนแรงขึ้นจากแรงกดดันด้านเศรษฐกิจทั้งที่อยู่ในช่วงขาลงและที่มีความไม่แน่นอนสูงขึ้น ขณะเดียวกัน ทรัพยากรทางสาธารณสุขเพื่อแก้ปัญหาสุขภาพจิตก็มีภาระและข้อจำกัดที่มากขึ้น ส่วนหนึ่งจากโรคระบาดโควิด ปัจจัยเสี่ยงที่สูงขึ้นเหล่านี้พร้อมกับพฤติกรรมการใช้โซเชียลมีเดียอย่างแพร่หลายได้จุดประกายให้เกิดการวิจัยด้วยเทคนิค deep learning1 ใหม่ ๆ เพื่อใช้แยกแยะอารมณ์ ความรู้สึก และแนวโน้มความเสี่ยงที่จะฆ่าตัวตายจากข้อความบนโซเชียลมีเดีย การพัฒนาเทคโนโลยีนี้อาจเป็นอีกทางเลือกหนึ่งที่สามารถคัดกรองผู้มีปัญหาสุขภาพจิตได้อย่างมีประสิทธิภาพ ซึ่งจะสามารถลดภาระของบุคลากรทางการแพทย์ได้ในที่สุด ทั้งนี้ การศึกษาชี้ให้เห็นว่าผลลัพธ์จากแบบจำลองมีความสัมพันธ์กับข้อมูลผู้ป่วยทางจิตจริงสูง และสามารถนำมาใช้เป็นเครื่องชี้ได้ โดยพบว่าหากมีข้อความที่มีอารมณ์กลัว เศร้า และขยะแขยงในโซเชียลมีเดียเพิ่มขึ้น ถือเป็นสัญญาณเตือนว่าน่าจะมีจำนวนคนฆ่าตัวตาย หรือผู้ป่วยที่พยายามฆ่าตัวตายและทำร้ายตัวเองสูงขึ้นในอีกไม่กี่เดือนต่อมา และหากมีการแสดงออกด้วยอารมณ์กลัวและความรู้สึกด้านลบมากขึ้น มักจะมีจำนวนผู้ป่วยซึมเศร้าสูงขึ้นจริงในช่วงต่อมา
ช่วงสองปีที่ผ่านมากับวิกฤตโควิด มีปัจจัยเสี่ยงที่ส่งผลทางลบต่อสุขภาพจิตมากขึ้น โดยบทความ วิกฤติเศรษฐกิจ วิกฤติคน (Tawichsri & Sa-ngimnet, 2021) ได้แสดงให้เห็นถึงผลกระทบที่อาจเกิดจากวิกฤตเศรษฐกิจ ความไม่แน่นอน และโรคระบาดโควิดต่อปัญหาสุขภาพจิต ซึ่งนอกจากจะมีปัจจัยเสี่ยงที่ทำให้เกิดปัญหาสุขภาพจิตมากขึ้น ทั้งความกังวลที่เกิดจากปัญหาเศรษฐกิจ ความเปลี่ยนแปลงที่เกิดจากมาตรการควบคุมโรคระบาด เช่น การปิดเมืองและมาตการกักตัวแล้ว ยังมีความกังวลต่อการติดโรคที่ทำให้คนหลีกเลี่ยงการไปสถานพยาบาลมากขึ้นอีกด้วย
ขณะเดียวกัน การคัดกรองผู้ป่วย การเฝ้าระวัง และการจัดการกับปัญหาสุขภาพจิตในปัจจุบันมีข้อจำกัดที่มากขึ้น โดยมีแรงกดดันหลักสามประการด้วยกัน ได้แก่
- บุคลากรทางการแพทย์มีจำกัด ขณะที่จำนวนผู้มีปัญหาสุขภาพจิตที่เพิ่มขึ้นและโรคระบาดโควิดได้สร้างแรงกดดันต่อระบบสาธารณสุขมากขึ้น
- ตัวชี้วัดทางสุขภาพจิตเป็นข้อมูลที่สะท้อนปัญหาที่บางครั้งก็สายเกินแก้แล้ว อาทิ อัตราการฆ่าตัวตาย หรือ ความชุกชุมของจำนวนผู้ป่วย
- ขั้นตอนการกลั่นกรองผู้ป่วยในปัจจุบันมีข้อจำกัด โดยผู้ป่วยต้องตระหนักถึงปัญหาสุขภาพจิตของตนเองก่อนและเข้าถึงบริการทางการแพทย์ได้จึงจะมีโอกาสได้รับการรักษา
เพื่อช่วยจัดการกับข้อจำกัดและแรงกดดันสำคัญต่าง ๆ ดังกล่าว งานวิจัย Tuarob et al. (2022) จึงได้พัฒนาปัญญาประดิษฐ์ (Artificial Intelligence: AI) ที่สามารถนำมาใช้เพื่อแยกแยะอารมณ์ ความรู้สึก และผู้มีความเสี่ยงฆ่าตัวตายจากข้อความบนโซเชียลมีเดียที่ผู้ใช้แชร์ โดยเทคโนโลยี AI มีข้อดีคือ
- สามารถพัฒนาเป็นระบบอัตโนมัติ ช่วยแบ่งเบาภาระของบุคลากรทางการแพทย์ได้
- หากสามารถพัฒนาเครื่องชี้ โดยเฉพาะที่มีคุณสมบัติเป็นข้อมูลเร็วแบบล่วงหน้า (leading indicator) ที่เผยปัญหาสุขภาพจิตได้ก่อนตัวชี้วัดอื่น ๆ ที่มีในปัจจุบันก็จะช่วยให้จับปัญหาได้เร็วขึ้น เป็นการตัดไฟแต่ต้นลมก่อนปัญหาสุขภาพจิตจะเรื้อรังและรักษาได้ยากขึ้
- การคัดกรองเป็นไปได้ในวงกว้างและเข้าถึงผู้ป่วยได้มากกว่าระบบการคัดกรองในปัจจุบัน ที่โดยมากผู้ป่วยต้องเข้ารับการรักษาเอง หรือได้รับการรักษาด้านอื่นอยู่และแพทย์ผู้ดูแลส่งมารับการรักษาด้านจิตเวชไปควบคู่ด้วย
บทความนี้จะกล่าวถึงผลการศึกษาจาก Tuarob et al. (2022) ซึ่งเป็นผลงานของคณะผู้วิจัยเองเป็นหลัก โดยได้เก็บรวบรวมข้อความโซเชียลมีเดียภาษาไทย และข้อมูลอื่น ๆ ที่เกี่ยวข้อง และทดลองหาอัลกอริทึมที่เหมาะสมกับการแบ่งประเภทข้อความในภาษาไทย การศึกษานี้มีคุณูปการหลักอยู่สองประการ คือ 1) ระบุได้ว่าอัลกอริทึมใดมีความสามารถในการแบ่งประเภทข้อความโซเชียลมีเดียภาษาไทยได้ดีที่สุด และ 2) ระบุความสัมพันธ์ของผลลัพธ์ที่ได้จากแบบจำลองกับข้อมูลสุขภาพจิตระดับประชากรเพื่อหาตัวชี้วัดที่สามารถนำมาใช้ในการเฝ้าระวังปัญหาสุขภาพจิตระดับประชากรได้
ปัจจุบันมีผู้ใช้โซเชียลมีเดียมากขึ้นทุกวัน จากข้อมูล Statista ประเทศไทยมีผู้ใช้ social media 42.2 ล้านคนในปี 2017 เพิ่มขึ้นมาเป็น 52.7 ล้านคนในปี 2020 และยังมีแนวโน้มเพิ่มขึ้นเรื่อย ๆ ผู้ใช้มีการแชร์ทั้งความรู้สึก ความคิดเห็น หรือประสบการณ์ต่าง ๆ ผ่านข้อความโซเชียลมีเดีย ขณะที่การใช้ AI มาวิเคราะห์ข้อความและเนื้อหาที่ผู้ใช้งานโซเชียลมีเดียแชร์ไปใช้ในทางการค้าไม่ใช่เรื่องใหม่ เช่น การใช้อัลกอริทึมมาเรียนรู้ลักษณะสินค้าที่ผู้ใช้ชอบจากข้อความที่แชร์ หรืออย่างที่หลายคนคงมีประสบการณ์ตรงกับการได้รับโฆษณาสินค้าที่ตรงกับความชอบของตนบนโซเชียลมีเดีย
อย่างไรก็ดี ในช่วงที่ผ่านมาได้มีการพัฒนา AI มาใช้กับการตรวจจับปัญหาสุขภาพจิตจากข้อความที่ผู้ใช้โซเชียลมีเดียแชร์อย่างต่อเนื่อง การทบทวนงานวิจัยในแขนงนี้ พบว่ามีวิธีการกลั่นกรองผู้มีปัญหาสุขภาพจิตเพื่อสร้างฐานข้อมูลในการฝึกอัลกอริทึมหลัก ๆ 3 วิธีด้วยกัน ได้แก่
- ให้ทำแบบสอบถามเพื่อประเมินภาวะสุขภาพจิต
- คัดสรรผู้ใช้ที่แชร์ผลการวินิจฉัยว่าตนมีปัญหาสุขภาพจิตผ่านโซเชียลมีเดีย
- เลือกผู้ที่เป็นสมาชิกของกลุ่มสนับสนุนผู้มีปัญหาสุขภาพจิต2 (Guntuku et al., 2017)
ตัวอย่างงานวิจัยเด่น ๆ เช่น Coppersmith et al. (2018) ที่สร้างชุดข้อมูลของผู้มีแนวโน้มฆ่าตัวตาย โดยการคัดกรองผู้ที่ตอบแบบสอบถาม หรือ ระบุบนโซเชียลมีเดียว่าตนเองได้พยายามฆ่าตัวตาย Shen et al. (2017) ที่สร้างฐานข้อมูลของผู้มีอาการโรคซึมเศร้าจากข้อความบน Twitter ด้วยวิธีการคล้ายกันและดึง feature ต่าง ๆ ทั้งจากข้อความ พฤติกรรมออนไลน์ รวมทั้งอ้างอิงอาการของผู้มีปัญหาซึมเศร้าตามคู่มือของสมาคมจิตแพทย์สหรัฐอเมริกา เช่น อารมณ์ซึมเศร้า ความเบื่อหน่าย น้ำหนักและความอยากอาหารที่เปลี่ยนไป การนอนหลับ เป็นต้น ในงานวิจัยล่าสุด อาทิ Zhou et al. (2021) และ Ghosh & Anwar (2021) พบว่าผู้มีอาการซึมเศร้ามักมีการโพสต์ข้อความที่แสดงอารมณ์ด้านลบ มีคำที่สื่อถึงความเครียด ความเศร้า และโพสต์ข้อความเกี่ยวกับเรื่องส่วนตัวบ่อยครั้งในช่วงเวลาดึก
แม้จะมีงานวิจัยใหม่ ๆ ที่ใช้เทคโนโลยี AI และข้อความจากโซเชียลมีเดียในการกลั่นกรองและตรวจจับปัญหาสุขภาพจิต แต่งานวิจัยเหล่านี้ทำการศึกษาโดยใช้ฐานข้อมูลภาษาอังกฤษ อัลกอริทึมที่พัฒนาจึงมีความสามารถในการทำนายข้อความที่เป็นภาษาอังกฤษเท่านั้น และไม่สามารถนำมาใช้กับภาษาไทยได้โดยตรง อย่างไรก็ดี การสร้างฐานข้อมูลขึ้นมาใหม่มีต้นทุนสูงมาก ซึ่งเป็นข้อจำกัดที่นักวิจัยต่างทราบกันดี นักวิจัยจึงได้มีการพัฒนาอัลกอริทึมใน framework ที่เรียกว่า Cross-Lingual Text Classification (CLTL) หรือแบบจำลองแบ่งประเภทข้อความข้ามภาษา ซึ่งมีความคุ้มค่ากับต้นทุนมากกว่าโดยเปรียบเทียบ
ที่จริงแล้ว การแยกแยะอารมณ์ ความรู้สึก หรือ แนวโน้มด้านสุขภาพจิตจากข้อความ คือ โจทย์การแบ่งประเภทข้อความ (text classification) แบบหนึ่ง แต่ด้วยฐานข้อมูลภาษาไทยที่มีจำกัด โจทย์ในการศึกษานี้จึงเป็นการพัฒนาแบบจำลองแบ่งประเภทข้อความข้ามภาษา (CLTC) ซึ่งเป็นการพัฒนาอัลกอริทึมให้สามารถใช้ข้อมูลที่ใช้ฝึกโมเดลในภาษาหนึ่ง (ภาษาต้นทาง หรือ source language) แต่มีความสามารถในการแยกแยะข้อความจากอีกภาษาหนึ่งได้ (ภาษาเป้าหมาย หรือ target language) โดย CLTC สามารถทำได้สองวิธีหลัก ๆ ด้วยกัน ได้แก่
- วิธีการใช้เครื่องแปล (machine translation approach) โดยการแปลข้อความจากภาษาเป้าหมายให้เป็นภาษาเดียวกับภาษาต้นทาง แล้วนำข้อความที่แปลแล้วมาแปลงผลเป็นรูปแบบที่แบบจำลองเข้าใจได้ (โดยการใช้ encoder มาแปลงข้อความเป็น vector representation) และให้แบบจำลองทำการแบ่งประเภทต่อไป
- วิธีการใช้ตัวแทนข้ามภาษา (cross-lingual representation approach) โดยวิธีนี้ไม่ใช้การแปลภาษาจากภาษาเป้าหมายเป็นภาษาต้นทางโดยตรง แต่ใช้ encoder ที่สามารถแปลงข้อความจากหลาย ๆ ภาษามาแปลงข้อความจากทั้งภาษาเป้าหมายและภาษาต้นทางให้มี vector representation เป็นแบบเดียวกันถ้วนหน้า (language-agnostic representation) ทั้งนี้ การพัฒนา encoder ที่มีความสามารถนี้ได้ จะมีการใช้กลุ่มคำจากหลาย ๆ ภาษาในการฝึก encoder พร้อม ๆ กันไป
การทดลองได้แบ่งประเภทข้อความออกเป็น 3 หมวดด้วยกัน ประกอบด้วย
- อารมณ์ ได้แก่ อารมณ์โกรธ ขยะแขยง กลัว มีความสุข เศร้า แปลกใจ และกลาง ๆ
- ความรู้สึก ได้แก่ บวก ลบ กำกวม และกลาง ๆ
- ความเสี่ยงในการฆ่าตัวตาย ได้แก่ ผู้ที่มีความเสี่ยงในการฆ่าตัวตาย และไม่เสี่ยง
ขั้นตอนการทดลองในการศึกษา (รูปที่ 1) มีดังต่อไปนี้
- การสร้างฐานข้อมูลเพื่อใช้ในการทดลอง ได้แก่ ข้อความโซเชียลมีเดียภาษาไทย ชุดข้อมูลภาษาอังกฤษที่ใช้ในการฝึกอัลกอริทึม และข้อมูลผู้ป่วยสุขภาพจิตอื่น ๆ
- การฝึกฝนอัลกอริทึม (train) โดยใช้ฐานข้อมูลภาษาอังกฤษที่ได้รวบรวมมาฝึกอัลกอริทึมแบบต่าง ๆ
- การเลือกอัลกอริทึม (evaluate) โดยใช้ข้อความภาษาไทยจากโซเชียลมีเดียที่คณะผู้วิจัยได้ทำการแบ่งประเภทมาทดสอบประสิทธิภาพในการแบ่งข้อความของอัลกอริทึมแบบต่าง ๆ
- ตรวจสอบผลจากแบบจำลองกับข้อมูลผู้ป่วยจริง (cross-validation) โดยหาความสัมพันธ์ระหว่างผลลัพธ์ที่อัลกอริทึมแปลผลออกมากับจำนวนผู้ป่วยโรคซึมเศร้าและฆ่าตัวตายที่ได้เข้ารับการรักษา
ข้อมูลที่ใช้ในการทดลองมีทั้งหมด 4 ชุดหลัก ๆ ด้วยกัน และมีรายละเอียด ดังนี้
- ข้อมูลโซเชียลมีเดียภาษาไทย คณะผู้วิจัยได้เก็บตัวอย่างข้อความจาก Twitter ในช่วงเดือนกรกฎาคม 2019 ถึง ธันวาคม 2020 รวมทั้งหมดเป็นจำนวน 1,286,942 ข้อความ โดยเก็บจาก Twitter API เพื่อให้ได้ข้อความที่เป็นตัวแทนข้อความ Twitter ของไทยมากที่สุด
- ข้อมูลภาษาอังกฤษที่ใช้ในการฝึกแบบจำลอง เราได้เก็บข้อมูลมาใช้ในการฝึกแบบจำลองมีจากสองแหล่ง ได้แก่ GoEmotion Project และ subreddit r/SuicideWatch โดยมีรายละเอียดดังนี้
- อารมณ์ (emotion) เราใช้ข้อมูลที่มี label อารมณ์ต่าง ๆ จาก GoEmotion Project (Demszky et al., 2020) โดยมีข้อความที่มี label แล้วจาก Reddit จำนวน 54,000 ข้อความ และมีความละเอียดถึง 27 อารมณ์ แต่เนื่องด้วยรายละเอียดที่มากเกินไป จึงได้ทำการ map อารมณ์เหล่านี้ออกมาเป็น 7 อารมณ์หลัก อ้างอิงตาม Ekman Emotion (Ekman, 1992) โดยใช้ mapping ที่ GoEmotion ได้จัดทำไว้
- ความรู้สึก (sentiment) เราใช้ข้อมูลจาก GoEmotion Project เช่นกัน โดยได้ใช้ mapping จาก 27 อารมณ์ มาเป็น Sentiment หลัก 4 ความรู้สึก ประกอบด้วย บวก ลบ ก้ำกึ่ง และ กลาง ๆ
- แนวโน้มมีความคิดฆ่าตัวตาย (suicidal tendency) เราได้สร้างฐานข้อมูลภาษาอังกฤษของข้อความที่เขียนโดยผู้มีความเป็นไปได้ในการฆ่าตัวตายจาก subreddit ที่ชื่อว่า “r/SuicideWatch” ทั้งนี้ ได้เก็บข้อความจำนวนกว่า 116,037 ข้อความจาก subreddit นั้น และได้ใช้ข้อความจาก GoEmotion ที่ได้รับการ label ว่า positive จากด้านบนมาเป็นกลุ่มข้อความที่เขียนโดยผู้ที่ไม่มีความเสี่ยงในการฆ่าตัวตาย
- ข้อมูลผู้ป่วยจริงเพื่อใช้ในการตรวจสอบผลจากแบบจำลอง คณะผู้วิจัยได้เก็บข้อมูลจำนวนผู้ป่วยที่มีอาการซึมเศร้าและมีแนวโน้มฆ่าตัวตายที่รายงานโดยกรมสุขภาพจิต เพื่อที่จะประเมินว่าผลลัพธ์จากแบบจำลองทั้งทางด้านอารมณ์ ความรู้สึก และแนวโน้มในการฆ่าตัวตายที่ได้สร้างขึ้นมานั้นมีความสัมพันธ์กับจำนวนผู้ป่วยทางสุขภาพจิตจริงมากน้อยเพียงใด
- Google Search Index เพื่อเป็น benchmark ในการเปรียบเทียบประสิทธิภาพของตัวชี้วัด โดยใช้คำว่า “โรคซึมเศร้า” และ “ฆ่าตัวตาย” มาเป็นตัวชี้วัดเปรียบเทียบ เพื่อให้มีเกณฑ์อ้างอิง (benchmark) ว่าเครื่องชี้ที่ได้สร้างขึ้นมามีประสิทธิภาพเพียงใด
คณะผู้วิจัยได้ทดลองแบ่งประเภทข้อความกับแบบจำลองหลายแบบเพื่อที่จะเฟ้นหาอัลกอริทึมที่สามารถแบ่งประเภทข้อความได้ดีที่สุด โดยสามารถแบ่งแบบจำลองออกเป็น 2 ประเภทหลัก คือ
- Traditional Machine Learning Algorithm (เช่น SVM, MNB, Bi-LSTM) แบบจำลองในกลุ่มนี้เป็นอัลกอริทึมแรก ๆ ที่ได้มีการพัฒนาขึ้นมาสำหรับเทคโนโลยีการเรียนรู้ของเครื่อง คณะผู้วิจัยได้ใช้เทคนิคแบบ bag-of-words traditional method ในการทดลอง ซึ่งเป็นเทคนิคที่พิจารณาองค์ประกอบของคำภายในประโยคเป็นหลักโดยไม่สนใจลำดับของคำ โดยได้ใช้ TF-IDF encoders3 สำหรับแต่ละฐานข้อมูลและเก็บคำจำนวน 200 คำที่ใช้บ่อยที่สุด หลังจากนั้น จึงใช้ TF-IDF vectors ที่ได้มาฝึกฝนแบบจำลอง Multinomial Naïve Bayes Model (MNB) และ Support Vector Machine model (SVM) ส่วนแบบจำลอง Long Short-Term Memory(LSTM) เราได้ใช้ Bi-directional LSTM (Bi-LSTM) โดยการใช้ FastText ในการทำ word embedding
- Language Model Fine Tuning Approach (เช่น BERT, RoBERTa, LaBSE) สำหรับ deep learning แบบจำลองกลุ่มนี้ใช้เทคโนโลยีการเรียนรู้แบบสองด้านของ transformer ซึ่งเป็นแบบจำลองที่ได้รับความนิยมในการฝึกกลไก attention เพื่อสร้างแบบจำลองสำหรับภาษา ความโดดเด่นของแบบจำลองกลุ่มนี้คือ ความสามารถในการสกัดความหมายเชิงลึกของข้อความในการทำ context embedding ได้ ทั้งนี้ สำหรับแบบจำลอง LaBSE (Language-agnostic BERT Sentence Embedding) ถือเป็นการฝึกสอนแบบจำลองแบบ Bidirectional Encoder Representations from Transformers (BERT)ให้สามารถสร้าง embedding ได้ในหลาย ๆ ภาษาพร้อมกัน สามารถที่จะเชื่อมโยงข้อความภาษาหนึ่งไปยังอีกภาษาหนึ่งได้โดยอัตโนมัติและไม่ต้องใช้เครื่องแปลภาษา
ซึ่งโดยทั่วไปจะมีการคำนวณคะแนน 3 แบบหลัก ๆ ด้วยกัน เพื่อประเมินประสิทธิภาพของอัลกอริทึม ได้แก่
- คะแนนความแม่นยำ (Precision: P)
- Recall หรือ sensitivity (R)
- F1 ซึ่งเป็นค่าเฉลี่ย (harmonic mean) ของ P และ R4
คณะผู้วิจัยได้ทดลองเปรียบเทียบอัลกอริทึมข้างต้น ซึ่งจากผลการทดลองในขั้นตอนแรกนี้ คณะผู้วิจัยพบว่าอัลกอริทึมแบบ language model fine-tuning approach (BERT, RoBERTa, LaBSE) สามารถแบ่งข้อความได้แม่นยำกว่าอัลกอริทึม Machine learning (ML) แบบ traditional (SVM, MNB, Bi-LSTM) (รูปที่ 2)
หลังจากนั้น เพื่อที่จะหาแบบจำลองที่ดีที่สุดสำหรับการแบ่งประเภทข้อความโซเชียลมีเดียภาษาไทยต่อไป คณะผู้วิจัยได้เลือกแบบจำลองที่มีคะแนน F1 สูงและเป็นตัวแทนแบบจำลองแต่ละประเภท ได้แก่ 1) SVM 2) BERTและ 3) LaBSE มาเปรียบเทียบกัน ซึ่งสองแบบแรกนั้นเป็นวิธีการใช้เครื่องแปล5 แต่ SVM เป็นแบบจำลอง ML แบบดั้งเดิม ส่วน BERT เป็นแบบจำลองทางภาษาแบบ fine tuning ขณะที่ LaBSE เป็นวิธีการใช้ตัวแทนข้ามภาษา
จากการเปรียบเทียบอัลกอริทึมด้วยการทดสอบกับชุดข้อความโซเชียลมีเดียภาษาไทย (รูปที่ 3) คณะผู้วิจัยพบข้อสรุปสำคัญว่า
- โดยรวมแล้ว LaBSE ทำได้ดีที่สุดในการแยกประเภทข้อความ ทั้งการแยกอารมณ์ ความรู้สึก และความเสี่ยงในการฆ่าตัวตาย รองลงมาคือ BERT และ SVM เป็นอันดับสุดท้าย (รูปที่ 3 จากคะแนน F1) ซึ่ง LaBSE ได้ทั้งคะแนน P R และ F1 สูงที่สุด ยกเว้นการแยกแยะอารมณ์ที่ SVM มี sensitivity มากกว่า
- LaBSE มีคะแนน sensitivity ค่อนข้างสูงเกิน 0.8 ทั้งในการแบ่งประเภทอารมณ์ ความรู้สึก และผู้มีความเสี่ยงฆ่าตัวตาย ซึ่งหมายความว่าในการแบ่งแยกข้อความที่เขียนโดยผู้มีความเสี่ยงฆ่าตัวตายนั้น มีโอกาสที่จะพลาดไม่ได้นับรวมผู้มีความเสี่ยง น้อยกว่าร้อยละ 20 ทั้งนี้ แบบจำลองยิ่งมีคะแนน sensitivity สูงยิ่งดีหากเราต้องการคัดกรองหาผู้ป่วยที่มีความเสี่ยงให้ได้มากที่สุด
เพื่อทดสอบว่าตัวชี้วัดต่าง ๆ ที่เราได้ถอดมาจากข้อมูลโซเชียลมีเดียนั้นมีความสัมพันธ์กับจำนวนผู้ป่วยจริงและสามารถนำมาใช้เป็นตัวชี้วัดได้หรือไม่ คณะผู้วิจัยได้นำข้อมูลในแต่ละประเภท แบ่งตาม อารมณ์ ความรู้สึก และแนวโน้มในการฆ่าตัวตายมาแปลงเป็นข้อมูลอนุกรมเวลารายเดือน แล้วทำการวิเคราะห์หาค่าสหสัมพันธ์ (correlation) กับข้อมูลจำนวนผู้ป่วยจริงรายเดือน การหาความสัมพันธ์มีการใช้อนุกรมที่มี time-shift ทั้งสามเดือนหน้าและหลังเพื่อดูว่าตัวชี้วัดมีความสัมพันธ์แบบนำ (lead) หรือ ตาม (lag) กับข้อมูลจริงหรือไม่ อย่างไร
จากการวิเคราะห์พบว่าสัญญาณที่ได้จากข้อความโซเชียลมีเดียมีความสัมพันธ์ทางสถิติกับจำนวนผู้ป่วยจริง โดยหากมีข้อความที่แสดงความรู้สึกและอารมณ์ทางลบเช่น ความกลัว เศร้า และขยะแขยงเพิ่มมากขึ้น ก็มักมีผู้ป่วยที่ทำร้ายตัวเองและผู้ที่ฆ่าตัวตายสำเร็จเพิ่มขึ้นด้วยในช่วง 2–3 เดือนถัดมา (correlation > 0.75 แถวที่ 2–4 ในรูปที่ 4) นอกจากนี้ ยังพบว่าสัญญาณความเสี่ยงในการฆ่าตัวตายเพิ่มขึ้นสูงที่สุดในช่วง 2–3 เดือนหลังจากช่วงที่มีจำนวนผู้ป่วยโรคซึมเศร้า (correlation = 0.54) ผู้ป่วยเฝ้าระวังทำร้ายตัวเอง (correlation = 0.77)และทำร้ายตัวเอง (correlation = 0.86) เพิ่มสูงขึ้น (แถวที่ 6 ในรูปที่ 4)
สัญญาณจากข้อความโซเชียลมีเดียบางประเภทสามารถเป็นเครื่องชี้ที่เตือนล่วงหน้าได้ว่า อาจมีผู้ป่วยด้านสุขภาพจิตหรือการฆ่าตัวตายเพิ่มขึ้นในเวลาไม่ช้า โดยเครื่องชี้ 3 ตัวที่สามารถเตือนว่าในช่วงสามเดือนถัดมามีแนวโน้มจำนวนผู้ฆ่าตัวตายสูงขึ้น ได้แก่ อารมณ์ขยะแขยง อารมณ์กลัว และสัญญาณความเสี่ยงฆ่าตัวตาย (รูปที่ 5) และผลการศึกษาพบว่าแบบจำลองที่พัฒนามานั้น แบบจำลอง LaBSE สามารถแยกประเภทข้อความแบบข้ามภาษาได้ดีที่สุด และมีคะแนนความแม่นยำและ sensitivity สูง ซึ่งแปลว่ามีความสามารถในการคัดกรองข้อความภาษาไทยที่ถูกต้องและไม่ตกหล่นค่อนข้างสูง
การศึกษาที่ปรากฎในบทความนี้ถือเป็นจุดเริ่มต้นในการพัฒนาแบบจำลองและฐานข้อมูลที่หากมีการพัฒนาต่อไปก็น่าจะช่วยบรรเทาภาระและลดต้นทุนทางสาธารณสุขในการกลั่นกรองผู้ป่วยทางสุขภาพจิตได้ไม่มากก็น้อย อย่างไรก็ดี หากต้องการต่อยอดนำไปใช้คัดกรองผู้ป่วยด้านสุขภาพจิตในทางปฏิบัติจริง ควรมีการสร้างฐานข้อมูลเพิ่มเติม โดยใช้การเก็บข้อความโซเชียลมีเดียที่เขียนโดยผู้ป่วยด้านสุขภาพจิตหลาย ๆ ด้าน รวมไปถึงผู้ที่พยายามฆ่าตัวตาย ทำร้ายตัวเอง และผู้ป่วยประเภทอื่น ๆ เพิ่มเติมด้วย
นอกจากนี้ ผลลัพธ์จากแบบจำลองที่ได้ยังสามารถนำไปต่อยอดการศึกษาอื่น ๆ ได้ ด้วยข้อมูลจำนวนมากที่มีความละเอียดและความถี่สูงนั้น สามารถนำไปใช้สำหรับ Nowcasting เพื่อพยากรณ์สุขภาพจิตเองในอนาคต หรือ ตัวแปรอื่น ๆ ที่เป็นข้อมูลระดับมหภาค (Giannone et al., 2008) เช่น อัตราการว่างงาน GDP (Ortega-Bastida et al., 2021) หรือ stock indexes (Tuarob et al., 2021) ส่วนข้อความที่ได้มีการแบ่งความรู้สึกแล้วยังสามารถนำไปใช้ต่อยอดในการติดตามผลของนโยบายจากความพึงพอใจของสาธารณชนได้อีกด้วย โดยงานวิจัยที่ผ่านมาที่ได้ใช้ข้อมูลความรู้สึก (sentiment) มาวิเคราะห์ผลของนโยบายสาธารณะ เช่น การศึกษาผลของการเลิกใช้ธนบัตรบางประเภท (demonetarization) ในอินเดีย (Darliansyah et al., 2018) ความรู้สึกของสาธารณชน (public sentiment) ต่อการออกกฎหมายใหม่ (Flores, 2017) หรือที่เกิดจากการเลือกตั้งหรือประชามติ เช่น Brexit และ การเลือกตั้งประธานาธิบดีในสหรัฐอเมริกา (Gorodnichenko et al., 2021)
เอกสารอ้างอิง
- Deep learning คือ อัลกอริทึมที่เลียนแบบการทำงานของระบบโครงข่ายประสาท (neurons) ในสมองมนุษย์ ถือเป็น machine learning แบบหนึ่ง อ่านรายละเอียดเพิ่มเติมได้ที่นี่↩
- เช่น กลุ่มสนับสนุนสำหรับผู้ที่มีแนวโน้มจะฆ่าตัวตาย โดยผู้ป่วยจะเข้าไปแชร์ข้อความ หรือ ความรู้สึกในกลุ่มนั้น ๆ↩
- ย่อมาจาก Term Frequency-Inverse Document Frequency ซึ่งเป็นเทคนิคในการเก็บข้อมูลจากเอกสารโดยพิจารณาความถี่และค่าน้ำหนักของคำ↩
- คะแนนความแม่นยำ (P) บอกสัดส่วนข้อความที่แบบจำลองแยกประเภทเป็นบวกและเป็นการแยกที่ถูกต้อง ส่วนคะแนน sensitivity (R) บอกสัดส่วนข้อความที่แบบจำลองสามารถแยกประเภทบวกถูกต้องจากสัดส่วนของข้อความที่เป็นบวกทั้งหมด↩
- โดยใช้ Translator ของ IWSLT 2015 ซึ่งได้รับการพัฒนาโดย Thailand Artificial Intelligence แล้วใช้ encoder ทำการแปลงข้อความที่ถูกแปลเป็นภาษาต้นทางแล้วมาเป็น vector representation l↩