Research
Discussion Paper
PIERspectives
aBRIDGEd
PIER Blog
Events
Conferences
Research Workshops
Policy Forums
Seminars
Exchanges
Community
PIER Research Network
Visiting Fellows
Funding and Grants
About Us
Our Organization
Announcements
PIER Board
Staff
Work with Us
Contact Us
TH
EN
Research
Research
Discussion Paper
PIERspectives
aBRIDGEd
PIER Blog
Thailand and the Middle-Income Trap: An Analysis from the Global Value Chain Perspective
Discussion Paper ล่าสุด
Thailand and the Middle-Income Trap: An Analysis from the Global Value Chain Perspective
ตราสารหนี้ยั่งยืน: มีแบบไหนและ Greenium คืออะไร
aBRIDGEd ล่าสุด
ตราสารหนี้ยั่งยืน: มีแบบไหนและ Greenium คืออะไร
Events
Events
Conferences
Research Workshops
Policy Forums
Seminars
Exchanges
Confidence and College Applications: Evidence from a Randomized Intervention
งานสัมมนาล่าสุด
Confidence and College Applications: Evidence from a Randomized Intervention
The Impact of Climate Change on Thai Households
งานสัมมนาล่าสุด
The Impact of Climate Change on Thai Households
สถาบันวิจัยเศรษฐกิจป๋วย อึ๊งภากรณ์
สถาบันวิจัยเศรษฐกิจ
ป๋วย อึ๊งภากรณ์
Puey Ungphakorn Institute for Economic Research
Community
Community
PIER Research Network
Visiting Fellows
Funding and Grants
PIER Research Network
PIER Research Network
Funding & Grants
Funding & Grants
About Us
About Us
Our Organization
Announcements
PIER Board
Staff
Work with Us
Contact Us
Staff
Staff
ลงนามบันทึกข้อตกลงความร่วมมือในการพัฒนาฐานข้อมูลเพื่อแก้ไขปัญหาหนี้สินเกษตรกรไทย
ประกาศล่าสุด
ลงนามบันทึกข้อตกลงความร่วมมือในการพัฒนาฐานข้อมูลเพื่อแก้ไขปัญหาหนี้สินเกษตรกรไทย
aBRIDGEdabridged
Making Research Accessible
QR code
Year
2023
2022
2021
2020
...
Topic
Development Economics
Macroeconomics
Financial Markets and Asset Pricing
Monetary Economics
...
/static/76f2abaf83186235ef6837b33c7ae017/e9a79/cover.png
5 กรกฎาคม 2565
20221656979200000

การคัดกรองปัญหาสุขภาพจิตด้วยเทคโนโลยี AI

การพัฒนาปัญญาประดิษฐ์เพื่อคัดกรองผู้มีปัญหาสุขภาพจิตจากข้อความโซเชียลมีเดีย
การคัดกรองปัญหาสุขภาพจิตด้วยเทคโนโลยี AI
excerpt

ปัญหาสุขภาพจิตมีแนวโน้มทวีความรุนแรงขึ้นจากแรงกดดันด้านเศรษฐกิจทั้งที่อยู่ในช่วงขาลงและที่มีความไม่แน่นอนสูงขึ้น ขณะเดียวกัน ทรัพยากรทางสาธารณสุขเพื่อแก้ปัญหาสุขภาพจิตก็มีภาระและข้อจำกัดที่มากขึ้น ส่วนหนึ่งจากโรคระบาดโควิด ปัจจัยเสี่ยงที่สูงขึ้นเหล่านี้พร้อมกับพฤติกรรมการใช้โซเชียลมีเดียอย่างแพร่หลายได้จุดประกายให้เกิดการวิจัยด้วยเทคนิค deep learning1 ใหม่ ๆ เพื่อใช้แยกแยะอารมณ์ ความรู้สึก และแนวโน้มความเสี่ยงที่จะฆ่าตัวตายจากข้อความบนโซเชียลมีเดีย การพัฒนาเทคโนโลยีนี้อาจเป็นอีกทางเลือกหนึ่งที่สามารถคัดกรองผู้มีปัญหาสุขภาพจิตได้อย่างมีประสิทธิภาพ ซึ่งจะสามารถลดภาระของบุคลากรทางการแพทย์ได้ในที่สุด ทั้งนี้ การศึกษาชี้ให้เห็นว่าผลลัพธ์จากแบบจำลองมีความสัมพันธ์กับข้อมูลผู้ป่วยทางจิตจริงสูง และสามารถนำมาใช้เป็นเครื่องชี้ได้ โดยพบว่าหากมีข้อความที่มีอารมณ์กลัว เศร้า และขยะแขยงในโซเชียลมีเดียเพิ่มขึ้น ถือเป็นสัญญาณเตือนว่าน่าจะมีจำนวนคนฆ่าตัวตาย หรือผู้ป่วยที่พยายามฆ่าตัวตายและทำร้ายตัวเองสูงขึ้นในอีกไม่กี่เดือนต่อมา และหากมีการแสดงออกด้วยอารมณ์กลัวและความรู้สึกด้านลบมากขึ้น มักจะมีจำนวนผู้ป่วยซึมเศร้าสูงขึ้นจริงในช่วงต่อมา

ช่วงสองปีที่ผ่านมากับวิกฤตโควิด มีปัจจัยเสี่ยงที่ส่งผลทางลบต่อสุขภาพจิตมากขึ้น โดยบทความ วิกฤติเศรษฐกิจ วิกฤติคน (Tawichsri & Sa-ngimnet, 2021) ได้แสดงให้เห็นถึงผลกระทบที่อาจเกิดจากวิกฤตเศรษฐกิจ ความไม่แน่นอน และโรคระบาดโควิดต่อปัญหาสุขภาพจิต ซึ่งนอกจากจะมีปัจจัยเสี่ยงที่ทำให้เกิดปัญหาสุขภาพจิตมากขึ้น ทั้งความกังวลที่เกิดจากปัญหาเศรษฐกิจ ความเปลี่ยนแปลงที่เกิดจากมาตรการควบคุมโรคระบาด เช่น การปิดเมืองและมาตการกักตัวแล้ว ยังมีความกังวลต่อการติดโรคที่ทำให้คนหลีกเลี่ยงการไปสถานพยาบาลมากขึ้นอีกด้วย

ขณะเดียวกัน การคัดกรองผู้ป่วย การเฝ้าระวัง และการจัดการกับปัญหาสุขภาพจิตในปัจจุบันมีข้อจำกัดที่มากขึ้น โดยมีแรงกดดันหลักสามประการด้วยกัน ได้แก่

  1. บุคลากรทางการแพทย์มีจำกัด ขณะที่จำนวนผู้มีปัญหาสุขภาพจิตที่เพิ่มขึ้นและโรคระบาดโควิดได้สร้างแรงกดดันต่อระบบสาธารณสุขมากขึ้น
  2. ตัวชี้วัดทางสุขภาพจิตเป็นข้อมูลที่สะท้อนปัญหาที่บางครั้งก็สายเกินแก้แล้ว อาทิ อัตราการฆ่าตัวตาย หรือ ความชุกชุมของจำนวนผู้ป่วย
  3. ขั้นตอนการกลั่นกรองผู้ป่วยในปัจจุบันมีข้อจำกัด โดยผู้ป่วยต้องตระหนักถึงปัญหาสุขภาพจิตของตนเองก่อนและเข้าถึงบริการทางการแพทย์ได้จึงจะมีโอกาสได้รับการรักษา

เพื่อช่วยจัดการกับข้อจำกัดและแรงกดดันสำคัญต่าง ๆ ดังกล่าว งานวิจัย Tuarob et al. (2022) จึงได้พัฒนาปัญญาประดิษฐ์ (Artificial Intelligence: AI) ที่สามารถนำมาใช้เพื่อแยกแยะอารมณ์ ความรู้สึก และผู้มีความเสี่ยงฆ่าตัวตายจากข้อความบนโซเชียลมีเดียที่ผู้ใช้แชร์ โดยเทคโนโลยี AI มีข้อดีคือ

  1. สามารถพัฒนาเป็นระบบอัตโนมัติ ช่วยแบ่งเบาภาระของบุคลากรทางการแพทย์ได้
  2. หากสามารถพัฒนาเครื่องชี้ โดยเฉพาะที่มีคุณสมบัติเป็นข้อมูลเร็วแบบล่วงหน้า (leading indicator) ที่เผยปัญหาสุขภาพจิตได้ก่อนตัวชี้วัดอื่น ๆ ที่มีในปัจจุบันก็จะช่วยให้จับปัญหาได้เร็วขึ้น เป็นการตัดไฟแต่ต้นลมก่อนปัญหาสุขภาพจิตจะเรื้อรังและรักษาได้ยากขึ้
  3. การคัดกรองเป็นไปได้ในวงกว้างและเข้าถึงผู้ป่วยได้มากกว่าระบบการคัดกรองในปัจจุบัน ที่โดยมากผู้ป่วยต้องเข้ารับการรักษาเอง หรือได้รับการรักษาด้านอื่นอยู่และแพทย์ผู้ดูแลส่งมารับการรักษาด้านจิตเวชไปควบคู่ด้วย

บทความนี้จะกล่าวถึงผลการศึกษาจาก Tuarob et al. (2022) ซึ่งเป็นผลงานของคณะผู้วิจัยเองเป็นหลัก โดยได้เก็บรวบรวมข้อความโซเชียลมีเดียภาษาไทย และข้อมูลอื่น ๆ ที่เกี่ยวข้อง และทดลองหาอัลกอริทึมที่เหมาะสมกับการแบ่งประเภทข้อความในภาษาไทย การศึกษานี้มีคุณูปการหลักอยู่สองประการ คือ 1) ระบุได้ว่าอัลกอริทึมใดมีความสามารถในการแบ่งประเภทข้อความโซเชียลมีเดียภาษาไทยได้ดีที่สุด และ 2) ระบุความสัมพันธ์ของผลลัพธ์ที่ได้จากแบบจำลองกับข้อมูลสุขภาพจิตระดับประชากรเพื่อหาตัวชี้วัดที่สามารถนำมาใช้ในการเฝ้าระวังปัญหาสุขภาพจิตระดับประชากรได้

ปัญญาประดิษฐ์กับข้อความโซเชียลมีเดียในงานวิจัยที่ผ่านมา

ปัจจุบันมีผู้ใช้โซเชียลมีเดียมากขึ้นทุกวัน จากข้อมูล Statista ประเทศไทยมีผู้ใช้ social media 42.2 ล้านคนในปี 2017 เพิ่มขึ้นมาเป็น 52.7 ล้านคนในปี 2020 และยังมีแนวโน้มเพิ่มขึ้นเรื่อย ๆ ผู้ใช้มีการแชร์ทั้งความรู้สึก ความคิดเห็น หรือประสบการณ์ต่าง ๆ ผ่านข้อความโซเชียลมีเดีย ขณะที่การใช้ AI มาวิเคราะห์ข้อความและเนื้อหาที่ผู้ใช้งานโซเชียลมีเดียแชร์ไปใช้ในทางการค้าไม่ใช่เรื่องใหม่ เช่น การใช้อัลกอริทึมมาเรียนรู้ลักษณะสินค้าที่ผู้ใช้ชอบจากข้อความที่แชร์ หรืออย่างที่หลายคนคงมีประสบการณ์ตรงกับการได้รับโฆษณาสินค้าที่ตรงกับความชอบของตนบนโซเชียลมีเดีย

อย่างไรก็ดี ในช่วงที่ผ่านมาได้มีการพัฒนา AI มาใช้กับการตรวจจับปัญหาสุขภาพจิตจากข้อความที่ผู้ใช้โซเชียลมีเดียแชร์อย่างต่อเนื่อง การทบทวนงานวิจัยในแขนงนี้ พบว่ามีวิธีการกลั่นกรองผู้มีปัญหาสุขภาพจิตเพื่อสร้างฐานข้อมูลในการฝึกอัลกอริทึมหลัก ๆ 3 วิธีด้วยกัน ได้แก่

  1. ให้ทำแบบสอบถามเพื่อประเมินภาวะสุขภาพจิต
  2. คัดสรรผู้ใช้ที่แชร์ผลการวินิจฉัยว่าตนมีปัญหาสุขภาพจิตผ่านโซเชียลมีเดีย
  3. เลือกผู้ที่เป็นสมาชิกของกลุ่มสนับสนุนผู้มีปัญหาสุขภาพจิต2 (Guntuku et al., 2017)

ตัวอย่างงานวิจัยเด่น ๆ เช่น Coppersmith et al. (2018) ที่สร้างชุดข้อมูลของผู้มีแนวโน้มฆ่าตัวตาย โดยการคัดกรองผู้ที่ตอบแบบสอบถาม หรือ ระบุบนโซเชียลมีเดียว่าตนเองได้พยายามฆ่าตัวตาย Shen et al. (2017) ที่สร้างฐานข้อมูลของผู้มีอาการโรคซึมเศร้าจากข้อความบน Twitter ด้วยวิธีการคล้ายกันและดึง feature ต่าง ๆ ทั้งจากข้อความ พฤติกรรมออนไลน์ รวมทั้งอ้างอิงอาการของผู้มีปัญหาซึมเศร้าตามคู่มือของสมาคมจิตแพทย์สหรัฐอเมริกา เช่น อารมณ์ซึมเศร้า ความเบื่อหน่าย น้ำหนักและความอยากอาหารที่เปลี่ยนไป การนอนหลับ เป็นต้น ในงานวิจัยล่าสุด อาทิ Zhou et al. (2021) และ Ghosh & Anwar (2021) พบว่าผู้มีอาการซึมเศร้ามักมีการโพสต์ข้อความที่แสดงอารมณ์ด้านลบ มีคำที่สื่อถึงความเครียด ความเศร้า และโพสต์ข้อความเกี่ยวกับเรื่องส่วนตัวบ่อยครั้งในช่วงเวลาดึก

การพัฒนาปัญญาประดิษฐ์ในบริบทของไทยยังมีข้อจำกัดด้านภาษาและฐานข้อมูล

แม้จะมีงานวิจัยใหม่ ๆ ที่ใช้เทคโนโลยี AI และข้อความจากโซเชียลมีเดียในการกลั่นกรองและตรวจจับปัญหาสุขภาพจิต แต่งานวิจัยเหล่านี้ทำการศึกษาโดยใช้ฐานข้อมูลภาษาอังกฤษ อัลกอริทึมที่พัฒนาจึงมีความสามารถในการทำนายข้อความที่เป็นภาษาอังกฤษเท่านั้น และไม่สามารถนำมาใช้กับภาษาไทยได้โดยตรง อย่างไรก็ดี การสร้างฐานข้อมูลขึ้นมาใหม่มีต้นทุนสูงมาก ซึ่งเป็นข้อจำกัดที่นักวิจัยต่างทราบกันดี นักวิจัยจึงได้มีการพัฒนาอัลกอริทึมใน framework ที่เรียกว่า Cross-Lingual Text Classification (CLTL) หรือแบบจำลองแบ่งประเภทข้อความข้ามภาษา ซึ่งมีความคุ้มค่ากับต้นทุนมากกว่าโดยเปรียบเทียบ

Cross-Lingual Text Classification (CLTL) คืออะไร?

ที่จริงแล้ว การแยกแยะอารมณ์ ความรู้สึก หรือ แนวโน้มด้านสุขภาพจิตจากข้อความ คือ โจทย์การแบ่งประเภทข้อความ (text classification) แบบหนึ่ง แต่ด้วยฐานข้อมูลภาษาไทยที่มีจำกัด โจทย์ในการศึกษานี้จึงเป็นการพัฒนาแบบจำลองแบ่งประเภทข้อความข้ามภาษา (CLTC) ซึ่งเป็นการพัฒนาอัลกอริทึมให้สามารถใช้ข้อมูลที่ใช้ฝึกโมเดลในภาษาหนึ่ง (ภาษาต้นทาง หรือ source language) แต่มีความสามารถในการแยกแยะข้อความจากอีกภาษาหนึ่งได้ (ภาษาเป้าหมาย หรือ target language) โดย CLTC สามารถทำได้สองวิธีหลัก ๆ ด้วยกัน ได้แก่

  1. วิธีการใช้เครื่องแปล (machine translation approach) โดยการแปลข้อความจากภาษาเป้าหมายให้เป็นภาษาเดียวกับภาษาต้นทาง แล้วนำข้อความที่แปลแล้วมาแปลงผลเป็นรูปแบบที่แบบจำลองเข้าใจได้ (โดยการใช้ encoder มาแปลงข้อความเป็น vector representation) และให้แบบจำลองทำการแบ่งประเภทต่อไป
  2. วิธีการใช้ตัวแทนข้ามภาษา (cross-lingual representation approach) โดยวิธีนี้ไม่ใช้การแปลภาษาจากภาษาเป้าหมายเป็นภาษาต้นทางโดยตรง แต่ใช้ encoder ที่สามารถแปลงข้อความจากหลาย ๆ ภาษามาแปลงข้อความจากทั้งภาษาเป้าหมายและภาษาต้นทางให้มี vector representation เป็นแบบเดียวกันถ้วนหน้า (language-agnostic representation) ทั้งนี้ การพัฒนา encoder ที่มีความสามารถนี้ได้ จะมีการใช้กลุ่มคำจากหลาย ๆ ภาษาในการฝึก encoder พร้อม ๆ กันไป

ขั้นตอนและข้อมูลการทดลองด้วยปัญญาประดิษฐ์ในบริบทของไทย

การทดลองได้แบ่งประเภทข้อความออกเป็น 3 หมวดด้วยกัน ประกอบด้วย

  1. อารมณ์ ได้แก่ อารมณ์โกรธ ขยะแขยง กลัว มีความสุข เศร้า แปลกใจ และกลาง ๆ
  2. ความรู้สึก ได้แก่ บวก ลบ กำกวม และกลาง ๆ
  3. ความเสี่ยงในการฆ่าตัวตาย ได้แก่ ผู้ที่มีความเสี่ยงในการฆ่าตัวตาย และไม่เสี่ยง
รูปที่ 1: แผนผังขั้นตอนการพัฒนาและทดสอบอัลกอริทึม

แผนผังขั้นตอนการพัฒนาและทดสอบอัลกอริทึม

ขั้นตอนการทดลองในการศึกษา (รูปที่ 1) มีดังต่อไปนี้

  1. การสร้างฐานข้อมูลเพื่อใช้ในการทดลอง ได้แก่ ข้อความโซเชียลมีเดียภาษาไทย ชุดข้อมูลภาษาอังกฤษที่ใช้ในการฝึกอัลกอริทึม และข้อมูลผู้ป่วยสุขภาพจิตอื่น ๆ
  2. การฝึกฝนอัลกอริทึม (train) โดยใช้ฐานข้อมูลภาษาอังกฤษที่ได้รวบรวมมาฝึกอัลกอริทึมแบบต่าง ๆ
  3. การเลือกอัลกอริทึม (evaluate) โดยใช้ข้อความภาษาไทยจากโซเชียลมีเดียที่คณะผู้วิจัยได้ทำการแบ่งประเภทมาทดสอบประสิทธิภาพในการแบ่งข้อความของอัลกอริทึมแบบต่าง ๆ
  4. ตรวจสอบผลจากแบบจำลองกับข้อมูลผู้ป่วยจริง (cross-validation) โดยหาความสัมพันธ์ระหว่างผลลัพธ์ที่อัลกอริทึมแปลผลออกมากับจำนวนผู้ป่วยโรคซึมเศร้าและฆ่าตัวตายที่ได้เข้ารับการรักษา

ข้อมูลที่ใช้ในการทดลองมีทั้งหมด 4 ชุดหลัก ๆ ด้วยกัน และมีรายละเอียด ดังนี้

  1. ข้อมูลโซเชียลมีเดียภาษาไทย คณะผู้วิจัยได้เก็บตัวอย่างข้อความจาก Twitter ในช่วงเดือนกรกฎาคม 2019 ถึง ธันวาคม 2020 รวมทั้งหมดเป็นจำนวน 1,286,942 ข้อความ โดยเก็บจาก Twitter API เพื่อให้ได้ข้อความที่เป็นตัวแทนข้อความ Twitter ของไทยมากที่สุด
  2. ข้อมูลภาษาอังกฤษที่ใช้ในการฝึกแบบจำลอง เราได้เก็บข้อมูลมาใช้ในการฝึกแบบจำลองมีจากสองแหล่ง ได้แก่ GoEmotion Project และ subreddit r/SuicideWatch โดยมีรายละเอียดดังนี้
    • อารมณ์ (emotion) เราใช้ข้อมูลที่มี label อารมณ์ต่าง ๆ จาก GoEmotion Project (Demszky et al., 2020) โดยมีข้อความที่มี label แล้วจาก Reddit จำนวน 54,000 ข้อความ และมีความละเอียดถึง 27 อารมณ์ แต่เนื่องด้วยรายละเอียดที่มากเกินไป จึงได้ทำการ map อารมณ์เหล่านี้ออกมาเป็น 7 อารมณ์หลัก อ้างอิงตาม Ekman Emotion (Ekman, 1992) โดยใช้ mapping ที่ GoEmotion ได้จัดทำไว้
    • ความรู้สึก (sentiment) เราใช้ข้อมูลจาก GoEmotion Project เช่นกัน โดยได้ใช้ mapping จาก 27 อารมณ์ มาเป็น Sentiment หลัก 4 ความรู้สึก ประกอบด้วย บวก ลบ ก้ำกึ่ง และ กลาง ๆ
    • แนวโน้มมีความคิดฆ่าตัวตาย (suicidal tendency) เราได้สร้างฐานข้อมูลภาษาอังกฤษของข้อความที่เขียนโดยผู้มีความเป็นไปได้ในการฆ่าตัวตายจาก subreddit ที่ชื่อว่า “r/SuicideWatch” ทั้งนี้ ได้เก็บข้อความจำนวนกว่า 116,037 ข้อความจาก subreddit นั้น และได้ใช้ข้อความจาก GoEmotion ที่ได้รับการ label ว่า positive จากด้านบนมาเป็นกลุ่มข้อความที่เขียนโดยผู้ที่ไม่มีความเสี่ยงในการฆ่าตัวตาย
  3. ข้อมูลผู้ป่วยจริงเพื่อใช้ในการตรวจสอบผลจากแบบจำลอง คณะผู้วิจัยได้เก็บข้อมูลจำนวนผู้ป่วยที่มีอาการซึมเศร้าและมีแนวโน้มฆ่าตัวตายที่รายงานโดยกรมสุขภาพจิต เพื่อที่จะประเมินว่าผลลัพธ์จากแบบจำลองทั้งทางด้านอารมณ์ ความรู้สึก และแนวโน้มในการฆ่าตัวตายที่ได้สร้างขึ้นมานั้นมีความสัมพันธ์กับจำนวนผู้ป่วยทางสุขภาพจิตจริงมากน้อยเพียงใด
  4. Google Search Index เพื่อเป็น benchmark ในการเปรียบเทียบประสิทธิภาพของตัวชี้วัด โดยใช้คำว่า “โรคซึมเศร้า” และ “ฆ่าตัวตาย” มาเป็นตัวชี้วัดเปรียบเทียบ เพื่อให้มีเกณฑ์อ้างอิง (benchmark) ว่าเครื่องชี้ที่ได้สร้างขึ้นมามีประสิทธิภาพเพียงใด

การทดลองหาอัลกอริทึมที่ดีที่สุด

คณะผู้วิจัยได้ทดลองแบ่งประเภทข้อความกับแบบจำลองหลายแบบเพื่อที่จะเฟ้นหาอัลกอริทึมที่สามารถแบ่งประเภทข้อความได้ดีที่สุด โดยสามารถแบ่งแบบจำลองออกเป็น 2 ประเภทหลัก คือ

  1. Traditional Machine Learning Algorithm (เช่น SVM, MNB, Bi-LSTM) แบบจำลองในกลุ่มนี้เป็นอัลกอริทึมแรก ๆ ที่ได้มีการพัฒนาขึ้นมาสำหรับเทคโนโลยีการเรียนรู้ของเครื่อง คณะผู้วิจัยได้ใช้เทคนิคแบบ bag-of-words traditional method ในการทดลอง ซึ่งเป็นเทคนิคที่พิจารณาองค์ประกอบของคำภายในประโยคเป็นหลักโดยไม่สนใจลำดับของคำ โดยได้ใช้ TF-IDF encoders3 สำหรับแต่ละฐานข้อมูลและเก็บคำจำนวน 200 คำที่ใช้บ่อยที่สุด หลังจากนั้น จึงใช้ TF-IDF vectors ที่ได้มาฝึกฝนแบบจำลอง Multinomial Naïve Bayes Model (MNB) และ Support Vector Machine model (SVM) ส่วนแบบจำลอง Long Short-Term Memory(LSTM) เราได้ใช้ Bi-directional LSTM (Bi-LSTM) โดยการใช้ FastText ในการทำ word embedding
  1. Language Model Fine Tuning Approach (เช่น BERT, RoBERTa, LaBSE) สำหรับ deep learning แบบจำลองกลุ่มนี้ใช้เทคโนโลยีการเรียนรู้แบบสองด้านของ transformer ซึ่งเป็นแบบจำลองที่ได้รับความนิยมในการฝึกกลไก attention เพื่อสร้างแบบจำลองสำหรับภาษา ความโดดเด่นของแบบจำลองกลุ่มนี้คือ ความสามารถในการสกัดความหมายเชิงลึกของข้อความในการทำ context embedding ได้ ทั้งนี้ สำหรับแบบจำลอง LaBSE (Language-agnostic BERT Sentence Embedding) ถือเป็นการฝึกสอนแบบจำลองแบบ Bidirectional Encoder Representations from Transformers (BERT)ให้สามารถสร้าง embedding ได้ในหลาย ๆ ภาษาพร้อมกัน สามารถที่จะเชื่อมโยงข้อความภาษาหนึ่งไปยังอีกภาษาหนึ่งได้โดยอัตโนมัติและไม่ต้องใช้เครื่องแปลภาษา

ซึ่งโดยทั่วไปจะมีการคำนวณคะแนน 3 แบบหลัก ๆ ด้วยกัน เพื่อประเมินประสิทธิภาพของอัลกอริทึม ได้แก่

  1. คะแนนความแม่นยำ (Precision: P)
  2. Recall หรือ sensitivity (R)
  3. F1 ซึ่งเป็นค่าเฉลี่ย (harmonic mean) ของ P และ R4

คณะผู้วิจัยได้ทดลองเปรียบเทียบอัลกอริทึมข้างต้น ซึ่งจากผลการทดลองในขั้นตอนแรกนี้ คณะผู้วิจัยพบว่าอัลกอริทึมแบบ language model fine-tuning approach (BERT, RoBERTa, LaBSE) สามารถแบ่งข้อความได้แม่นยำกว่าอัลกอริทึม Machine learning (ML) แบบ traditional (SVM, MNB, Bi-LSTM) (รูปที่ 2)

รูปที่ 2: แสดงคะแนน F1 ของแต่ละโมเดลจาก tasks ต่าง ๆ

แสดงคะแนน F1 ของแต่ละโมเดลจาก tasks ต่าง ๆ

ที่มา: Tuarob et al. (2022)

หลังจากนั้น เพื่อที่จะหาแบบจำลองที่ดีที่สุดสำหรับการแบ่งประเภทข้อความโซเชียลมีเดียภาษาไทยต่อไป คณะผู้วิจัยได้เลือกแบบจำลองที่มีคะแนน F1 สูงและเป็นตัวแทนแบบจำลองแต่ละประเภท ได้แก่ 1) SVM 2) BERTและ 3) LaBSE มาเปรียบเทียบกัน ซึ่งสองแบบแรกนั้นเป็นวิธีการใช้เครื่องแปล5 แต่ SVM เป็นแบบจำลอง ML แบบดั้งเดิม ส่วน BERT เป็นแบบจำลองทางภาษาแบบ fine tuning ขณะที่ LaBSE เป็นวิธีการใช้ตัวแทนข้ามภาษา

รูปที่ 3: คะแนน Precision (P) Recall (R) และ F1 ของ SVM BERT และ LaBSE จากการทดลองด้วยข้อมูลโซเชียลมีเดียภาษาไทย

คะแนน Precision (P) Recall (R) และ F1 ของ SVM BERT และ LaBSE จากการทดลองด้วยข้อมูลโซเชียลมีเดียภาษาไทย

ที่มา: Tuarob et al. (2022)

จากการเปรียบเทียบอัลกอริทึมด้วยการทดสอบกับชุดข้อความโซเชียลมีเดียภาษาไทย (รูปที่ 3) คณะผู้วิจัยพบข้อสรุปสำคัญว่า

  • โดยรวมแล้ว LaBSE ทำได้ดีที่สุดในการแยกประเภทข้อความ ทั้งการแยกอารมณ์ ความรู้สึก และความเสี่ยงในการฆ่าตัวตาย รองลงมาคือ BERT และ SVM เป็นอันดับสุดท้าย (รูปที่ 3 จากคะแนน F1) ซึ่ง LaBSE ได้ทั้งคะแนน P R และ F1 สูงที่สุด ยกเว้นการแยกแยะอารมณ์ที่ SVM มี sensitivity มากกว่า
  • LaBSE มีคะแนน sensitivity ค่อนข้างสูงเกิน 0.8 ทั้งในการแบ่งประเภทอารมณ์ ความรู้สึก และผู้มีความเสี่ยงฆ่าตัวตาย ซึ่งหมายความว่าในการแบ่งแยกข้อความที่เขียนโดยผู้มีความเสี่ยงฆ่าตัวตายนั้น มีโอกาสที่จะพลาดไม่ได้นับรวมผู้มีความเสี่ยง น้อยกว่าร้อยละ 20 ทั้งนี้ แบบจำลองยิ่งมีคะแนน sensitivity สูงยิ่งดีหากเราต้องการคัดกรองหาผู้ป่วยที่มีความเสี่ยงให้ได้มากที่สุด

อารมณ์และความรู้สึกที่แสดงในข้อความโซเชียลมีเดียสัมพันธ์กับจำนวนผู้ป่วยโรคซึมเศร้าและฆ่าตัวตาย

เพื่อทดสอบว่าตัวชี้วัดต่าง ๆ ที่เราได้ถอดมาจากข้อมูลโซเชียลมีเดียนั้นมีความสัมพันธ์กับจำนวนผู้ป่วยจริงและสามารถนำมาใช้เป็นตัวชี้วัดได้หรือไม่ คณะผู้วิจัยได้นำข้อมูลในแต่ละประเภท แบ่งตาม อารมณ์ ความรู้สึก และแนวโน้มในการฆ่าตัวตายมาแปลงเป็นข้อมูลอนุกรมเวลารายเดือน แล้วทำการวิเคราะห์หาค่าสหสัมพันธ์ (correlation) กับข้อมูลจำนวนผู้ป่วยจริงรายเดือน การหาความสัมพันธ์มีการใช้อนุกรมที่มี time-shift ทั้งสามเดือนหน้าและหลังเพื่อดูว่าตัวชี้วัดมีความสัมพันธ์แบบนำ (lead) หรือ ตาม (lag) กับข้อมูลจริงหรือไม่ อย่างไร

รูปที่ 4: ความสัมพันธ์ระหว่างสัญญาณจากข้อความโซเชียลมีเดียแต่ละประเภทและจำนวนผู้ป่วย

ความสัมพันธ์ระหว่างสัญญาณจากข้อความโซเชียลมีเดียแต่ละประเภทและจำนวนผู้ป่วย

ที่มา: Tuarob et al. (2022)หมายเหตุ: ตัวเลขในตารางแสดงค่าสหความสัมพันธ์ (Correlation: Corr) โดยแสดงค่าจากความสัมพันธ์กับอนุกรมเวลา time-shift ที่ t ที่มีความสัมพันธ์กับข้อมูลผู้ป่วยจริงสูงที่สุด (t เป็นบวกแสดง ข้อมูล lead ที่เกิดก่อนข้อมูลผู้ป่วยจริง t เดือน และหากเป็นลบ แสดงข้อมูล lag ที่เกิดหลังข้อมูลผู้ป่วยจริง)

จากการวิเคราะห์พบว่าสัญญาณที่ได้จากข้อความโซเชียลมีเดียมีความสัมพันธ์ทางสถิติกับจำนวนผู้ป่วยจริง โดยหากมีข้อความที่แสดงความรู้สึกและอารมณ์ทางลบเช่น ความกลัว เศร้า และขยะแขยงเพิ่มมากขึ้น ก็มักมีผู้ป่วยที่ทำร้ายตัวเองและผู้ที่ฆ่าตัวตายสำเร็จเพิ่มขึ้นด้วยในช่วง 2–3 เดือนถัดมา (correlation > 0.75 แถวที่ 2–4 ในรูปที่ 4) นอกจากนี้ ยังพบว่าสัญญาณความเสี่ยงในการฆ่าตัวตายเพิ่มขึ้นสูงที่สุดในช่วง 2–3 เดือนหลังจากช่วงที่มีจำนวนผู้ป่วยโรคซึมเศร้า (correlation = 0.54) ผู้ป่วยเฝ้าระวังทำร้ายตัวเอง (correlation = 0.77)และทำร้ายตัวเอง (correlation = 0.86) เพิ่มสูงขึ้น (แถวที่ 6 ในรูปที่ 4)

บทสรุป

สัญญาณจากข้อความโซเชียลมีเดียบางประเภทสามารถเป็นเครื่องชี้ที่เตือนล่วงหน้าได้ว่า อาจมีผู้ป่วยด้านสุขภาพจิตหรือการฆ่าตัวตายเพิ่มขึ้นในเวลาไม่ช้า โดยเครื่องชี้ 3 ตัวที่สามารถเตือนว่าในช่วงสามเดือนถัดมามีแนวโน้มจำนวนผู้ฆ่าตัวตายสูงขึ้น ได้แก่ อารมณ์ขยะแขยง อารมณ์กลัว และสัญญาณความเสี่ยงฆ่าตัวตาย (รูปที่ 5) และผลการศึกษาพบว่าแบบจำลองที่พัฒนามานั้น แบบจำลอง LaBSE สามารถแยกประเภทข้อความแบบข้ามภาษาได้ดีที่สุด และมีคะแนนความแม่นยำและ sensitivity สูง ซึ่งแปลว่ามีความสามารถในการคัดกรองข้อความภาษาไทยที่ถูกต้องและไม่ตกหล่นค่อนข้างสูง

รูปที่ 5: จำนวนผู้ป่วยฆ่าตัวตายรายเดือน และอนุกรมเวลาสัญญาณจากข้อความโซเชียลมีเดียจากช่วงที่มีความสัมพันธ์กับจำนวนผู้ป่วยจริงสูงที่สุด

จำนวนผู้ป่วยฆ่าตัวตายรายเดือน และอนุกรมเวลาสัญญาณจากข้อความโซเชียลมีเดียจากช่วงที่มีความสัมพันธ์กับจำนวนผู้ป่วยจริงสูงที่สุด

ที่มา: Tuarob et al. (2022)

การศึกษาที่ปรากฎในบทความนี้ถือเป็นจุดเริ่มต้นในการพัฒนาแบบจำลองและฐานข้อมูลที่หากมีการพัฒนาต่อไปก็น่าจะช่วยบรรเทาภาระและลดต้นทุนทางสาธารณสุขในการกลั่นกรองผู้ป่วยทางสุขภาพจิตได้ไม่มากก็น้อย อย่างไรก็ดี หากต้องการต่อยอดนำไปใช้คัดกรองผู้ป่วยด้านสุขภาพจิตในทางปฏิบัติจริง ควรมีการสร้างฐานข้อมูลเพิ่มเติม โดยใช้การเก็บข้อความโซเชียลมีเดียที่เขียนโดยผู้ป่วยด้านสุขภาพจิตหลาย ๆ ด้าน รวมไปถึงผู้ที่พยายามฆ่าตัวตาย ทำร้ายตัวเอง และผู้ป่วยประเภทอื่น ๆ เพิ่มเติมด้วย

นอกจากนี้ ผลลัพธ์จากแบบจำลองที่ได้ยังสามารถนำไปต่อยอดการศึกษาอื่น ๆ ได้ ด้วยข้อมูลจำนวนมากที่มีความละเอียดและความถี่สูงนั้น สามารถนำไปใช้สำหรับ Nowcasting เพื่อพยากรณ์สุขภาพจิตเองในอนาคต หรือ ตัวแปรอื่น ๆ ที่เป็นข้อมูลระดับมหภาค (Giannone et al., 2008) เช่น อัตราการว่างงาน GDP (Ortega-Bastida et al., 2021) หรือ stock indexes (Tuarob et al., 2021) ส่วนข้อความที่ได้มีการแบ่งความรู้สึกแล้วยังสามารถนำไปใช้ต่อยอดในการติดตามผลของนโยบายจากความพึงพอใจของสาธารณชนได้อีกด้วย โดยงานวิจัยที่ผ่านมาที่ได้ใช้ข้อมูลความรู้สึก (sentiment) มาวิเคราะห์ผลของนโยบายสาธารณะ เช่น การศึกษาผลของการเลิกใช้ธนบัตรบางประเภท (demonetarization) ในอินเดีย (Darliansyah et al., 2018) ความรู้สึกของสาธารณชน (public sentiment) ต่อการออกกฎหมายใหม่ (Flores, 2017) หรือที่เกิดจากการเลือกตั้งหรือประชามติ เช่น Brexit และ การเลือกตั้งประธานาธิบดีในสหรัฐอเมริกา (Gorodnichenko et al., 2021)

เอกสารอ้างอิง

Coppersmith, G., Leary, R., Crutchley, P., & Fine, A. (2018). Natural language processing of social media as screening for suicide risk. Biomedical Informatics Insights, 10, 1178222618792860.
Darliansyah, A., Wandabwa, H. M., Naeem, M. A., Mirza, F., & Pears, R. (2018). Long-term trends in public sentiment in Indian demonetisation policy. International Conference on Intelligent Technologies and Applications, 65–75.
Demszky, D., Movshovitz-Attias, D., Ko, J., Cowen, A., Nemade, G., & Ravi, S. (2020). GoEmotions: A dataset of fine-grained emotions. arXiv Preprint arXiv:2005.00547.
Ekman, P. (1992). An argument for basic emotions. Cognition & Emotion, 6(3–4), 169–200.
Flores, R. D. (2017). Do anti-immigrant laws shape public sentiment? A study of Arizona’s SB 1070 using Twitter data. American Journal of Sociology, 123(2), 333–384.
Ghosh, S., & Anwar, T. (2021). Depression intensity estimation via social media: a deep learning approach. IEEE Transactions on Computational Social Systems, 8(6), 1465–1474.
Giannone, D., Reichlin, L., & Small, D. (2008). Nowcasting: The real-time informational content of macroeconomic data. Journal of Monetary Economics, 55(4), 665–676.
Gorodnichenko, Y., Pham, T., & Talavera, O. (2021). Social media, sentiment and public opinions: Evidence from# Brexit and# USElection. European Economic Review, 136, 103772.
Guntuku, S. C., Yaden, D. B., Kern, M. L., Ungar, L. H., & Eichstaedt, J. C. (2017). Detecting depression and mental illness on social media: an integrative review. Current Opinion in Behavioral Sciences, 18, 43–49.
Ortega-Bastida, J., Gallego, A. J., Rico-Juan, J. R., & Albarrán, P. (2021). A multimodal approach for regional GDP prediction using social media activity and historical information. Applied Soft Computing, 111, 107693.
Shen, G., Jia, J., Nie, L., Feng, F., Zhang, C., Hu, T., Chua, T.-S., & Zhu, W. (2017). Depression detection via harvesting social media: A multimodal dictionary learning solution. IJCAI, 3838–3844.
Tawichsri, T., & Sa-ngimnet, B. (2021). วิกฤติเศรษฐกิจ วิกฤติคน (aBRIDGEd No. 8/2021). Puey Ungphakorn Institute for Economic Research.
Tuarob, S., Noraset, T., & Tawichsri, T. (2022). Using Large-Scale Social Media Data for Population-Level Mental Health Monitoring and Public Sentiment Assessment: A Case Study of Thailand (Discussion Paper No. 169). Puey Ungphakorn Institute for Economic Research.
Tuarob, S., Wettayakorn, P., Phetchai, P., Traivijitkhun, S., Lim, S., Noraset, T., & Thaipisutikul, T. (2021). DAViS: a unified solution for data collection, analyzation, and visualization in real-time stock market prediction. Financial Innovation, 7(1), 1–32.
Zhou, J., Zogan, H., Yang, S., Jameel, S., Xu, G., & Chen, F. (2021). Detecting community depression dynamics due to covid-19 pandemic in australia. IEEE Transactions on Computational Social Systems, 8(4), 982–991.

  1. Deep learning คือ อัลกอริทึมที่เลียนแบบการทำงานของระบบโครงข่ายประสาท (neurons) ในสมองมนุษย์ ถือเป็น machine learning แบบหนึ่ง อ่านรายละเอียดเพิ่มเติมได้ที่นี่↩
  2. เช่น กลุ่มสนับสนุนสำหรับผู้ที่มีแนวโน้มจะฆ่าตัวตาย โดยผู้ป่วยจะเข้าไปแชร์ข้อความ หรือ ความรู้สึกในกลุ่มนั้น ๆ↩
  3. ย่อมาจาก Term Frequency-Inverse Document Frequency ซึ่งเป็นเทคนิคในการเก็บข้อมูลจากเอกสารโดยพิจารณาความถี่และค่าน้ำหนักของคำ↩
  4. คะแนนความแม่นยำ (P) บอกสัดส่วนข้อความที่แบบจำลองแยกประเภทเป็นบวกและเป็นการแยกที่ถูกต้อง ส่วนคะแนน sensitivity (R) บอกสัดส่วนข้อความที่แบบจำลองสามารถแยกประเภทบวกถูกต้องจากสัดส่วนของข้อความที่เป็นบวกทั้งหมด↩
  5. โดยใช้ Translator ของ IWSLT 2015 ซึ่งได้รับการพัฒนาโดย Thailand Artificial Intelligence แล้วใช้ encoder ทำการแปลงข้อความที่ถูกแปลเป็นภาษาต้นทางแล้วมาเป็น vector representation l↩
ข้อคิดเห็นที่ปรากฏในบทความนี้เป็นความเห็นของผู้เขียน ซึ่งไม่จำเป็นต้องสอดคล้องกับความเห็นของสถาบันวิจัยเศรษฐกิจป๋วย อึ๊งภากรณ์
Topics: Health Economics
Tags: mental healthnatural language processingdeep learningsocial networks
ธนิสา ทวิชศรี
ธนิสา ทวิชศรี
สถาบันวิจัยเศรษฐกิจป๋วย อึ๊งภากรณ์
ศุภวงศ์ ทั่วรอบ
ศุภวงศ์ ทั่วรอบ
มหาวิทยาลัยมหิดล
ธนพล นรเสฏฐ์
ธนพล นรเสฏฐ์
มหาวิทยาลัยมหิดล

สถาบันวิจัยเศรษฐกิจป๋วย อึ๊งภากรณ์

273 ถนนสามเสน แขวงวัดสามพระยา เขตพระนคร กรุงเทพฯ 10200

โทรศัพท์: 0-2283-6066

Email: pier@bot.or.th

เงื่อนไขการให้บริการ | นโยบายคุ้มครองข้อมูลส่วนบุคคล

สงวนลิขสิทธิ์ พ.ศ. 2566 สถาบันวิจัยเศรษฐกิจป๋วย อึ๊งภากรณ์

เอกสารเผยแพร่ทุกชิ้นสงวนสิทธิ์ภายใต้สัญญาอนุญาต Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported license

Creative Commons Attribution NonCommercial ShareAlike

รับจดหมายข่าว PIER

Facebook
YouTube
Email