สถาบันวิจัยเศรษฐกิจป๋วย อึ๊งภากรณ์
aBRIDGEd

สร้าง Evidence-based Policy Community ด้วย Randomised Controlled Trial

ถึงเวลาแล้วที่เราจะต้องใส่ใจกับการประเมินผลนโยบายสาธารณะอย่างจริงจัง และด้วยเครื่องมือที่เหมาะสม

Randomised controlled trials (RCTs) หรือ การทดลองเเบบสุ่มเเละมีกลุ่มควบคุม เป็นเครื่องมือที่ดีที่สุดในการประเมินผลว่านโยบายสาธารณะที่จะนำออกมาใช้กับประชาชนนั้นมีประสิทธิภาพ (efficiency) เเละประสิทธิผล (effectiveness) มากน้อยเเค่ไหน บทความนี้จะสะท้อนให้เห็นถึงความสำคัญของเครื่องมือนี้ในการทำ evidence-based policy making ผ่านเลนส์และประสบการณ์จากต่างประเทศ และชวนผู้อ่านมาร่วมคิดต่อ ในการนำเครื่องมือนี้มาช่วยให้การวางนโยบายของประเทศไทยดีขึ้น

บ่อยครั้งที่นโยบายสาธารณะในประเทศของเรามักจะถูกนำออกมาใช้จริง ๆ กับประชาชนโดยที่ไม่เคยผ่านการพิสูจน์จากผู้ที่กำหนดนโยบายมาก่อนเลยว่าสามารถใช้ได้ผลกับการเปลี่ยนพฤติกรรมเเละคุณภาพชีวิตของประชาชนจริงหรือไม่ ทั้งนี้ ก็เป็นเพราะว่าผู้กำหนดนโยบายส่วนใหญ่มักจะให้ความไว้วางใจในความเชื่อที่ตัวเองมีต่อประสิทธิภาพเเละประสิทธิผลของนโยบายที่คิดขึ้นมามากจนเกินไป หรือไม่ก็เชื่อในทฤษฎีที่มีข้อสันนิษฐานว่ามนุษย์ทุกคนมีเหตุผลในการตัดสินใจมากจนเกินไป ซึ่งก็อาจส่งผลให้นโยบายที่ออกมานั้นได้ผลลัพธ์ที่ไม่คุ้มค่ากับงบประมาณที่ลงไป

ประเทศของเรายังไม่มีการวางแผนการศึกษาเพื่อประเมินผลของนโยบายอย่างจริงจัง การประเมินผลของนโยบายของบ้านเรา ส่วนใหญ่มุ่งเป้าไปที่การวัด ‘input’ หรือ ‘immediate output’ เสียมากกว่า เช่น วัดผลว่านโยบายนี้ใช้งบประมาณไปเท่าไร หรือมีประชาชนเข้าร่วมโครงการกี่คน เราจึงไม่ค่อยได้คำตอบว่านโยบายนั้น ๆ ประสบความสำเร็จในผลลัพธ์ที่มุ่งเป้าไว้หรือไม่ และคุ้มค่าหรือไม่ นี่เป็นเหตุผลที่บ่อยครั้งเราจะเห็นนโยบายที่ใช้งบประมาณมาก แต่กลับไม่ได้ทำให้เกิดการเปลี่ยนแปลงไปสู่ผลลัพธ์ที่ดีขึ้นอย่างยั่งยืน

การประเมินผลของนโยบายเป็นหัวใจสำคัญในการทำ evidence-based policy making เพราะจะช่วยให้ผู้วางนโยบายตัดสินใจที่จะขยายผลนโยบายต่อไปในวงกว้าง แก้ไขข้อบกพร่องของนโยบาย และตัดสินใจที่จะเลือกทำนโยบายเพื่อให้เกิดประโยชน์สูงสุดต่องบประมาณที่มี แต่การประเมินผลของนโยบายอย่างถูกต้องไม่ใช่เรื่องง่าย ยกตัวอย่างนโยบายเเรงงานที่พยายามผลักดันให้คนที่ตกงานกลับไปมีงานทำ สมมติว่าหลังจากการออกนโยบายไปเเล้วทางภาครัฐมองเห็นว่าคนที่ตกงานส่วนใหญ่เริ่มกลับไปทำงาน มันก็อาจจะเป็นเรื่องง่ายที่ทางภาครัฐจะสรุปว่านโยบายที่ออกไปนี้มีประสิทธิภาพเเละประสิทธิผลในการช่วยให้คนตกงานกลับไปมีงานทำ

ปัญหาของวิธีที่ว่านี้ก็คือ เราไม่สามารถบอกได้เลยว่าสาเหตุที่คนตกงานส่วนใหญ่กลับไปทำงานนั้นเป็นผลลัพธ์ของนโยบายที่ออกไป หรือเป็นเพราะสาเหตุอื่น ๆ ที่อยู่นอกเหนือการควบคุมของเรา ยกตัวอย่างเช่น ถ้าในขณะเดียวกันที่นโยบายนี้ถูกนำออกมาใช้นั้น เศรษฐกิจในประเทศของเรากำลังเจริญเติบโตได้ดี คนที่ตกงานก็อาจจะกลับไปมีงานทำต่อไม่ว่าจะมีนโยบายนี้หรือไม่มีนโยบายนี้ถูกนำออกมาใช้ก็ตาม

ยิ่งไปกว่านั้นการประเมินผลของนโยบายที่ไม่ได้ผ่านการทดลองเเบบสุ่มเเละมีกลุ่มควบคุมมาก่อนก็อาจส่งผลทำให้เกิดการตีความงานวิจัยเเบบผิด ๆ ได้ ยกตัวอย่างผลการวิจัยชิ้นหนึ่ง ที่พบว่าคนไข้ที่ถือบัตรทองนั้นมีความเสี่ยงต่อการเสียชีวิตจากโรคบางโรคมากกว่าข้าราชการหลายเท่าตัว ซึ่งทำให้คนส่วนใหญ่ด่วนสรุปว่านโยบายการประกันสุขภาพถ้วนหน้านี้เป็นนโยบายที่ไม่ดี ทั้ง ๆ ที่จริงเเล้วกลุ่มของคนที่ใช้บัตรทองนั้นตั้งเเต่เดิมเเล้วมักมีการศึกษาที่ด้อยกว่า มีอาชีพที่มีความเสี่ยงต่อโรคภัยไข้เจ็บที่สูงกว่า และอาศัยอยู่ไกลโรงพยาบาลมากกว่ากลุ่มที่ถูกเปรียบเทียบด้วย (กลุ่มราชการ) ซึ่งทั้งหมดนี้ล้วนเเล้วเเต่เป็นปัจจัยเเตกต่างที่สำคัญที่ทำให้กลุ่มของคนที่ถือบัตรทองมีความเสี่ยงที่จะเสียชีวิตจากโรคบางประเภทมากกว่ากลุ่มราชการ ซึ่งความเสี่ยงที่มากกว่าตัวนี้จะยังคงอยู่ไม่ว่าพวกเขาจะถือบัตรทองหรือไม่ก็ตาม ทางเศรษฐศาสตร์เรามักเรียกผลลัพธ์ที่มาจากความเเตกต่างดั้งเดิมของคนในสองกลุ่มนี้ว่า “selection effects”

การประเมินผลนโยบายที่ทำหลังจากออกนโยบายไปแล้ว[1] ต่างก็ประสบกับปัญหา selection effects ทั้งสิ้น ซึ่งหากไม่ได้ให้ความสำคัญก็อาจส่งผลทำให้การประเมินผลของนโยบายนั้น ๆ คลาดเคลื่อนได้ (Ravallion 2001)

ยกตัวอย่างของนโยบายที่ช่วยผลักดันให้คนตกงานกลับไปมีงานทำ (นโยบาย “back for work”) ตามรูปที่ 1 ในการทำ RCT นั้นเราก็อาจจะเลือกคนที่ตกงานอยู่มาศึกษา 2,000 คน หลังจากนั้นเราก็ทำการสุ่มเพื่อที่จะเเบ่งคน 2,000 คนนี้ออกมาเป็นสองกลุ่ม กลุ่มละ 1,000 คน กลุ่มเเรกก็คือกลุ่มที่ได้เข้าร่วมในนโยบาย (หรือ treatment group) ส่วน 1,000 คนในกลุ่มที่สองก็จะเป็นกลุ่มที่ไม่ได้เข้าร่วม (หรือ control group) หลังจากนั้นเราก็เอาตัวผลลัพธ์หรือดัชนีที่เราสนใจของคนจากทั้งสองกลุ่ม (ซึ่งในกรณีของนโยบาย “back for work” นี้อาจเป็นอัตราของคนที่หางานทำได้) มาทำการเปรียบเทียบกันเพื่อใช้ในการพิสูจน์ว่าการอยู่ในโครงการนั้นมีประสิทธิภาพเเละประสิทธิผลกับการมีงานทำของคนยังไงบ้าง เเละด้วยเหตุผลที่ว่าคนใน control group นั้นมีคุณสมบัติที่โดยเฉลี่ยเเล้วไม่เเตกต่างจากคนใน treatment group เราจึงสามารถสรุปได้ว่านโยบาย “back for work” เป็นสาเหตุเดียวที่ส่งผลให้ผลลัพธ์ที่ออกมาระหว่างคนทั้งสองกลุ่มไม่เหมือนกัน

รูปที่ 1 หลักการทำ RCT ของนโยบาย “back for work”

ที่มา: Haynes et al. (2012)

ขั้นตอนหลักในการทำ RCT เพื่อประเมินผลนโยบาย

1) ทำความเข้าใจนโยบายที่ต้องการประเมินหรือเปรียบเทียบผล คิดหาผลลัพธ์ที่ต้องการวัด และตั้งสมมุติฐานถึงผลลัพธ์ที่จะได้จากนโยบาย

2) ตัดสินใจหน่วยและขนาดของ beneficiary เช่น ระดับคน สถาบัน หรือพื้นที่ ให้มีความเหมาะสมกับนโยบาย

3) เลือก sample ของ beneficiary มาทำการศึกษาในจำนวนที่เหมาะสมตามหลักการทางเศรษฐศาสตร์ โดยคำนึงถึงงบประมาณ และข้อจำกัดต่าง ๆ

4) ทำการสุ่มหน่วย (ซึ่งอาจจะเป็นคน หรือสถาบัน หรือพื้นที่ก็ได้) ให้ไปอยู่ในกลุ่ม control เเละ treatment[2]

5) เก็บข้อมูล Baseline ของ beneficiary ทุกหน่วยในทั้งสองกลุ่มที่จะศึกษา

6) ทำการลงนโยบายที่เเตกต่างกันไปยังเเต่ละหน่วย

7) เก็บข้อมูลของทุกหน่วยในทั้งสองกลุ่มที่จะศึกษาหลังจากที่ทำนโยบาย

8) ทำการเปรียบเทียบผลของทั้งสองกลุ่มเเละประเมินผล[3]

ขั้นตอนเหล่านี้แสดงให้เห็นว่าการทำ RCT เพื่อประเมินผลนโยบายจะต้องมีการวางแผนล่วงหน้าไปพร้อม ๆ กับการวางแผนการทำนโยบาย และต้องทำร่วมกันระหว่างนักวิจัยและผู้วางนโยบายที่มีอำนาจในการตัดสินใจรูปแบบของการออกนโยบาย

ปัจจุบัน RCT ได้ถูกนำมาใช้อย่างแพร่หลายในต่างประเทศทั่วโลกทั้งในการ (1) ประเมินผลของนโยบาย (2) เปรียบเทียบผลและความคุ้มค่า (หรือ cost effectiveness) ระหว่างนโยบายต่าง ๆ และ (3) ทดลองแนวคิดเชิงนโยบายใหม่ ๆ โดยหลักฐานเชิงประจักษ์จากการประเมินผลของนโยบายต่าง ๆ ก็ได้ถูกนำมาถ่ายทอดในชุมชนนโยบาย เพื่อการตัดสินใจทำนโยบายอย่างรอบด้าน และคุ้มค่าที่สุด

ตัวอย่าง 1: RCT เพื่อประเมินผลของ Conditional Cash Transfer Program ที่ส่งผลทำให้นโยบายชนิดนี้แพร่หลายไปทั่วโลก

ตั้งแต่ปี ค.ศ. 1996 รัฐบาลเม็กซิโกได้ออกนโยบาย Conditional Cash Transfer ที่ชื่อ “Progresa”[4] มุ่งหวังที่จะสร้างแรงจูงใจให้ครอบครัวที่ยากจนทั่วประเทศลงทุนในบุตรหลานมากขึ้น โดยการให้เงินช่วยเหลือรายเดือนกับครอบครัวที่ส่งลูกหลานไปโรงเรียนและไปตรวจสุขภาพอย่างสม่ำเสมอ และได้ร่วมมือกับนักวิจัยตั้งแต่ต้นในการทำ RCT ไปพร้อม ๆ กับการออกนโยบาย โดยสุ่ม 2 ใน 3 ของชุมชนทั่วประเทศเพื่อเข้าร่วมนโยบายนี้ในปีแรก และที่เหลือในอีก 18 เดือนให้หลัง[5] และเก็บข้อมูลในระดับครัวเรือนและชุมชนทั้งก่อนและหลังโครงการอย่างต่อเนื่อง

การทำ RCT ครั้งนี้ทำให้เกิดงานศึกษามากมายซึ่งสะท้อนถึงผลอันน่าพึงพอใจของนโยบายนี้ เช่น Gertler (2004) พบว่านโยบายนี้ลดการเจ็บป่วยของเด็กได้ถึง 23% Behrman and Hoddinott (2001) พบว่านโยบายนี้ลดอัตราการเกิดปัญหาแคระแกร็นในเด็กเล็กช่วงอายุ 12-36 เดือนได้ถึง 1 เซนติเมตรต่อปี และรูปที่ 2 แสดงผลการศึกษาของ Behrman et al. (2005) ที่เปรียบเทียบอัตราการเข้าเรียนในแต่ละช่วงอายุของเด็กประถมและมัธยมระหว่างกลุ่ม treatment และ control และพบว่าอัตราการเข้าเรียนไม่ได้แตกต่างกันระหว่างสองกลุ่มในปี 1997 ก่อนที่นโยบายจะออก[6] แต่จะเห็นได้ชัดว่าอัตราการเข้าเรียนของกลุ่มที่เข้าร่วมในนโยบายสูงกว่ากลุ่ม control ในปี 1998 และ 1999 ภายหลังที่นโยบายได้ออกไปแล้ว โดยเฉพาะกลุ่มเด็กผู้หญิง นอกจากนี้ Schultz (2004) ยังพบว่านโยบายนี้เพิ่มจำนวนปีที่ได้รับการศึกษาของเด็กเฉลี่ยถึง 0.7 ปี และส่งผลบวกในระยะยาวต่อค่าตอบแทนจากตลาดแรงงานในอนาคตอีกด้วย

รูปที่ 2 ผลของ Conditional Cash Transfer Program ‘Progresa’ ต่ออัตราการเข้าเรียนของเด็กประถมและมัธยม (%)

ที่มา: Behrman et al. (2005)

ผลการศึกษาข้างต้นและอีกหลาย ๆ งานทำให้แนวคิดของนโยบาย Conditional Cash Transfer เป็นบทเรียนทางนโยบายที่สำคัญที่ได้ถูกถ่ายทอด และแพร่หลายไปทั่วโลก

ตัวอย่าง 2: RCT เพื่อเปรียบเทียบความคุ้มค่าของนโยบายการศึกษา

Miguel and Kremer (2004) ร่วมมือกับรัฐบาลประเทศเคนย่าในการทำ RCT เพื่อประเมินโครงการถ่ายพยาธิครั้งใหญ่ในโรงเรียน 75 แห่ง โดยการสุ่มโรงเรียนให้ทยอยเข้าร่วมโครงการไม่พร้อมกันในช่วงปี ค.ศ. 1998 ถึง 2000[7] โดยโรงเรียนที่ถูกสุ่มเข้าร่วมโครงการจะมีนักเรียนบางชั้นเรียนที่ได้รับยาถ่ายพยาธิไปรับประทานทุกเทอม งานวิจัยนี้พบว่าโครงการนี้สามารถลดอัตราการขาดเรียนของเด็กในโรงเรียนที่อยู่ในโครงการได้ถึง 25% และพบว่าผลบวกดังกล่าวยังได้แพร่ไปสู่นักเรียนที่ไม่ได้รับประทานยาในโรงเรียนที่เข้าร่วมโครงการอีกด้วย (positive externality) ซึ่งเมื่อรวมผลทั้งหมดเข้าด้วยกัน พบว่าต้นทุนต่อการเพิ่มการศึกษาของเด็กอีก 1 ปี โดยโครงการถ่ายพยาธินี้จะใช้งบประมาณเพียง $3.5 ซึ่งก็ทำให้โครงการถ่ายพยาธิเป็นโครงการที่คุ้มค่าต่องบประมาณที่สุดในการเพิ่มการได้รับการศึกษาของนักเรียนในประเทศเคนย่า เมื่อเปรียบเทียบกับโครงการอื่น ๆ

รูปที่ 3 แสดงผลจาก Dhaliwal et al. (2013) ที่ได้ศึกษาเปรียบเทียบความคุ้มค่าของนโยบายส่งเสริมการศึกษา โดยเปรียบเทียบจำนวนปีของการศึกษาของเด็กที่เพิ่มขึ้นจากต้นทุนทุก ๆ $100 ของนโยบายต่าง ๆ กว่า 11 โครงการทั่วโลก ซึ่งได้รวบรวมจากงานวิจัยของนักวิจัยจาก Abdul Latif Jameel Poverty Action Lab (หรือ JPAL) ที่ MIT ซึ่งเป็นองค์กรทางวิชาการที่จัดตั้งขึ้นเพื่อสร้างและรวบรวมผลของนโยบายจากการทำ RCT โดยเฉพาะ ซึ่งผลเหล่านี้ทำให้นโยบายการถ่ายพยาธิได้กลายเป็น National Priority ของประเทศเคนย่า อินเดีย และอีกหลายประเทศกำลังพัฒนา

รูปที่ 3 เปรียบเทียบจำนวนปีของการศึกษาที่เพิ่มขึ้นของเด็กจากต้นทุนทุก ๆ $100 ของนโยบายต่าง ๆ

ที่มา: Dhaliwal et al. (2013)

งานวิจัยดังกล่าวแสดงให้เห็นว่า ถึงแม้ว่าอาจต้องใช้งบประมาณบ้างในการทำ RCT ในช่วงเเรก เเต่หากนำมาซึ่งหลักฐานเชิงประจักษ์ที่จะช่วยให้ผู้วางนโยบายสามารถเลือกทำนโยบายที่คุ้มค่าที่สุด การทำ RCT ก่อนที่จะลงนโยบายจริง ก็อาจสามารถช่วยลดค่าใช้จ่ายระยะยาวให้กับรัฐบาลได้มาก

ตัวอย่าง 3: RCT เพื่อทดลองแนวคิดใหม่ ๆ เช่นนโยบายการ “ดุน” หรือ Nudge

ในปี ค.ศ. 2010 Behavioural Insights Team หรือBIT[8] ได้ถูกจัดตั้งขึ้นภายใต้รัฐบาลของประเทศอังกฤษ โดยมุ่งที่จะใช้หลักการทางจิตวิทยาและเศรษฐศาสตร์พฤติกรรมมาช่วยสร้างแนวคิดใหม่ ๆ โดยอาศัยนโยบายการ “ดุน” หรือ Nudge ในการเปลี่ยนพฤติกรรมหลาย ๆ พฤติกรรมของคน เพื่อเพิ่มความคุ้มค่าในการทำนโยบายของประเทศ (ซึ่งผู้เขียนจะเล่ารายละเอียดในบทความตอนหน้า) โดยตั้งแต่เริ่มก่อตั้ง BIT มีการทำ RCT เพื่อทดลองแนวคิดนโยบายใหม่ ๆ ไปแล้วกว่า 150 โครงการ

โครงการ RCT ครั้งแรก ๆ ของ BIT พวกเขาได้ร่วมมือกับกรมสรรพากรในการผลักดันให้คนที่จ่ายภาษีรายได้ช้า ให้จ่ายภายในเวลาที่กำหนดไว้ โดยการสุ่มเพิ่มข้อความในจดหมายเรียกเก็บภาษี เพื่อให้ผู้เสียภาษีรับรู้ถึงบรรทัดฐานของสังคมที่เเท้จริงว่า “9 ใน 10 คนเสียภาษีตรงเวลา” เเละจากการทำ RCT ของนโยบายนี้ (ซึ่งเป็นนโยบายที่เเทบไม่ได้ใช้ค่าใช้จ่ายอะไรเพิ่มขึ้นเลย) BIT พบว่าสามารถเพิ่มอัตราของคนที่จ่ายภาษีช้ากลับมาจ่ายภาษีตรงเวลาถึง 4.5% ด้วยกัน

และโครงการที่ถือได้ว่าเป็น RCT ที่ใหญ่ที่สุดในประเทศอังกฤษ คือการใช้ RCT ทดลองข้อความที่ขึ้นบนเวปไซต์ของกรมขนส่ง เพื่อรณรงค์ให้คนบริจาคอวัยวะ โดยมี 8 ข้อความที่ถูกสลับสับเปลี่ยนกันไปเมื่อพบว่ามีคนเข้ามาใช้เวปไซต์ไปแล้วทุก ๆ 135,000 คน รูปที่ 4 แสดงข้อความทั้ง 8 ข้อความที่ใช้ทำ RCT ในครั้งนี้ และพบว่า (รูปที่ 5) ข้อความที่ให้ผลดีที่สุดคือข้อความใช้แนวคิดการพิ่งพาอาศัย (หรือ Reciprocity) ที่ว่า “If you needed an organ transplant, would you have one? If so, help others.”

รูปที่ 4 ข้อความทั้ง 8 ข้อความที่ใช้ทำ RCT เพื่อรณรงค์ให้คนบริจาคอวัยวะ

ที่มา: Halpern (2016)

รูปที่ 5 เปอร์เซ็นของผู้ที่เข้าใช้เวปไซต์ที่ตัดสินใจบริจาคอวัยวะแบ่งตามข้อความที่ปรากฏบนหน้าเวป

ที่มา: Halpern (2016)

RCT จึงเป็นเครื่องมือที่สำคัญที่จะช่วยให้ผู้วางนโยบายได้ประโยชน์จากหลักคิดใหม่ ๆ เช่น นโยบายการ “ดุน” ที่สามารถเพิ่มประสิทธิภาพและประสิทธิผลของนโยบาย โดยไม่ต้องใช้งบประมาณจำนวนมาก

Evidence-based Policy Making จากการประเมินนโยบายด้วย RCT

ในหลายทศวรรษที่ผ่านมาการประเมินผลของนโยบายด้วย RCT ได้รับความนิยมเพิ่มขึ้นในทุกมุมโลก ก่อให้เกิดองค์กรที่ดูแลด้านนี้ขึ้นมากมาย ทั้งในแวดวงวิชาการ เช่น JPAL, Innovation for Poverty Action และ Centre for Effective Global Action และองค์กรอิสระอย่างเช่น International Initiative for Impact Evaluation (3ie) หลายประเทศก็ได้มีการจัดตั้งหน่วยงานเฉพาะที่ดูแลด้านนี้โดยตรง[9] หรือองค์กรอย่าง BIT ก็ได้มีการขยายไปในหลายประเทศ เช่น ออสเตรเลีย และโดยเฉพาะสหรัฐอเมริกาที่ได้มีการจัดตั้ง Social and Behavioural Science Initiative ในทำเนียบขาวในปี ค.ศ. 2015

และเมื่อการประเมินผลของนโยบายด้วย RCT มีเพิ่มขึ้นและในหลากหลายบริบทมากขึ้น ก็ได้เปิดมิติใหม่ในการทำนโยบายที่สามารถอ้างอิงจากหลักฐานเชิงประจักษ์ที่สามารถบ่งถึง “what works” ในบริบทต่าง ๆ จากการรวบรวมและเปรียบเทียบผลของนโยบายต่าง ๆ ทั่วโลกที่มีจุดมุ่งหมายไปสู่ผลลัพธ์ทางนโยบายเดียวกัน

ยกตัวอย่างเช่น Kremer et al. (2013) ทำ Meta-analysis เพื่อเปรียบเทียบความคุ้มค่าของนโยบายการศึกษาจาก RCT กว่า 30 โครงการทั่วโลก และในรูปที่ 6 พบว่านโยบายที่เกี่ยวกับการปฏิรูปวิธีการสอน (Pedagogical innovations) และการส่งเสริมแรงจูงใจและความรับผิดชอบของครู (Teacher Accountability) เป็นนโยบายที่คุ้มค่าที่สุดเมื่อเทียบกับนโยบายอื่น ๆ

รูปที่ 6 เปรียบเทียบการพัฒนาผลการเรียนของนักเรียนต่องบประมาณ $100 ของนโยบายการศึกษาทั่วโลก

ที่มา: Kremer et al. (2013)

หลักฐานเชิงประจักษ์เหล่านี้ หากได้รับการถ่ายทอด ทางนโยบายอย่างเหมาะสม ก็จะช่วยให้ผู้วางนโยบายสามารถตัดสินใจเลือกทำนโยบายที่คุ้มค่าที่สุดได้

ในการนี้ รัฐบาลอังกฤษจึงได้จัดตั้งกลุ่มองค์กรที่รู้จักกันในนาม “what work institutions” ซึ่งมีหน้าที่โดยตรงในการรวบรวมและสร้างหลักฐานเชิงประจักษ์จากทั่วโลกเพื่อบ่งถึงนโยบายที่คุ้มค่าที่สุดในด้านต่าง ๆ ถ่ายทอดและส่งเสริมให้ผู้วางนโยบายได้นำไปใช้ ไม่ว่าจะเป็นนโยบายการศึกษา (The Education Endowment Foundation) นโยบายกระตุ้นเศรษฐกิจท้องถิ่น (Centre for Local Economic Growth) นโยบายเพื่อเด็กปฐมวัย (Early Intervention Foundation) หรือนโยบายเพื่อสังคมสูงวัย (Centre for Ageing Better) เป็นต้น โดยองค์กรเหล่านี้เป็นองค์กรอิสระที่ได้รับงบประมาณทั้งจากภาครัฐและเอกชน

Challenges: อุปสรรคและข้อควรระวังของ RCT

งานเขียนอย่าง Banerjee et al. (2017), Barrett and Carter (2010) และ Deaton (2009) ได้ชี้ถึงข้ออุปสรรคและควรระวังในการใช้ RCT ในการประเมินผลของนโยบาย ซึ่งหลัก ๆ ประกอบไปด้วย

(1) External validity and scalability บางครั้งการทำ RCT อาจทำกับกลุ่มคนขนาดเล็ก ในพื้นที่และความหลากหลายที่จำกัด ผลการศึกษาจึงอาจไม่สามารถนำมาขยายผลไปในพื้นที่อื่น ๆ หรือกับคนกลุ่มอื่น ๆ ในบริบทที่แตกต่างออกไป และประกอบกับความเป็นไปได้ที่จะเกิด General equilibrium effects และ Spillover effects ในการขยายผลในวงกว้าง ก็อาจไม่สามารถสะท้อนจากการทำ RCT ขนาดเล็กได้ การออกแบบและการขยายผลของ RCT จึงต้องคำนึงถึงด้านนี้เป็นสำคัญ

(2) Political feasibility ในบางบริบท การสุ่มกลุ่มคนบางกลุ่มให้เข้าร่วม หรือไม่ให้เข้าร่วมนโยบายอาจทำไม่ได้ ด้วยเหตุผลทางการเมือง หรืออาจนำไปสู่ความขัดแย้ง ซึ่งก็ทำให้ไม่สามารถทำ RCT ได้กับทุก ๆ นโยบาย

(3) Ethics issues การทำ RCT เพื่อประเมินผลของนโยบายควรคำนึงถึงผลประโยชน์และผลกระทบกับประชาชนผู้ถูกทดลองเป็นสำคัญ ควรเลี่ยง RCT ที่อาจทำให้เกิดผลกระทบรุนแรงต่อผู้ถูกทดลอง เช่น Karlan and Zinman (2017) และงานวิจัยที่เกี่ยวข้อง ที่ศึกษาความยืดหยุ่นของอุปสงค์ของเงินกู้ต่ออัตราดอกเบี้ย โดยให้ธนาคารทำการสุ่มส่งจดหมายปล่อยกู้ให้กับประชาชนในอัตราดอกเบี้ยต่าง ๆ ซึ่งผลของการทำ RCT ครั้งนี้ทำให้คนจำนวนมากที่ถูกชักจูงให้มากู้เงินครั้งนี้ไม่สามารถจ่ายหนี้คืนได้ เป็นต้น

Opportunities: เริ่มอย่างไรกับการใช้ RCT เพื่อประเมินผลของนโยบาย

เริ่มจาก low-hanging fruits: ประสบการณ์จาก BIT และ JPAL ได้แสดงให้เห็นแล้วว่า การทำ RCT ไม่จำเป็นต้องทำขนาดใหญ่ หรือใช้งบประมาณมากเสมอไป BIT เริ่มจาก RCT ที่แทบจะไม่ได้ใช้งบประมาณเลย เพราะทำการทดลองโดยอาศัย “platform” ของกรมศุลกากรที่มีการส่งจดหมายเรียกเก็บภาษีและเก็บข้อมูลผู้เสียภาษีอยู่แล้ว หรือแม้กระทั่งการทำ RCT บทเวปไซต์ของกรมขนส่งเพื่อรณรงค์ให้คนบริจาคอวัยวะที่ไม่ต้องมีการลงทุนในการทดลองและเก็บข้อมูลใหม่แต่อย่างใด การเริ่มทำ RCT จึงควรเริ่มจาก infrastructure ที่มีอยู่แล้ว

การเข้าสู่ Digital economy ได้เอื้อให้การทำ RCT ง่ายขึ้น ถูกลง และขนาดใหญ่ขึ้นได้: “platform” ต่าง ๆ ที่เกิดขึ้นมากมายในปัจจุบัน ไม่ว่าจะเป็น web based หรือ mobile based ได้เปิดมิติใหม่ในการทำ RCT โดยสามารถทำหน้าที่เป็นทั้งสนามทดลอง และที่เก็บข้อมูลในลักษณะต่าง ๆ อย่างละเอียดและโดยอัตโนมัติ ซึ่งจะเห็นได้ว่า ในภาคธุรกิจ “platform” อย่าง Google, Facebook หรือ Line ก็ทำการทดลองกับเราอยู่ตลอดเวลาอยู่แล้ว และเมื่อรัฐบาลเปลี่ยนเป็นรัฐบาลอิเล็คโทรนิคมากขึ้น ก็สามารถใช้ “platform” ที่ตัวเองมี เช่น เวปไซต์ หรือ Mobile Applications ในการทำ RCT กับนโยบายสาธารณะได้ดียิ่งขึ้นไปด้วย

สู่การทำ evidence-based policy ในประเทศไทยด้วย RCT

บทความนี้สะท้อนถึงคุณค่า โอกาสและอุปสรรคในการใช้ RCT เพื่อทำ evidence-based policy โดยใช้ประสบการณ์จากทั่วโลกที่ต่างให้ความสำคัญกับการประเมินนโยบายอย่างถูกต้องเหมาะสม และการใช้ RCT เพื่อบรรลุวัตถุประสงค์ดังกล่าว ถึงเวลาแล้วที่ประเทศไทยจะต้องเริ่มให้ความสำคัญกับการประเมินผลของนโยบายอย่างจริงจัง และไม่มีเวลาไหนเหมาะสมเท่ากับเวลานี้ (1) ที่รัฐบาลกำลังให้ความสำคัญกับการปฏิรูปนโยบายครั้งสำคัญ ซึ่งจะทำให้มีนโยบายใหม่ ๆ ออกมาเป็นจำนวนมาก (2) ที่รัฐบาลกำลังก้าวไปสู่การเป็นรัฐบาลอิเล็คโทรนิค ซึ่งก็เปิดโอกาสให้เริ่มทำ RCT ได้ง่าย ถูก และขนาดใหญ่ได้ และ (3) ที่เรากำลังคิดถึงการปฏิรูปหน่วยงานราชการ ซึ่งก็เป็นโอกาสดีที่จะได้พิจารณาจัดตั้งหน่วยงานภาครัฐที่จะทำงานร่วมกับนักวิจัย และรับผิดชอบโดยตรงในการสร้าง เผยแพร่ และใช้หลักฐานเชิงประจักษ์ในการวางนโยบายของประเทศอย่างมีประสิทธิภาพและประสิทธิผลสูงสุด ถึงเวลาแล้วที่ประเทศเราจะมี “Policy Lab” เป็นของตัวเอง

เอกสารอ้างอิง

Banerjee A., R. Banerji, J. Berry, E. Duflo, H. Kannan, S. Mukerji, M. Shotland and M. Walton (2017). From Proof of Concept to Scalable Policies: Challenges and Solutions, with an Application. Journal of Economic Perspectives 31 (4): 73-102.

Barrett, C.B. and M. Carter (2010). The Power and Pitfalls of Experiments
in Development Economics: Some Non-random Reflections. Applied Economic Perspectives and Policy 32 (4): 515–548.

Behrman, J.R. and J. Hoddinott (2001). An Evaluation of the Impact of PROGRESA on Pre-school Child Height. FCND Briefs 104, International Food Policy Research Institute, Washington, DC.

Behrman, J.R., P. Sengupta and P. Todd (2005). Progressing through PROGRESA: An Impact Assessment of a School Subsidy Experiment. Economic Development and Cultural Change 54 (1): 237-275.

Bruhn, M. and D. McKenzie (2009). In Pursuit of Balance: Randomization in Practice in Development Field Experiments. American Economic Journal: Applied Economics 1 (4): 200–232.

Deaton, A. (2009). Instruments of Development: Randomization in the Tropics, and the Search for the Elusive Keys to Economic Development. NBER Working Paper No. 14690.

Dhaliwal, I., E. Duflo, R. Glennerster and C. Tulloch (2013). Comparative Cost-Effectiveness Analysis to Inform Policy in Developing Countries: A General Framework with Applications for Education in Education Policy in Developing Countries. University of Chicago Press.

Duflo, E., R. Glennerster and M. Kremer (2008). Using Randomization in Development Economic Research: A Toolkit. Handbook of Development Economics, Volume 4.

Gertler, P.J (2004). Do Conditional Cash Transfers Improve Child Health? Evidence from PROGRESA’s Control Randomized Experiment. American Economic Review 94 (2): 336–41.

Gertler, P.J, S. Martinez, P. Premand, L.B. Rawlings and C.M.J. Vermeersch (2016). Impact Evaluation in Practice. The World Bank.

Halpern, D (2016). Inside the nudge unit: How small changes can make a big difference. Random House.

Haynes, L., B. Goldacre and D. Torgerson (2012). Test, Learn, Adapt: Developing Public Policy with Randomised Controlled Trials. Cabinet Office.

Imbens, G. and J.M. Wooldridge (2009). Recent Developments in the Econometrics of Program Evaluation Journal of Economic Literature 47:1, 5–86

Karlan, D. and J. Zinman (2017). Long-Run Price Elasticities of Demand for Credit: Evidence from a Countrywide Field Experiment in Mexico. Working Paper. Dartmouth University.

Kremer, M. and E. Miguel (2004). Worms: Identifying Impacts on Education and Health in the Presence of Treatment Externalities. Econometrica 72 (1): 159–217.

Kremer, M., C. Brannen, and R. Glennerster (2013). The Challenge of Education and Learning in the Developing World. Science 340 (6130): 297–300.

Ravallion, M. (2001). The Mystery of the Vanishing Benefits: An Introduction to Impact Evaluation. The World Bank Economic Review 15 (1): 115–140.

Schultz, P (2004). School Subsidies for the Poor: Evaluating the Mexican Progresa Poverty Program. Journal of Development Economics 74 (1): 199–250.

[1] วิธีการประเมินผลของนโยบายที่ทำหลังจากออกนโยบายไปแล้ว รวมถึง Instrumental variable, Difference in difference, Regression discontinuity และ Propensity score matching ซึ่งแต่ละวิธีมีสมมุติฐานและหลักการที่ใช้แก้ไข selection effects ที่แตกต่างกัน ผู้อ่านสามารถอ่านเพิ่มเติมได้จาก Imbens and Wooldridge (2009) Gertler et al. (2016)
[2] ซึ่งในทางปฏิบัติอาจทำได้โดยตรง แต่หากในบางกรณีที่ต้องให้สิทธิ์ในการเข้าร่วมโครงการกับ beneficiary อย่างเท่าเทียมกัน อาจทำการสุ่มให้บางหน่วยเข้าร่วมโครงการก่อน แล้วให้บางหน่วยทยอยเข้าร่วมโครงการทีหลัง หรือที่เรียกว่า Randomised Phase in ที่ใช้กันอย่างแพร่หลาย
[3] อ่านรายละเอียดของแต่ละขั้นตอนเพิ่มเติมได้จาก Gertler et al. (2016), Bruhn and McKenzie (2009) และ Duflo et al. (2008).
[4] ซึ่งต่อมาได้เปลี่ยนชื่อเป็น “Oportunidades” และ ในปัจจุบันเป็น “Prospera”
[5] ซึ่งวิธีนี้ทำให้กลุ่มหลังกลายเป็น control group ให้กับกลุ่มแรก ในช่วง 18 เดือนแรก และทำให้เกิดความหลากหลายของเวลาการเข้าร่วมโครงการระหว่างชุมชน เพื่อไปทำการศึกษา
[6] ซึ่งก็แสดงให้เห็นว่าการสุ่มแบ่งกลุ่ม treatment และ control มีความเหมาะสม
[7] สาเหตุที่ Miguel and Kremer (2004) ทำการสุ่มระดับโรงเรียนก็เพราะการติดเชื่อมีผลแพร่กระจายในวงกว้าง (หรือ spillover effect) และ so is the potential impact of the program ดังนั้นหากสุ่ม control และ treatment groups ในระดับนักเรียนในโรงเรียนเดียวกัน แล้วเปรียบเทียบผล อาจทำให้การศึกษา underestimate the impact เพราะนักเรียนที่อยู่ใน control group อาจได้ผลประโยชน์จากการถ่ายพยาธิของเพื่อนไปด้วย จึงไม่สามารถเป็น control group ที่ดี
[8] ศึกษารายละเอียดต่อที่ Halpern (2016) และ http://www.behaviouralinsights.co.uk
[9] เช่น National Council for Evaluation of Social Development Policy ใน Mexico หรือ Department of Performance Monitoring and Evaluation ในประเทศแอฟริกาใต้ เป็นต้น

ข้อคิดเห็นที่ปรากฏในบทความนี้เป็นความเห็นของผู้เขียน ซึ่งไม่จำเป็นต้องสอดคล้องกับความเห็นของสถาบันวิจัยเศรษฐกิจป๋วย อึ๊งภากรณ์

READS: 28849