Big Data and Data Revolution: A Personal View
excerpt
ในช่วงสองปีที่ผ่านมาคำว่า big data และ data revolution ได้กลายเป็นคำฮิตที่ถูกกล่าวถึงในวงกว้าง และถูกใช้ประหนึ่งเป็นคำเดียวกัน หลายภาคส่วนทั้งภาคธุรกิจและภาครัฐเริ่มมองว่า big data อาจเป็นเครื่องมือช่วยในการตัดสินใจด้านธุรกิจและนโยบาย ถึงแม้ว่า big data เป็นคำยอดฮิตที่ใช้กันอย่างแพร่หลาย แนวคิดและคำนิยามของ big data ยังมีการตีความที่หลากหลาย บทความนี้จะใช้แนวความคิดเกี่ยวกับ big data ตาม Hal Varian (2014) อดีตศาสตราจารย์ด้านเศรษฐศาสตร์ชื่อดังซึ่งปัจจุบันเป็น Chief Economist ที่ Google สำหรับบทความนี้ big data คือการใช้ข้อมูลที่มีขนาดใหญ่และซับซ้อนเกินกว่าที่ traditional techniques จะรองรับได้ โดย Varian (2014) ได้พูดถึงประเด็นที่เกี่ยวกับ big data ที่ควรได้รับความสนใจรวม ๆ สองด้านคือ
- ปัญหาด้านการจัดเก็บและการจัดการข้อมูลซึ่งมีขนาดใหญ่ (data management) และ
- ปัญหาด้านวิธีการทางสถิติที่นำมาใช้วิเคราะห์ข้อมูล (statistical analysis)
โดยบทความนี้จะมุ่งเน้นเพียงมิติที่สอง ได้แก่ การวิเคราะห์ข้อมูลขนาดใหญ่ที่อยู่บนพื้นฐานของ statistical analysis
หลักการ scientific method ซึ่งได้รับการพัฒนาในช่วงศตวรรษที่ 17 เป็นปัจจัยสำคัญที่ช่วยให้ศาสตร์แขนงต่าง ๆ ทั้งด้าน natural และ social science พัฒนาได้อย่างรวดเร็ว หลักการนี้ตั้งอยู่บนแนวความคิดที่ว่า ทฤษฎีต่าง ๆ ควรได้รับการทดสอบผ่านการทดลองหรือการเก็บข้อมูลเพื่อตรวจสอบว่า ผลการทดลองที่ได้หรือข้อมูลที่พบในโลกแห่งความเป็นจริงนั้นสอดคล้องกับทฤษฎีเหล่านั้นหรือไม่ อย่างไรก็ดี scientific method ได้ถูกวิพากษ์วิจารณ์โดยเฉพาะอย่างยิ่งโดย David Hume ใน An Enquiry Concerning Human Understanding ช่วงศตวรรษที่ 18 ว่าจริง ๆ แล้ว scientific method ใช้ inductive reasoning กล่าวโดยคร่าว ๆ inductive reasoning คือการใช้เหตุผลโดยการหยิบยกตัวอย่างและนำข้อสรุปจากตัวอย่างไป generalize กับกรณีอื่น ๆ ในขณะที่ deductive reasoning คือการใช้เหตุผล หาข้อสรุปผ่านตรรกะเพียงอย่างเดียว เพื่อให้ผู้อ่านเข้าใจความแตกต่างระหว่าง deductive และ inductive reasoning ผู้เขียนขอหยิบยก joke ที่ชื่นชอบครั้งเป็นนักเรียน ดังนี้
เรื่องมีอยู่ว่านักคณิตศาสตร์ นักฟิสิกส์ และวิศวกรจากอังกฤษเดินทางด้วยกันบนรถไฟไปสกอตแลนด์ ระหว่างทางทั้งสามเห็นแกะตัวหนึ่ง ทำให้วิศวกรกล่าวว่า “แกะในสกอตแลนด์สีดำ”
“คุณทราบแค่ว่า มีแกะสีดำในสกอตแลนด์” นักฟิสิกส์กล่าวตาม
“ไม่… เรารู้แค่ว่ามีแกะหนึ่งตัวในสกอตแลนด์ที่มีด้านหนึ่งเป็นสีดำ” นักคณิตศาสตร์ตอบ
กล่าวคือวิศวกรใช้ inductive reasoning จากการพบเห็นแกะดำเพียงตัวเดียวและสรุปว่าแกะในสกอตแลนด์สีดำ (generalization) ในขณะที่นักฟิสิกส์ใช้ inductive reasoning น้อยกว่า โดยสรุปเพียงแค่มีแกะหนึ่งตัวในสกอตแลนด์ที่มีสีดำโดยที่นักฟิสิกส์ยังใช้ inductive reasoning เพื่อสรุปว่าข้างที่เขาไม่เห็นของแกะน่าจะเป็นสีดำเหมือนดังข้างที่เห็น ในขณะที่นักคณิตศาสตร์ใช้ deductive reasoning คือสรุปโดยใช้ตรรกะจากสิ่งที่เห็นเท่านั้น
ดังนั้น scientific method จึงมีลักษณะเป็น inductive reasoning เนื่องจากความน่าเชื่อถือของทฤษฎีขึ้นอยู่กับการทดลองเพียงไม่กี่การทดลองหรือจากการศึกษากลุ่มตัวอย่างจากโลกแห่งความเป็นจริงเท่านั้น scientific method จึงถือได้ว่าใช้ generalization ในการหาข้อสรุป ถึงแม้ว่าจะมีนักคิดและ นักปรัชญาจำนวนมากพยายามแก้ไขปัญหาเรื่อง inductive reasoning ของ scientific method แต่แนวทางแก้ปัญหาที่ได้รับความนิยมมากที่สุดน่าจะเป็นหลักการ statistical inference ที่ถูกพัฒนาขึ้นในช่วงศตวรรษที่ 20 โดยนักวิจัยสามารถคำนวณความน่าจะเป็นจากผลการทดลองหรือการเก็บข้อมูลว่าทฤษฎีที่กำลังศึกษามีความผิดเพี้ยนหรือไม่น่าเชื่อถือเพียงไร โดยขั้นตอนในการคำนวณหาความน่าจะเป็นนั้นใช้ probability theory ซึ่งเป็นคณิตศาสตร์ (และเป็น deductive reasoning) ด้วยความนิยมนี้ statistical inference จึงกลายเป็น standard tool ที่ใช้ในการทำวิจัยในศาสตร์แขนงต่าง ๆ
หากจะมองผ่านประวัติศาสตร์ data revolution ยุคแรกน่าจะเกิดขึ้นในช่วงศตวรรษที่ 19 โดยในปี 1834 Statistical Society of London ได้ถูกก่อตั้งขึ้นโดยนักคณิตศาสตร์ นักวิทยาศาสตร์ และนักเศรษฐศาสตร์ชั้นนำของประเทศอังกฤษ เช่น Charles Babbage, Thomas Malthus และ Richard Jones พันธกิจหลักของ Statistical Society ในช่วงนั้นคือการจัดเก็บข้อมูลอย่างเป็นระบบและเผยแพร่ข้อมูลต่าง ๆ ผ่าน Journal of the Statistical Society of London (ซึ่งภายหลังเปลี่ยนชื่อเป็น Journal of the Royal Statistical Society ในปี 1887) ในช่วงแรกวารสารนี้ทำหน้าที่เพียงแค่เผยแพร่ข้อมูลเพียงอย่างเดียว แต่ทว่าในช่วงต้นศตวรรษที่ 20 วารสารนี้ได้กลายเป็นวารสารชั้นนำของโลกที่เน้นการพัฒนา statistical theory, statistical models และการใช้ statistics ในการวิเคราะห์ข้อมูล ซึ่งสะท้อนความสำคัญของ statistical analysis ที่เพิ่มขึ้นเมื่อมีข้อมูลที่ซับซ้อนและหลากหลายมากขึ้น โดยการพัฒนาหลัก ๆ ในช่วงนั้นเน้นไปที่ probability theory, regression analysis และ design of experiments
ยุคที่สองของ data revolution น่าจะเกิดขึ้นในช่วงที่มีการพัฒนาคอมพิวเตอร์เป็นครั้งแรกโดยในช่วงนั้น statisticians หลายคนเข้าไปมีส่วนร่วมในการพัฒนาคอมพิวเตอร์ด้วย โดย John Tukey มักได้รับ credit สำหรับการใช้คำว่า “bit” และ “software” สำหรับคอมพิวเตอร์ statistical analysis ในช่วงนี้ ได้เปลี่ยนโฉมหน้าไปอย่างรวดเร็วมาก คอมพิวเตอร์สามารถทำการคำนวณที่ยากและซับซ้อนได้แทนที่มนุษย์ เครื่องมือใหม่ ๆ เช่น Spectral Density และ Probability Density Estimation ซึ่งต้องใช้การคำนวณที่ซับซ้อนเริ่มได้รับความนิยมทั้งทางทฤษฎีและการใช้จริง ทฤษฎีสำหรับ nonlinear models เริ่มได้รับการพัฒนาในเวลาต่อมา
การพัฒนาทั้งด้านประสิทธิภาพและความแพร่หลายของ personal computer ส่งผลต่อการพัฒนา statistical analysis ทั้งทางตรงและทางอ้อม ประสิทธิภาพที่เพิ่มขึ้นของคอมพิวเตอร์ทำให้ statisticians สามารถนำ abstract mathematics โดยเฉพาะอย่างยิ่ง functional analysis มาพัฒนา statistical analysis ใหม่ ๆ เช่น nonparametric และ semiparametric inference ซึ่งต้องใช้การคำนวณที่ซับซ้อน การพัฒนาด้าน pseudo-random numbers นำไปสู่การพัฒนา Monte Carlo Simulation ซึ่งเป็นกุญแจสำคัญสำหรับการพัฒนา Bayesian Inference, simulation based inference และ bootstrapping
สำหรับผลทางอ้อมนั้น ความแพร่หลายของคอมพิวเตอร์ทำให้ข้อมูลชนิดใหม่เกิดขึ้น เช่น panel data (หรือที่รู้จักในชื่อ longitudinal data ในทาง biostatistics) ส่งผลให้ panel data analysis ถูกพัฒนาขึ้น เทคโนโลยี Geographic Information System (GIS) ทำให้ spatial point processes และ spatial analysis ถูกพัฒนาอย่างรวดเร็วในช่วง 1970s และได้รับความนิยมจากทาง astronomy ecology และ epidemiology การพัฒนา chaos theory และ fractal geometry ในช่วงปี 1960s ที่สืบเนื่องมาจากการพัฒนาทางด้านคอมพิวเตอร์ได้ส่งผลให้ chaotic dynamics และ self-similarity เริ่มเข้ามามีบทบาทใน time series analysis ในช่วงปี 1980s โดยสรุปคือ statistical analysis ได้กลายเป็นเครื่องมือสำคัญที่ช่วยในการพัฒนาของ scientific community และในทางกลับกันเมื่อมี scientific advancements ใหม่ ๆ เกิดขึ้นที่ส่งผลให้ statistical analysis แบบเก่าไม่เหมาะสม ก็จะมีการพัฒนา statistical analysis ใหม่เกิดขึ้นตามมา
ในช่วงปี 1980s machine learning (ML) ได้แตกแขนงมาจาก artificial intelligence และ cognitive science โดยเน้นการพัฒนาให้คอมพิวเตอร์สามารถเรียนรู้ได้ เช่น การสร้าง algorithm เพื่อให้คอมพิวเตอร์เรียนรู้โครงสร้างของข้อมูลและนำโครงสร้างที่เรียนรู้นั้นมาใช้เพื่อทำการพยากรณ์ (prediction) การเปิดรับแนวความคิดจาก pattern recognition ทำให้ ML เริ่มถูกนำมาใช้และได้รับอิทธิพลจาก probability และ statistics อีกทั้งยังเริ่มนำไปสู่การเน้นศึกษา learning ที่เกี่ยวข้องโดยตรงกับ regression และ classification ซึ่งเป็นเครื่องมือที่ได้รับความนิยมมากทางด้าน statistics มากกว่าการศึกษา learning จาก task อื่น ๆ ที่ซับซ้อนกว่า (โปรดดู Pat Langley (2011))
งานวิจัยด้าน statistics โดยเฉพาะอย่างยิ่งงานในสายกระแสหลักนั้นจะเริ่มด้วยสิ่งที่เรียกว่า data generating process ซึ่งมักถูกเรียกว่า model โดยจะบ่งบอก probabilistic properties ของ data ทุก algorithm หรือการคำนวณที่ทำผ่าน data จะถูกวิเคราะห์โดยใช้ mathematics ซึ่งเป็น deductive reasoning เพื่อหาว่าผลลัพธ์จากการคำนวณจะมี probabilistic properties อย่างไร งานวิจัยด้าน statistics จึงถูกตีกรอบโดยการเน้นเรื่องของ mathematical rigour และ deductive reasoning
Photo of Leo Breiman (Wikipedia)
ในทางตรงกันข้าม ML มีจุดตั้งต้นที่ต่างกันคือจะไม่ใช้ model แต่จะมองว่า data generating process เป็น black box เมื่อไม่มี model เป็นจุดตั้งต้น ML community จึงไม่ถูกจำกัดกรอบความคิดเรื่องของการใช้ deductive reasoning ในการหา probabilistic properties ของ algorithm ที่ใช้กับข้อมูล ดังนั้น algorithm ที่ซับซ้อนจึงถูกนำมาใช้ในการหาโครงสร้างของข้อมูล วิธีการ evaluate ความสามารถของ algorithm หรือ learning มักถูกวัดด้วยความสำเร็จจากการคาดการณ์ที่แม่นยำ (predictive accuracy) เป้าหมายของ ML จึงเปรียบได้กับ prediction ในทาง statistics
ถึงแม้ว่า ML community จะได้รับอิทธิพลจาก statistics มากในระดับหนึ่ง statistical community ก็ได้รับอิทธิพลจาก ML community เช่นกัน ML movement ช่วยทำให้ mainstream statistics กลับมาให้ความสนใจ statistics แบบชายขอบ เช่น งานของ Leo Breiman มากขึ้น ทั้งนี้ Leo Breiman ซึ่งเป็น statistician คนแรก ๆ ที่เข้าร่วมเป็น ML community ตั้งแต่ช่วง 1980s และได้พัฒนาเครื่องมือเช่น regression trees และ random forests ซึ่งปัจจุบันเป็น standard tools ใน ML โดย Breman (2001) ยกตัวอย่างว่าทุกบทความใน Annals of Statistics ซึ่งเป็นวารสารอันดับหนึ่งทางด้าน mathematical และ theoretical statistics ในช่วงนั้นใช้ models ทั้งสิ้น statistics ที่ไม่ใช้ models ไม่ได้รับความสนใจและถือเป็นพวกชายขอบ อย่างไรก็ดี ในปัจจุบัน Annals of Statistics เริ่มเปิดกว้างสำหรับบทความที่ไม่ใช้ models มากขึ้นอย่างเห็นได้ชัด
สิ่งที่ statistical community ได้รับประโยชน์หรือได้เรียนรู้จาก ML community มากที่สุดน่าจะเป็นการศึกษาทางด้าน microarray ตัวอย่างของ microarray ที่สำคัญคือ genetic microarray ซึ่งมีจำนวน variables (K) มากกว่าจำนวน observations (N) หากผู้อ่านมีความรู้เรื่อง linear regression analysis จะทราบว่า requirement สำหรับ linear regression analysis คือ N มากกว่าหรือเท่ากับ K โดย K คือจำนวน regressors และ N คือจำนวน observations และ condition นี้มักจะเป็น condition สำหรับ statistical analysis แบบกระแสหลัก แต่สำหรับ microarray data นั้น K จะมากกว่า N มากเช่น จากตัวอย่างใน Breiman (2001) N = 81 และ K = 4682 จากมุมมองนี้คำว่า big data จึงไม่จำเป็นเสมอว่าข้อมูลต้องมีขนาดใหญ่ ข้อมูลที่ซับซ้อนเช่นข้อมูลที่ K มากกว่า N (โดยที่ K และ N ก็ไม่ได้ใหญ่อย่างในตัวอย่างข้างต้น) ก็ถือเป็น big data ได้เช่นกันเพราะความซับซ้อนของปัญหาซึ่ง traditional techniques ไม่สามารถรองรับได้
ตั้งแต่ช่วงปลายยุค 1990s statistical community ได้เริ่มให้ความสนใจกับปัญหาจาก microarray data มากขึ้น และเป็นส่วนสำคัญที่นำไปสู่การพัฒนา statistical learning ซึ่งถูกพัฒนาขึ้นเพื่อสร้าง mathematical และ statistical foundation ให้แก่ ML และถือได้ว่าเป็นตัวกลางระหว่าง ML และ statistical analysis เครื่องมือใหม่ ๆ ทาง statistics จึงถูกนำมาประยุกต์ใช้ใน ML และ statistical learning เช่น kernel smoothing, nonparametric methods, bootstrapping และ Bayesian methods โดย statistical learning ถือได้ว่าเป็นสาขาที่ได้รับความสนใจมากจาก statistical community ในขณะนี้รวมทั้งความสนใจจาก Annals of Statistics ด้วย
Heat map of Gene expression values from microarray experiments (Wikipedia)
สำหรับประเด็นที่ว่า ตอนนี้เรากำลังอยู่ในช่วงเริ่มต้นของ Data Revolution หรือไม่ สำหรับผู้เขียนแล้วคำตอบคือ “ไม่” หากมองผ่านประวัติศาสตร์ข้างต้นผู้เขียนมองว่า big data movement เป็น evolution มากกว่า revolution และหากมี revolution จริง ๆ revolution นั้นน่าจะผ่านมาได้สักพักแล้ว debate ที่เริ่มต้นขึ้นจากบทความของ Breiman (2001) ดูเหมือนว่าจะสิ้นสุดไปนานแล้ว นอกจากนี้บทบาทของ ML ที่เป็นเพียง prediction ที่ไม่เริ่มจาก model และไม่สามารถใช้ในการคำนวณความน่าจะเป็นของการทดลองได้ ซึ่งต่างจาก estimation และ hypothesis testing ที่เป็น statistical inference และมีความสำคัญสำหรับ scientific method ดังนั้น big data techniques นั้นอาจถูกมองว่าเป็น inductive reasoning โดยอิทธิพลของ big data movement น่าจะจำกัดอยู่กับกลุ่มผู้ใช้งานด้าน prediction เป็นหลัก
สำหรับผู้เขียน big data movement เป็น marketing ที่ประสบความสำเร็จมากในการขาย statistical ideas ที่ได้รับการพัฒนามาเกือบ 40 ปี กระแสที่จุดติดนี้น่าจะเป็นความสำเร็จจากการที่ data scientists จำนวนมากสามารถแสดงให้เห็นถึงศักยภาพของ ML และ statistical learning ผ่านสื่อต่าง ๆ โดยเฉพาะอย่างยิ่งสื่อ online ความสำเร็จนี้ทำให้ผู้เขียนนึกถึงเรื่องราวของการค้นพบทฤษฎี electromagnetism ของนักฟิสิกส์ที่แม้แต่นักวิชาการในขณะนั้นยังมองเห็นว่าเป็นแค่ความเพ้อฝัน แต่สำหรับในยุคปัจจุบันการขาย idea เรื่อง electromagnetism ต่อนักเรียนวัยเด็กสามารถทำได้โดยง่ายเพราะเด็ก ๆ สามารถเห็นภาพของทฤษฎีได้ชัดเจนผ่านการใช้งาน วิทยุ โทรศัพท์มือถือ หรืออุปกรณ์อื่นในชีวิตประจำวันได้
สำหรับวงการเศรษฐศาสตร์นั้น big data movement อาจมีอิทธิพลในวงไม่กว้างนัก เนื่องจากวงการเศรษฐศาสตร์ให้ความสำคัญกับ causality, scientific method และ statistical inference มากกว่า prediction อย่างเห็นได้ชัด หากมองย้อนกลับไปในปี 2010 debate ที่มีผลอย่างมากต่อวงการเศรษฐศาสตร์ จากบทความของ Angrist และ Pischke (2010) ซึ่งเป็นแนว ความคิดแบบสุดโต่งแบบตรงกันข้ามกับ big data movement โดยให้ความสำคัญต่อการศึกษาด้านเศรษฐศาสตร์ผ่าน randomized controlled trial ที่น่าจะช่วยทำให้ statistical inference ตอบโจทย์เรื่องของ causality ได้ดีขึ้น ผู้เขียนจึง มองว่าวงการเศรษฐศาสตร์น่าจะเลือกเดินทางสายกลางใน ช่วงที่มีแนวความคิดแบบสุดโต่งทั้งสองด้านอย่างในปัจจุบัน นอกเหนือจากปัญหาด้าน ideology ของนักเศรษฐศาสตร์ เทคนิคด้าน ML และ statistical learning ในขณะนี้อาจยังไม่ เหมาะกับ economic applications เพราะมักก่อให้เกิดปัญหา endogeneity problem ซึ่งเป็นที่รู้จักกันดีทางด้านเศรษฐศาสตร์
อย่างไรก็ดี “bigger data” น่าจะเป็นประโยชน์สำหรับ macroeconomics และ finance เพราะข้อมูลที่ละเอียดขึ้นน่าจะช่วยให้นักเศรษฐศาสตร์เข้าใจ micro-structure ของเศรษฐกิจหรือตลาดได้ดีขึ้น และช่วยแก้ปัญหาข้อจำกัดจาก representative agent assumption ซึ่งเป็นที่นิยมใน macroeconomics ได้ด้วย ตัวอย่างการใช้ big data ในทาง macroeconomics ที่น่าสนใจ เช่น การใช้ราคาสินค้าจากระบบ online shopping ในการศึกษาพฤติกรรมของการปรับราคาสินค้าซึ่งน่าจะช่วยให้นักเศรษฐศาสตร์เข้าใจ dynamics ของเงินเฟ้อได้ดีขึ้น นอกจากนี้ ผู้เขียนได้เริ่มเห็นความพยายามของ econometricians ในการสร้างสะพานระหว่าง statistical learning และ econometrics บ้างแล้ว
ในมุมมองของผู้เขียนสิ่งสำคัญของการทำนโยบายของภาครัฐ คือ accountability ของผู้ทำนโยบายต่อสังคม เหตุผลที่น่าเชื่อถือและสมเหตุสมผลที่สามารถอธิบายต่อสังคมได้เป็นสิ่งที่ผู้ทำนโยบายควรยึดถือ ดังนั้น black-box approach ของ big data techniques อาจไม่สามารถตอบโจทย์เรื่องของการทำนโยบายได้ทั้งหมด จากมุมมองทาง econometrics ผู้ทำนโยบายควรตัดสินใจจาก structural-form model อย่างไรก็ดี black-box approach สามารถถูกนำมาใช้ในการพยากรณ์ exogenous variables ใน structural-form model ได้ยกตัวอย่างเช่น ในการพยากรณ์ GDP ของประเทศ ผู้ทำนโยบายมักใช้ model ที่อยู่ในรูปแบบ structural form โดยจำเป็นต้องคาดการณ์ values ของ exogenous variables เช่น รายได้จากนักท่องเที่ยวต่างประเทศ ซึ่งน่าจะขึ้นอยู่กับภาวะทางเศรษฐกิจของแต่ละประเทศ ค่าเงินของแต่ละประเทศเมื่อเทียบกับค่าเงินบาท รวมถึงความน่าสนใจของประเทศไทยในสายตานักท่องเที่ยวแต่ละประเทศ สำหรับกรณีนี้จำนวน variables ที่จะนำมาพยากรณ์รายได้จากนักท่องเที่ยวต่างประเทศรายไตรมาสจะมากกว่าจำนวน observations มาก ดังนั้น big data techniques น่าจะมีประโยชน์ต่อการคาดการณ์ exogenous variables เพื่อทำนโยบายได้ นอกจากนี้ big data techniques อาจจะเป็นทางเลือกสำหรับผู้ทำนโยบายเพื่อใช้ cross-check ผลจาก structural form model ดังที่ Sims (1980) เคยเรียกร้องให้มีการใช้ reduced-form model ในการ cross-check ผลจาก structural form model ได้อีกด้วย
สำหรับผู้เขียน big data movement สอนให้เราตระหนักถึงความสำคัญของความหลากหลายและการเปิดใจยอมรับ ความแตกต่างทางความคิดเหมือนดั่งที่ statistical community ได้เรียนรู้จาก statisticians ชายขอบและ ML community ความตื่นตัวเรื่อง big data อาจเป็นเครื่องสะท้อนความเห็นร่วมของสังคมเรื่องความสำคัญของการจัดเก็บและใช้ข้อมูลในการตัดสินใจของภาครัฐและภาคเอกชน สำหรับความตื่นตัวเรื่อง big data ในประเทศไทยถือได้ว่าอยู่ในระดับสูงมากพอควร แต่ความพยายาม ในการใช้ประโยชน์จาก big data ดูเหมือนจะจำกัดอยู่ในภาคเอกชนกลุ่มเล็ก ๆ เท่านั้น หากสังคมไทยต้องการใช้ประโยชน์จาก big data จริง ๆ การลงทุนทั้งด้าน hard infrastructure ซึ่งหมายถึงการจัดกับข้อมูลที่ดีและเป็นระบบจากทุกภาคส่วน และ soft infrastructure ซึ่งหมายถึงองค์ความรู้ด้าน statistical analysis จึงเป็นสิ่งสำคัญ สำหรับทางด้าน hard infrastructure นั้นผู้เขียนมองว่าที่ผ่านมามีความพยายามในการจัดเก็บข้อมูลอย่างเป็นระบบมากขึ้นแต่ก็ยังสามารถพัฒนาไปได้ไกลว่าปัจจุบันมาก
ในขณะที่ soft infrastructure น่าจะยังเป็นจุดอ่อนสำคัญของประเทศ statistical analysis ที่ถูกพัฒนามาแล้วหลายทศวรรษเช่น nonparametric และ semiparametric methods, simulation based inference, bootstrapping, spatial point patterns และ analysis สำหรับข้อมูล GIS, และ time series analysis ที่สอดคล้องกับ chaos theory และ fractal geometry มีการใช้ในขอบเขตที่ค่อนข้างจำกัด ทั้ง ๆ ที่เครื่องมือเหล่านี้กลายเป็น standard tools ในต่างประเทศมานานมากแล้ว ผู้เขียนจึงมองว่าความรู้ด้าน statistical analysis ยังไม่ได้ถูกนำมาใช้อย่างเต็มที่ และดูล้าหลังเมื่อเปรียบเทียบกับ hard infrastructure ที่มีในขณะนี้ ท้ายสุดผู้เขียนหวังว่า big data movement จะเป็นแรงช่วยผลักดันการพัฒนาทั้ง hard และ soft infrastructure ทางด้านข้อมูลและ statistical analysis ของไทยเพื่อเป็นส่วนหนึ่งในการช่วยยกระดับการทำนโยบายของประเทศในอนาคต
ผู้เขียนขอขอบคุณ คุณธิติ เกตุพิทยา และคุณธรรมนูญ สดศรีชัย สำหรับคำแนะนำที่ช่วยให้บทความนี้สมบูรณ์ขึ้น
Angrist, J.D. and J.S. Pischke (2010): “The credibility revolution in empirical economics: how better research design is taking the con out of econometrics.” Journal of Economic Perspectives, 24, 3–30.
Breiman, L., (2001): “Statistical modeling: the two cultures.” Statistical Science, 16, 199–231.
Langley, P., (2011): “The changing science of machine learning.” Machnie Learning, 82, 275–279.
Sims, C.A., (1980): “Macroeconomics and reality” Econometrica, 48, 1–48.
Varian, H.R., (2014): “Big Data: New Tricks for Econometrics.” Journal of Economic Perspectives, 28, 3–27.