วันอังคารที่ 8 ตุลาคม พ.ศ. 2556

บทที่ 2 การตรวจสอบข้อมูล





บทที่ 2

การตรวจสอบข้อมูลทางสถิติเศรษฐศาสตร์



การตรวจสอบข้อมูลเบื้องต้นเป็นสิ่งสำคัญที่ควรดำเนินการก่อนนำข้อมูลมาวิเคราะห์ด้วยวิธีทางสถิตินั้น ข้อมูลที่นำมาใช้ไม่ควรมีข้อมูลที่สูญหาย (Missing value) ค่าสุดโต่ง (Outlier) หรือค่าที่เป็นไปไม่ได้ เช่น ในการสำรวจข้อมูลพื้นฐานของผู้ตอบแบบสอบถาม  ไม่ควรมีเพศของผู้ตอบแบบสอบถามที่เป็นเพศที่ 3 (เพศของผู้ตอบควรมีแค่ เพศชาย หรือหญิง เท่านั้น) เป็นต้น ทั้งนี้ในการตรวจสอบข้อมูลเบื้องต้นจะทำให้ผู้วิเคราะห์ทราบความสัมพันธ์ระหว่างตัวแปร และลักษณะพื้นฐานต่างๆ ของข้อมูล เช่น ลักษณะการกระจาย หรือการเคลื่อนไหวของข้อมูล องค์ประกอบของข้อมูล เป็นต้น วิธีตรวจสอบข้อมูลที่นำเสนอในที่นี้เป็นวิธีอย่างง่ายที่พิจารณาจากกราฟ และสถิติพรรณนาที่ประกอบด้วย การแจกแจงความถี่ (Frequencies) การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measure central of tendency) การวัดค่าการกระจาย (Dispersion) และการทดสอบการแจกแจงแบบปกติของข้อมูล (Normal distribution test) โดยมีรายละเอียดของวิธีต่างๆ พอสังเขป ดังนี้



2.1 การแจกแจงความถี่ (Frequencies)

           การแจกแจงความถี่ เป็นการพิจารณาความถี่หรือการแจกแจงของข้อมูล เหมาะสำหรับข้อมูลที่มีมาตราวัดระดับนามบัญญัติ หรือจัดอันดับ เช่น เพศของผู้ใช้บริการ ความพึงพอใจของผู้ใช้บริการ เป็นต้น



2.2  การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measure central of tendency)

          เป็นการคำนวณเพื่อหา ค่ากลางของข้อมูล วิธีที่นิยมใช้ตรวจสอบข้อมูลได้แก่

2.2.1        ค่าเฉลี่ย (Mean)

                    เป็นค่ากลางหรือตัวแทนของข้อมูลที่ได้จากการนำผลรวมทั้งหมดของ ข้อมูลหารด้วยจำนวนข้อมูลทั้งหมดสามารถใช้ได้ทั้งในกรณีที่ข้อมูลมีจำนวนน้อยหรือมาก แต่ข้อมูลต้อง มีมาตราวัดระดับช่วงหรืออัตราส่วนเท่านั้น แม้ว่าค่าเฉลี่ยเป็นค่ากลางที่เป็นตัวแทนของข้อมูลที่ดีที่สุด แต่ในกรณีที่ข้อมูลมีความแปรปรวนสูง หรือมีความโด่งมาก หรือมีลักษณะเบ้ไปทางใดทางหนึ่ง ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางหรือเป็นตัวแทนที่ดีของข้อมูล สูตรการคำนวณเพื่อหาค่าเฉลี่ย สามารถแสดงได้ดังนี้



                                                                                         (2.1)



โดยที่    คือ ข้อมูลของตัวแปร  ชุดที่ i เมื่อ i = 1 , 2 , … ,

   คือ จำนวนข้อมูลทั้งหมด

 

2.2.2        ค่ามัธยฐาน (Median)

                   ค่ามัธยฐาน เป็นค่ากลางของข้อมูลที่ได้จากการพิจารณาตำแหน่งของข้อมูลที่อยู่ ตรงกลางที่มีการเรียงลำดับจากน้อยไปมากหรือจากมากไปน้อย ทั้งนี้ค่ามัธยฐานสามารถเป็นตัวแทนของข้อมูลได้ดีในกรณีที่ข้อมูลมีการกระจายผิดปกติ เช่น มีค่าใดค่าหนึ่งมากหรือน้อยจนผิดปกติ เป็นต้น และเหมาะสำหรับข้อมูลที่มีมาตราวัดระดับจัดอันดับ เนื่องจากการคำนวณของวิธีนี้อยู่บนพื้นฐานของการ จัดอันดับข้อมูลและหาค่าที่อยู่ตรงกลาง



2.2.3           ค่าฐานนิยม (Mode)

                   ฐานนิยม เป็นค่ากลางที่นิยมใช้ในกรณีที่ข้อมูลมีค่าบางค่าซํ้ากันมากจนผิดปกติ สามารถใช้ได้ทั้งข้อมูลเชิงคุณภาพและเชิงปริมาณ ซึ่งแตกต่างจากค่าเฉลี่ยและค่ามัยธฐานที่ใช้ได้เฉพาะ ข้อมูลเชิงปริมาณเท่านั้น ค่าฐานนิยมเป็นสถิติระดับนามบัญญัติที่วัดจากค่าความถี่ที่สูงที่สุดของข้อมูล การคำนวณไม่ได้ขึ้นอยู่กับค่าต่างๆ ในข้อมูล หรือการจัดอันดับของข้อมูล ดังนั้นค่าฐานนิยมอาจมีค่า ได้มากกว่า 1 ค่า  ทั้งนี้เมื่อนำค่าสถิติทั้ง 3 ค่า มาเปรียบเทียบกัน สามารถบอกถึงการแจกแจงของข้อมูลได้ในเบื้องต้น โดยข้อมูลที่มีการแจกแจงแบบปกติจะมีค่าเฉลี่ย ค่ามั ธยฐาน และค่าฐานนิยมเท่ากัน (รูปที่ 2.1 ) ในขณะที่ ข้อมูลที่มีการแจกแจงแบบเบ้ซ้าย (เบ้ทางลบ) จะมีค่าเฉลี่ยน้อยกว่าค่ามัธยฐาน และค่ามัธยฐานจะมีค่า น้อยกว่าค่าฐานนิยม (รูปที่ 2.1 ) ส่วนข้อมูลที่มีการแจกแจงแบบเบ้ขวา (เบ้ทางบวก) จะมีค่าเฉลี่ยสูงกว่า ค่ามัธยฐาน และค่ามัธยฐานจะมีค่ามากกว่าค่าฐานนิยม (รูปที่ 2.1 )


ภาพที่ 2.1 รูปโค้งที่มีลักษณะการแจกแจงแบบต่าง ๆ (อัครพล, 2555)

2.3  การวัดค่าการกระจาย (Dispersion)

          การวัดค่าการกระจาย เป็นการอธิบายลักษณะความแตกต่างของค่าต่างๆ ที่มีปรากฏภายในข้อมูล หากภายในข้อมูลมีค่าแตกต่างกันมาก แสดงว่าข้อมูลดังกล่าวมีการกระจายมาก ในทางตรงกันข้าม หากข้อมูลมีค่าแตกต่างกันน้อย แสดงว่าข้อมูลดังกล่าวมีการกระจายน้อย สำหรับวิธีการวัดค่าการกระจายของข้อมูลนั้น วิธีการที่นิยมใช้ตรวจสอบข้อมูล ได้แก่ การหาพิสัย การหาค่าส่วนเบี่ยงเบนเฉลี่ย การวัดความแปรปรวนหรือส่วนเบี่ยงเบนมาตรฐาน และการวัดความเบ้หรือความโด่งของข้อมูล วิธีทั้งสองเหมาะสำหรับข้อมูลที่มีมาตราวัดระดับช่วงและอัตราส่วน       

   

2.3.1        พิสัย (The Range)

                    พิสัยเป็นการวัดการกระจายที่ง่ายที่สุด เป็นการหาความแตกต่างของข้อมูลสูงสุดและต่ำสุดของกลุ่ม พิสัยของข้อมูลกลุ่ม 1 ซึ่งมีข้อมูลคือ 10, 12, 15, 18 และ 20 คำนวณหาพิสัยคือ 20 ลบ 10 เท่ากับ 10 พิสัยของข้อมูลกลุ่ม 2 ซึ่งมีข้อมูลคือ 2, 8, 15, 22 และ 28 คำนวณหาพิสัยคือ 28 ลบ 2 เท่ากับ 26 จะเห็นว่าข้อมูลกลุ่ม 2 จะมีค่าการกระจายมากกว่าข้อมูลในกลุ่ม 1พิสัยมีข้อเสีย 2 ข้อคือ 1) ในกรณีใช้พิสัยกับข้อมูลที่มีจำนวนมาก การวัดจะไม่แน่นอน 2) ค่าของพิสัยจะขึ้นอยู่กับขนาดของข้อมูล ถ้าข้อมูลมีจำนวนมากพิสัยจะมาก ถ้าข้อมูลมีจำนวนน้อยพิสัยจะน้อย



2.3.2        ส่วนเบี่ยงเบนเฉลี่ย (The Mean Deviation)

สมมติข้อมูลที่ได้จากการวัด 3 กลุ่มดังนี้

กลุ่ม 1
8
8
8
8
8
กลุ่ม 2
1
4
7
10
13
กลุ่ม 3
1
5
20
25
29

          พิจารณาดูจะเห็นว่า กลุ่ม 1 มีการกระจายน้อยกว่ากลุ่ม 2 และกลุ่ม 2 มีการกระจายน้อยกว่ากลุ่ม 3 ในกลุ่ม 1 นั้น ข้อมูลทั้งหมดไม่มีความแปรปรวน เมื่อหาค่าเฉลี่ยของแต่ละกลุ่มจะได้ 8, 7 และ 16 ตามลำดับ ถ้าเราหาความเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ยแล้วจะได้

กลุ่ม 1
0
0
0
0
0
กลุ่ม 2
-6
-3
0
+3
+6
กลุ่ม 3
-15
-11
+4
+9
+13

          เราอาจจะใช้คุณลักษณะนี้ของการวัดการกระจายที่ชื่อว่าส่วนเบี่ยง เบนเฉลี่ย (Mean Deviation) ส่วนเบี่ยงเบนเฉลี่ยก็คือ ค่าเฉลี่ยของค่าสัมบูรณ์ของความเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ย ค่าสัมบูรณ์ของความเบี่ยงเบนก็คือ ความเบี่ยงเบนที่ปราศจากเครื่องหมายทางคณิตศาสตร์ เราจะพูดให้ง่ายเข้าส่วนเบี่ยงเบนเฉลี่ยก็คือการคำนวณความเบี่ยงเบนของ ข้อมูลแต่ละตัวกับค่าเฉลี่ย นำความเบี่ยงเบนแต่ละตัวมาหาค่าสัมบูรณ์ แล้วนำมาบวกกันและหารด้วย N

          จากตัวอย่างข้างบน กลุ่ม 1 มีส่วนเบี่ยงเบนเฉลี่ยเป็น 0 กลุ่ม 2 มีส่วนเบี่ยงเบนเฉลี่ยคือ (6 + 3 + 0 + 3 + 6)/5 = 18/5 = 3.6 และกลุ่ม 3 มีส่วนเบี่ยงเบนเฉลี่ยคือ (15 + 11 + 4 + 9 + 13) / 15 = 52/5 = 10.4

ส่วนเบี่ยงเบี่ยงเฉลี่ยสามารถเขียนเป็นสูตรได้ดังนี้




          เมื่อ แทนส่วนเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ย และ แทน ส่วนเบี่ยงเบนที่ปราศจากเครื่องหมายคณิตศาสตร์

                                              

2.3.3           การวัดความแปรปรวน (Variance)                      

                    เป็นการวัดค่าเฉลี่ยของการเบี่ยงเบน (Deviate) จากค่าเฉลี่ยของข้อมูล (ข้อมูลในที่นี้ คือข้อมูลที่ได้จากการรวบข้อมูลของประชากร หรือ กลุ่มตัวอย่างที่ทำการศึกษา) โดยความเบี่ยงเบนของข้อมูลแต่ละตัวจากค่าเฉลี่ยอาจมีค่าเป็นบวกหรือลบ ดังนั้นผลรวมของค่าเบี่ยงเบนดังกล่าวอาจมีค่าเป็น 0 จึงยกกำลังสองค่าเบี่ยงเบนดังกล่าวก่อนนำมาหาผลรวม และหารด้วยองศาความเป็นอิสระของข้อมูล (Degree of freedom) ที่มีค่าเท่ากับ n–1 ค่าที่ได้เรียกว่า ค่าความแปรปรวน ซึ่งมีสูตรการคำนวณดังนี้

ความแปรปรวนของกลุ่มตัวอย่าง คือ                       (2.2)



          เมื่อ  แทนความแปรปรวนของกลุ่มตัวอย่าง,  แทนค่าเฉลี่ยของกลุ่มตัวอย่าง และ n แทนจำนวนกลุ่มตัวอย่าง   อย่างไรก็ตามบางครั้งเราอาจหาร ด้วย n ไม่หารด้วย n - 1 ก็ได้ ทั้งนี้ขึ้นอยู่กับว่า ถ้า n มีจำนวนมาก ๆ ความแตกต่างของการใช้ n กับ n - 1 จะน้อยมาก แต่ถ้า n มีจำนวนน้อยความแตกต่างก็จะมีมากขึ้น (ฉัตรศิริ, 2544)[1]

ความแปรปรวนของประชากร     คือ                       (2.3)

                               เมื่อ  แทนความแปรปรวนของประชากร,    แทนค่าเฉลี่ยของประชากร และ N แทน จำนวนประชากร  คือกำลังสองของความเบี่ยงเบนของข้อมูลแต่ละตัวจากค่าเฉลี่ยเมื่อเราหาร ด้วย N จะหมายถึงส่วนเบี่ยงเบนเฉลี่ยยกกำลังสอง

2.3.4        ส่วนเบี่ยงเบนมาตรฐาน

                              จากสมการที่ (2.2) และ (2.3) เมื่อถอดรากที่สอง (Square root) ของค่าความแปรปรวนที่คำนวณได้จะได้ค่าส่วนเบี่ยงเบนมาตรฐาน (Standard deviation) ของประชากร และกลุ่มตัวอย่าง   โดยมากแล้วในการตรวจสอบข้อมูลที่จะนำเสนอ ค่าส่วนเบี่ยงเบนมาตรฐานมากกว่าค่าความแปรปรวน  

                    สูตรในการคำนวณค่าส่วนเบี่ยงเบนมาตรฐานของข้อมูลกลุ่มตัวอย่าง (S) คือ



                                                        (2.5)               

                    สูตรในการคำนวณค่าส่วนเบี่ยงเบนมาตรฐานของประชากร () คือ



                                                    (2.6)



2.3.5        การวัดความเบ้และความโด่ง (Skewness and Kurtosis)

          การวัดความเบ้และความโด่ง เป็นการวัดลักษณะการกระจาย ของข้อมูลว่ามีลักษณะการกระจายที่สมมาตรเหมือนกับโค้งปกติหรือไม่ โดยมีสูตรการคำนวณและเงื่อนไข ในการพิจารณาค่าความเบ้และความโด่งสามารถแสดงได้ดังนี้



ตารางที่ 2.1 สูตรการคำนวณและเงื่อนไขในการพิจารณาค่าความเบ้และความโด่ง


ที่มา: (อัครพล, 2555)



2.3.6     การทดสอบการแจกแจงแบบปกติของข้อมูล (Normal distribution test)         

           เป็นการทดสอบว่า ข้อมูล ที่ใช้มีการแจกแจงแบบปกติหรือไม่ โดยเฉพาะข้อมูลของตัวแปรตาม นอกจากการพิจารณาเปรียบเทียบ ค่าเฉลี่ย ค่ามัธยฐาน และค่าฐานนิยมแล้ว สามารถใช้ค่าสถิติ Jarque-Bera ในการทดสอบว่า ข้อมูล มีความเบ้และความโด่งที่เป็นลักษณะของการแจกแจงแบบปกติหรือไม่ ค่าสถิติ Jarque-Bera มีสูตร การคำนวณดังนี้



Jarque-Bera =                                                                   (2.7)



โดยที่ ค่า S และ K คือ ค่าความเบ้ (S) และความโด่ง (K) สำหรับสมมติฐานหลักที่ใช้ในการทดสอบ คือ H0 : มีการแจกแจงแบบปกติ (Normal distribution) นำค่า Jarque-Bera ที่คำนวณได้ไปเปรียบเทียบ กับค่าวิกฤต Chi-square ณ องศาความเป็นอิสระเท่ากับ 2 หากค่า Jarque-Bera ที่คำนวณได้มีค่ามากกว่า ค่าวิกฤตในตาราง Chi-square ปฏิเสธสมมติฐานหลัก แสดงว่า ข้อมูลไม่มีการแจกแจงแบบปกติ นอกจากนี้ สามารถพิจารณาจากค่า P-value (Prob.) ว่า มีค่าน้อยกว่าหรือมากกว่าค่าวิกฤตที่กำหนด (ค่า Alpha ในทางสถิติ)



          นอกจากนี้ในการทดสอบการแจกแจงของข้อมูลนั้นยังสามารถทดสอบได้อีกหลายวิธี เช่น Normal Quantile Plot, Distribution Plot, Probability Plot เป็นต้น ซึ่งวิธีการเหล่านี้ในแต่ละวิธีสามารถประยุกต์ใช้กับโปรแกรมสำเร็จรูปทางสถิติและเศรษฐมิติ ต่างๆ หรือสามารถศึกษาในรายวิชาทางสถิติขั้นสูงต่อไป



[1] ฉัตรศิริ ปิยะพิมลสิทธิ์ (2544) ที่มา  http://www.watpon.com/Elearning/stat17.htm  วันสืบค้น (16/7/2012)

ไม่มีความคิดเห็น:

แสดงความคิดเห็น