วันอังคารที่ 8 ตุลาคม พ.ศ. 2556

บทที่ 2 การตรวจสอบข้อมูล





บทที่ 2

การตรวจสอบข้อมูลทางสถิติเศรษฐศาสตร์



การตรวจสอบข้อมูลเบื้องต้นเป็นสิ่งสำคัญที่ควรดำเนินการก่อนนำข้อมูลมาวิเคราะห์ด้วยวิธีทางสถิตินั้น ข้อมูลที่นำมาใช้ไม่ควรมีข้อมูลที่สูญหาย (Missing value) ค่าสุดโต่ง (Outlier) หรือค่าที่เป็นไปไม่ได้ เช่น ในการสำรวจข้อมูลพื้นฐานของผู้ตอบแบบสอบถาม  ไม่ควรมีเพศของผู้ตอบแบบสอบถามที่เป็นเพศที่ 3 (เพศของผู้ตอบควรมีแค่ เพศชาย หรือหญิง เท่านั้น) เป็นต้น ทั้งนี้ในการตรวจสอบข้อมูลเบื้องต้นจะทำให้ผู้วิเคราะห์ทราบความสัมพันธ์ระหว่างตัวแปร และลักษณะพื้นฐานต่างๆ ของข้อมูล เช่น ลักษณะการกระจาย หรือการเคลื่อนไหวของข้อมูล องค์ประกอบของข้อมูล เป็นต้น วิธีตรวจสอบข้อมูลที่นำเสนอในที่นี้เป็นวิธีอย่างง่ายที่พิจารณาจากกราฟ และสถิติพรรณนาที่ประกอบด้วย การแจกแจงความถี่ (Frequencies) การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measure central of tendency) การวัดค่าการกระจาย (Dispersion) และการทดสอบการแจกแจงแบบปกติของข้อมูล (Normal distribution test) โดยมีรายละเอียดของวิธีต่างๆ พอสังเขป ดังนี้



2.1 การแจกแจงความถี่ (Frequencies)

           การแจกแจงความถี่ เป็นการพิจารณาความถี่หรือการแจกแจงของข้อมูล เหมาะสำหรับข้อมูลที่มีมาตราวัดระดับนามบัญญัติ หรือจัดอันดับ เช่น เพศของผู้ใช้บริการ ความพึงพอใจของผู้ใช้บริการ เป็นต้น



2.2  การวัดแนวโน้มเข้าสู่ส่วนกลาง (Measure central of tendency)

          เป็นการคำนวณเพื่อหา ค่ากลางของข้อมูล วิธีที่นิยมใช้ตรวจสอบข้อมูลได้แก่

2.2.1        ค่าเฉลี่ย (Mean)

                    เป็นค่ากลางหรือตัวแทนของข้อมูลที่ได้จากการนำผลรวมทั้งหมดของ ข้อมูลหารด้วยจำนวนข้อมูลทั้งหมดสามารถใช้ได้ทั้งในกรณีที่ข้อมูลมีจำนวนน้อยหรือมาก แต่ข้อมูลต้อง มีมาตราวัดระดับช่วงหรืออัตราส่วนเท่านั้น แม้ว่าค่าเฉลี่ยเป็นค่ากลางที่เป็นตัวแทนของข้อมูลที่ดีที่สุด แต่ในกรณีที่ข้อมูลมีความแปรปรวนสูง หรือมีความโด่งมาก หรือมีลักษณะเบ้ไปทางใดทางหนึ่ง ค่าเฉลี่ยอาจไม่สะท้อนค่ากลางหรือเป็นตัวแทนที่ดีของข้อมูล สูตรการคำนวณเพื่อหาค่าเฉลี่ย สามารถแสดงได้ดังนี้



                                                                                         (2.1)



โดยที่    คือ ข้อมูลของตัวแปร  ชุดที่ i เมื่อ i = 1 , 2 , … ,

   คือ จำนวนข้อมูลทั้งหมด

 

2.2.2        ค่ามัธยฐาน (Median)

                   ค่ามัธยฐาน เป็นค่ากลางของข้อมูลที่ได้จากการพิจารณาตำแหน่งของข้อมูลที่อยู่ ตรงกลางที่มีการเรียงลำดับจากน้อยไปมากหรือจากมากไปน้อย ทั้งนี้ค่ามัธยฐานสามารถเป็นตัวแทนของข้อมูลได้ดีในกรณีที่ข้อมูลมีการกระจายผิดปกติ เช่น มีค่าใดค่าหนึ่งมากหรือน้อยจนผิดปกติ เป็นต้น และเหมาะสำหรับข้อมูลที่มีมาตราวัดระดับจัดอันดับ เนื่องจากการคำนวณของวิธีนี้อยู่บนพื้นฐานของการ จัดอันดับข้อมูลและหาค่าที่อยู่ตรงกลาง



2.2.3           ค่าฐานนิยม (Mode)

                   ฐานนิยม เป็นค่ากลางที่นิยมใช้ในกรณีที่ข้อมูลมีค่าบางค่าซํ้ากันมากจนผิดปกติ สามารถใช้ได้ทั้งข้อมูลเชิงคุณภาพและเชิงปริมาณ ซึ่งแตกต่างจากค่าเฉลี่ยและค่ามัยธฐานที่ใช้ได้เฉพาะ ข้อมูลเชิงปริมาณเท่านั้น ค่าฐานนิยมเป็นสถิติระดับนามบัญญัติที่วัดจากค่าความถี่ที่สูงที่สุดของข้อมูล การคำนวณไม่ได้ขึ้นอยู่กับค่าต่างๆ ในข้อมูล หรือการจัดอันดับของข้อมูล ดังนั้นค่าฐานนิยมอาจมีค่า ได้มากกว่า 1 ค่า  ทั้งนี้เมื่อนำค่าสถิติทั้ง 3 ค่า มาเปรียบเทียบกัน สามารถบอกถึงการแจกแจงของข้อมูลได้ในเบื้องต้น โดยข้อมูลที่มีการแจกแจงแบบปกติจะมีค่าเฉลี่ย ค่ามั ธยฐาน และค่าฐานนิยมเท่ากัน (รูปที่ 2.1 ) ในขณะที่ ข้อมูลที่มีการแจกแจงแบบเบ้ซ้าย (เบ้ทางลบ) จะมีค่าเฉลี่ยน้อยกว่าค่ามัธยฐาน และค่ามัธยฐานจะมีค่า น้อยกว่าค่าฐานนิยม (รูปที่ 2.1 ) ส่วนข้อมูลที่มีการแจกแจงแบบเบ้ขวา (เบ้ทางบวก) จะมีค่าเฉลี่ยสูงกว่า ค่ามัธยฐาน และค่ามัธยฐานจะมีค่ามากกว่าค่าฐานนิยม (รูปที่ 2.1 )


ภาพที่ 2.1 รูปโค้งที่มีลักษณะการแจกแจงแบบต่าง ๆ (อัครพล, 2555)

2.3  การวัดค่าการกระจาย (Dispersion)

          การวัดค่าการกระจาย เป็นการอธิบายลักษณะความแตกต่างของค่าต่างๆ ที่มีปรากฏภายในข้อมูล หากภายในข้อมูลมีค่าแตกต่างกันมาก แสดงว่าข้อมูลดังกล่าวมีการกระจายมาก ในทางตรงกันข้าม หากข้อมูลมีค่าแตกต่างกันน้อย แสดงว่าข้อมูลดังกล่าวมีการกระจายน้อย สำหรับวิธีการวัดค่าการกระจายของข้อมูลนั้น วิธีการที่นิยมใช้ตรวจสอบข้อมูล ได้แก่ การหาพิสัย การหาค่าส่วนเบี่ยงเบนเฉลี่ย การวัดความแปรปรวนหรือส่วนเบี่ยงเบนมาตรฐาน และการวัดความเบ้หรือความโด่งของข้อมูล วิธีทั้งสองเหมาะสำหรับข้อมูลที่มีมาตราวัดระดับช่วงและอัตราส่วน       

   

2.3.1        พิสัย (The Range)

                    พิสัยเป็นการวัดการกระจายที่ง่ายที่สุด เป็นการหาความแตกต่างของข้อมูลสูงสุดและต่ำสุดของกลุ่ม พิสัยของข้อมูลกลุ่ม 1 ซึ่งมีข้อมูลคือ 10, 12, 15, 18 และ 20 คำนวณหาพิสัยคือ 20 ลบ 10 เท่ากับ 10 พิสัยของข้อมูลกลุ่ม 2 ซึ่งมีข้อมูลคือ 2, 8, 15, 22 และ 28 คำนวณหาพิสัยคือ 28 ลบ 2 เท่ากับ 26 จะเห็นว่าข้อมูลกลุ่ม 2 จะมีค่าการกระจายมากกว่าข้อมูลในกลุ่ม 1พิสัยมีข้อเสีย 2 ข้อคือ 1) ในกรณีใช้พิสัยกับข้อมูลที่มีจำนวนมาก การวัดจะไม่แน่นอน 2) ค่าของพิสัยจะขึ้นอยู่กับขนาดของข้อมูล ถ้าข้อมูลมีจำนวนมากพิสัยจะมาก ถ้าข้อมูลมีจำนวนน้อยพิสัยจะน้อย



2.3.2        ส่วนเบี่ยงเบนเฉลี่ย (The Mean Deviation)

สมมติข้อมูลที่ได้จากการวัด 3 กลุ่มดังนี้

กลุ่ม 1
8
8
8
8
8
กลุ่ม 2
1
4
7
10
13
กลุ่ม 3
1
5
20
25
29

          พิจารณาดูจะเห็นว่า กลุ่ม 1 มีการกระจายน้อยกว่ากลุ่ม 2 และกลุ่ม 2 มีการกระจายน้อยกว่ากลุ่ม 3 ในกลุ่ม 1 นั้น ข้อมูลทั้งหมดไม่มีความแปรปรวน เมื่อหาค่าเฉลี่ยของแต่ละกลุ่มจะได้ 8, 7 และ 16 ตามลำดับ ถ้าเราหาความเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ยแล้วจะได้

กลุ่ม 1
0
0
0
0
0
กลุ่ม 2
-6
-3
0
+3
+6
กลุ่ม 3
-15
-11
+4
+9
+13

          เราอาจจะใช้คุณลักษณะนี้ของการวัดการกระจายที่ชื่อว่าส่วนเบี่ยง เบนเฉลี่ย (Mean Deviation) ส่วนเบี่ยงเบนเฉลี่ยก็คือ ค่าเฉลี่ยของค่าสัมบูรณ์ของความเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ย ค่าสัมบูรณ์ของความเบี่ยงเบนก็คือ ความเบี่ยงเบนที่ปราศจากเครื่องหมายทางคณิตศาสตร์ เราจะพูดให้ง่ายเข้าส่วนเบี่ยงเบนเฉลี่ยก็คือการคำนวณความเบี่ยงเบนของ ข้อมูลแต่ละตัวกับค่าเฉลี่ย นำความเบี่ยงเบนแต่ละตัวมาหาค่าสัมบูรณ์ แล้วนำมาบวกกันและหารด้วย N

          จากตัวอย่างข้างบน กลุ่ม 1 มีส่วนเบี่ยงเบนเฉลี่ยเป็น 0 กลุ่ม 2 มีส่วนเบี่ยงเบนเฉลี่ยคือ (6 + 3 + 0 + 3 + 6)/5 = 18/5 = 3.6 และกลุ่ม 3 มีส่วนเบี่ยงเบนเฉลี่ยคือ (15 + 11 + 4 + 9 + 13) / 15 = 52/5 = 10.4

ส่วนเบี่ยงเบี่ยงเฉลี่ยสามารถเขียนเป็นสูตรได้ดังนี้




          เมื่อ แทนส่วนเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ย และ แทน ส่วนเบี่ยงเบนที่ปราศจากเครื่องหมายคณิตศาสตร์

                                              

2.3.3           การวัดความแปรปรวน (Variance)                      

                    เป็นการวัดค่าเฉลี่ยของการเบี่ยงเบน (Deviate) จากค่าเฉลี่ยของข้อมูล (ข้อมูลในที่นี้ คือข้อมูลที่ได้จากการรวบข้อมูลของประชากร หรือ กลุ่มตัวอย่างที่ทำการศึกษา) โดยความเบี่ยงเบนของข้อมูลแต่ละตัวจากค่าเฉลี่ยอาจมีค่าเป็นบวกหรือลบ ดังนั้นผลรวมของค่าเบี่ยงเบนดังกล่าวอาจมีค่าเป็น 0 จึงยกกำลังสองค่าเบี่ยงเบนดังกล่าวก่อนนำมาหาผลรวม และหารด้วยองศาความเป็นอิสระของข้อมูล (Degree of freedom) ที่มีค่าเท่ากับ n–1 ค่าที่ได้เรียกว่า ค่าความแปรปรวน ซึ่งมีสูตรการคำนวณดังนี้

ความแปรปรวนของกลุ่มตัวอย่าง คือ                       (2.2)



          เมื่อ  แทนความแปรปรวนของกลุ่มตัวอย่าง,  แทนค่าเฉลี่ยของกลุ่มตัวอย่าง และ n แทนจำนวนกลุ่มตัวอย่าง   อย่างไรก็ตามบางครั้งเราอาจหาร ด้วย n ไม่หารด้วย n - 1 ก็ได้ ทั้งนี้ขึ้นอยู่กับว่า ถ้า n มีจำนวนมาก ๆ ความแตกต่างของการใช้ n กับ n - 1 จะน้อยมาก แต่ถ้า n มีจำนวนน้อยความแตกต่างก็จะมีมากขึ้น (ฉัตรศิริ, 2544)[1]

ความแปรปรวนของประชากร     คือ                       (2.3)

                               เมื่อ  แทนความแปรปรวนของประชากร,    แทนค่าเฉลี่ยของประชากร และ N แทน จำนวนประชากร  คือกำลังสองของความเบี่ยงเบนของข้อมูลแต่ละตัวจากค่าเฉลี่ยเมื่อเราหาร ด้วย N จะหมายถึงส่วนเบี่ยงเบนเฉลี่ยยกกำลังสอง

2.3.4        ส่วนเบี่ยงเบนมาตรฐาน

                              จากสมการที่ (2.2) และ (2.3) เมื่อถอดรากที่สอง (Square root) ของค่าความแปรปรวนที่คำนวณได้จะได้ค่าส่วนเบี่ยงเบนมาตรฐาน (Standard deviation) ของประชากร และกลุ่มตัวอย่าง   โดยมากแล้วในการตรวจสอบข้อมูลที่จะนำเสนอ ค่าส่วนเบี่ยงเบนมาตรฐานมากกว่าค่าความแปรปรวน  

                    สูตรในการคำนวณค่าส่วนเบี่ยงเบนมาตรฐานของข้อมูลกลุ่มตัวอย่าง (S) คือ



                                                        (2.5)               

                    สูตรในการคำนวณค่าส่วนเบี่ยงเบนมาตรฐานของประชากร () คือ



                                                    (2.6)



2.3.5        การวัดความเบ้และความโด่ง (Skewness and Kurtosis)

          การวัดความเบ้และความโด่ง เป็นการวัดลักษณะการกระจาย ของข้อมูลว่ามีลักษณะการกระจายที่สมมาตรเหมือนกับโค้งปกติหรือไม่ โดยมีสูตรการคำนวณและเงื่อนไข ในการพิจารณาค่าความเบ้และความโด่งสามารถแสดงได้ดังนี้



ตารางที่ 2.1 สูตรการคำนวณและเงื่อนไขในการพิจารณาค่าความเบ้และความโด่ง


ที่มา: (อัครพล, 2555)



2.3.6     การทดสอบการแจกแจงแบบปกติของข้อมูล (Normal distribution test)         

           เป็นการทดสอบว่า ข้อมูล ที่ใช้มีการแจกแจงแบบปกติหรือไม่ โดยเฉพาะข้อมูลของตัวแปรตาม นอกจากการพิจารณาเปรียบเทียบ ค่าเฉลี่ย ค่ามัธยฐาน และค่าฐานนิยมแล้ว สามารถใช้ค่าสถิติ Jarque-Bera ในการทดสอบว่า ข้อมูล มีความเบ้และความโด่งที่เป็นลักษณะของการแจกแจงแบบปกติหรือไม่ ค่าสถิติ Jarque-Bera มีสูตร การคำนวณดังนี้



Jarque-Bera =                                                                   (2.7)



โดยที่ ค่า S และ K คือ ค่าความเบ้ (S) และความโด่ง (K) สำหรับสมมติฐานหลักที่ใช้ในการทดสอบ คือ H0 : มีการแจกแจงแบบปกติ (Normal distribution) นำค่า Jarque-Bera ที่คำนวณได้ไปเปรียบเทียบ กับค่าวิกฤต Chi-square ณ องศาความเป็นอิสระเท่ากับ 2 หากค่า Jarque-Bera ที่คำนวณได้มีค่ามากกว่า ค่าวิกฤตในตาราง Chi-square ปฏิเสธสมมติฐานหลัก แสดงว่า ข้อมูลไม่มีการแจกแจงแบบปกติ นอกจากนี้ สามารถพิจารณาจากค่า P-value (Prob.) ว่า มีค่าน้อยกว่าหรือมากกว่าค่าวิกฤตที่กำหนด (ค่า Alpha ในทางสถิติ)



          นอกจากนี้ในการทดสอบการแจกแจงของข้อมูลนั้นยังสามารถทดสอบได้อีกหลายวิธี เช่น Normal Quantile Plot, Distribution Plot, Probability Plot เป็นต้น ซึ่งวิธีการเหล่านี้ในแต่ละวิธีสามารถประยุกต์ใช้กับโปรแกรมสำเร็จรูปทางสถิติและเศรษฐมิติ ต่างๆ หรือสามารถศึกษาในรายวิชาทางสถิติขั้นสูงต่อไป



[1] ฉัตรศิริ ปิยะพิมลสิทธิ์ (2544) ที่มา  http://www.watpon.com/Elearning/stat17.htm  วันสืบค้น (16/7/2012)

บทที่ 1 สถิติและข้อมูล



บทที่ 1
สถิติและข้อมูล


1.1 ประเภทของสถิติ

สถิติสามารถจำแนกออกได้เป็น 2 ประเภท  ได้แก่

1) สถิติพรรณนา (descriptive statistics)  สถิติที่กล่าวถึงวิธีการที่จะบรรยายลักษณะของข้อมูลที่เก็บรวบรวมมาได้   ดังนั้นสถิติพรรณนาจะไม่ใช้ผลที่คำนวณได้ไปอ้างอิงกับข้อมูลของกลุ่มอื่นๆ 

         2) สถิติอนุมาน (inferential statistics or analytical statistics)เป็นสถิติที่กล่าวถึงการนำข้อมูลที่ได้จากตัวอย่าง ไปอ้างอิงลักษณะของประชากร 

1.2 ประเภทของข้อมูล

ข้อมูลที่ใช้ในทางเศรษฐศาสตร์ แบ่งออกเป็น 2 วิธี คือ
1.2.1 แบ่งประเภทข้อมูลตามแหล่งที่มาที่ใช้ในการเก็บข้อมูล
          (1)  ข้อมูลปฐมภูมิ (Primary Data) คือข้อมูลใดๆ ที่ผู้ศึกษาต้องเก็บขึ้นมาใหม่เพื่อวัตถุประสงค์ โดยเฉพาะ การสำรวจภาคสนาม  การสัมภาษณ์  การสังเกต  การใช้แบบสอบถาม และการทดลอง
          (2) ข้อมูลทุติยภูมิ (Secondary Data)    คือข้อมูลต่าง ๆ ที่มีอยู่แล้ว  ซึ่งอาจจะจัดอยู่ในรูปข้อมูลเบื้องต้นที่ผู้ได้มีผู้อื่นรวบรวมไว้แล้ว

1.2.2  การแบ่งประเภทของข้อมูลตามคุณสมบัติการวัด
          (1) ข้อมูลเชิงคุณภาพ (Qualitative Data)   เป็นข้อมูลที่ไม่สามารถทำการวัดหรือให้ค่าที่เป็น ตัวเลขได้
          (2) ข้อมูลเชิงปริมาณ (Quantitative Data)  คือข้อมูลที่วัดออกมาเป็นตัวเลขแล้วผู้ศึกษาสามารถนำไปใช้ในการวิเคราะห์ทางสถิติต่อไปได้

1.3 มาตรวัดของข้อมูล
          เนื่องจากตัวแปรที่ศึกษาจะมีระดับของการวัดที่แตกต่างกัน  ดังนั้นจึงต้องมีกฎเกณฑ์ที่เป็นระบบเพื่อใช้ในการวัดข้อมูล  กฎเกณฑ์ดังกล่าวเรียกว่า มาตรวัดของข้อมูล
           มาตรวัดของข้อมูลมีองค์ประกอบที่สำคัญ 3 ประการ คือ
          1.3.1 ขนาด  หมายถึง ความมากหรือน้อย
          1.3.2 ความเท่ากันของช่วงคะแนน หมายถึง ความหมายของตัวเลขแต่ละช่วงมีความหมายเหมือนกัน หรือค่าของคะแนนแต่ละช่วงมีความเท่ากัน
          1.3.3 ความมีศูนย์สมบูรณ์  หมายถึง ตัวแปรมีหรือไม่มีศูนย์สมบูรณ์ เช่น ตัวแปรอัตราดอกเบี้ย 0% บ่งบอกว่า ผลตอบแทนเป็นศูนย์  แสดงว่าตัวแปรอัตราดอกเบี้ยมีศูนย์สมบูรณ์  ตัวแปรเกรดของนักศึกษา 4  3  2  1 และ 0  ถ้านักศึกษาได้เกรด 0   เกรด 0 หมายถึงเป็นศูนย์สมมติ

1.4 ระดับการวัดข้อมูล
1.4.1    มาตรานามบัญญัติ (Nominal Scale) 
เป็นตัวแปรที่ไม่มีขนาด ไม่มีความเท่ากันของช่วง และไม่มีศูนย์สมบูรณ์ โดยเป็นระดับการวัดที่จำแนกความแตกต่างของสิ่งที่ ต้องการวัดออกเป็นกลุ่ม เช่น วัตถุประสงค์ของการเดินทาง แบ่งออกเป็น 1 แทนการท่องเที่ยวและพักผ่อน 2 แทนไปราชการ 3 แทนประชุมสัมมนาและฝึกอบรม 4 แทนเยี่ยมญาติและเพื่อน และ 5 แทนอื่นๆ เป็นต้น ตัวเลขที่ใช้แทนกลุ่มต่างๆ เป็นตัวเลขที่ใช้จำแนกความแตกต่างของกลุ่มที่มีอยู่ในตัวแปร ไม่สามารถนำมาคำนวณทางคณิตศาสตร์ได้ สำหรับสถิติพื้นฐานที่ใช้ในการวิเคราะห์ตัวแปรที่มีมาตราวัด แบบนี้ ได้แก่ ค่าความถี่ ค่าร้อยละ และค่าฐานนิยม และหากต้องการนำตัวแปรประเภทนี้มาใช้ใน แบบจำลองทางสถิติและเศรษฐมิตินั้น ส่วนใหญ่จะกำหนดตัวแปรประเภทนี้ให้อยู่ในลักษณะของตัวแปรหุ่น (Dummy variables) ที่มีค่าเพียง 0 กับ 1 เท่านั้น โดยทั่วไปกำหนดให้ 1 แทนคุณลักษณะของข้อมูล (เช่น ท่องเที่ยวและพักผ่อน) และ 0 คือ อื่นๆ

ตัวอย่างข้อมูลที่ได้จากการวัดโดยใช้มาตรานามบัญญัติ (Nominal scale)
1.                  เพศ     ¨  ชาย        ¨ หญิง
2.                  เชื้อชาติ  ¨  ไทย       ¨ จีน
3.                  ศาสนา ¨ พุทธ         ¨ คริสต์ ¨  อิสลาม
4.                  อาชีพ   ¨ หมอ   ¨ นักเรียน      ¨ ครู
5.                  หมายเลขโทรศัพท์  .........................
ฯลฯ

1.4.2   มาตราเรียงอันดับ (Ordinal Scale)
 เป็นตัวแปรที่มีการจัดลำดับข้อมูลจากมากไปน้อย หรือจากน้อยไปมากได้ แต่ไม่ได้บอกถึงปริมาณแต่ละอันดับว่ามากน้อยเท่าใด ไม่มีความเท่ากันของช่วงคะแนน และไม่มีศูนย์สมบูรณ์  ทั้งนี้จะเป็นการใช้ในการจัดอันดับหรือตำแหน่งของสิ่งที่ต้องการวัด เช่น ระดับความพึงพอใจที่มีต่อการรับบริการ แบ่งออกเป็น 5 ระดับ คือ 1=พึงพอใจน้อยที่สุด 2=พึงพอใจน้อย 3=พึงพอใจปานกลาง 4=พึงพอใจมาก และ 5=พึงพอใจมากที่สุด  หรืออาจจะเป็นลักษณะตัวเลขที่ใช้แทนอันดับ ของสิ่งที่ต้องการวัดเป็นตัวเลขที่ให้ความหมายในลักษณะที่แตกต่างกันจากน้อยไปหามาก ตัวเลขในระดับนี้ สามารถนำมาคำนวณทางคณิตศาสตร์ได้เพียงบวกหรือลบเท่านั้น (แต่ในบางแง่มุมอาจไม่สามารถนำข้อมูล ดังกล่าวมาบวกหรือลบได้) สำหรับสถิติพื้นฐานที่นิยมใช้ในการวิเคราะห์ตัวแปรที่มีมาตราวัดในลักษณะนี้ ได้แก่ ค่าความถี่ ค่าร้อยละ ค่าเฉลี่ย และค่าเฉลี่ยแบบถ่วงน้ำหนัก

     ตัวอย่างข้อมูลที่ได้จากการวัดโดยใช้มาตรอันดับ (Ordinal scale) 
1.      กิจกรรมที่นิยมทำในวันหยุด (เรียงลำดับมากที่สุดเป็นลำดับ 1)
                     ......... ดูหนัง
                    .......... ฟังเพลง
                    ......... เล่นกีฬา
           .        ........ ดูโทรทัศน์
2.      ระดับความพึงพอใจต่ออาหารประเภท fast food ดังแสดงในตารางที่ 1.1

ตารางที่ 1.1  ตัวอย่างคำถามลักษณะของข้อมูลโดยใช้มาตรอันดับ

พาหนะที่เหมาะสมในเดินทางเพื่อไปศึกษาดูงาน
ระดับความคิดเห็น
เห็นด้วยอย่างยิ่ง
เห็นด้วย
เฉยๆ
ไม่เห
ไม่ชอบอย่างมาก
รถยนต์ส่วนตัว





รถบัสปรับอากาศ





รถตู้






     
                              ฯลฯ
1.4.3  มาตราอันตรภาค (Interval Scale) 
Interval Scale สามารถบอกระยะห่างของตัวเลข 2 ตัว ว่ามีความแตกต่างกันมากน้อยเท่าใด มีเกณฑ์อยู่กับสิ่งที่เรียกว่าศูนย์สมมติ ทั้งนี้ Interval Scale เป็นระดับที่กำหนดค่าตัวเลขให้มีช่วงห่างระหว่าง ตัวเลขเท่าๆ กัน เช่น ระดับคะแนนสอบของวิชาเศรษฐศาสตร์ เป็นต้น ตัวเลขในมาตราวัดแบบนี้ สามารถนำมาคำนวณทางคณิตศาสตร์และเปรียบเทียบความแตกต่างได้ แต่ไม่สามารถนำไปเปรียบเทียบในลักษณะที่ว่าแตกต่างกันกี่เท่า เพราะ มาตราวัดระดับนี้ไม่มีศูนย์แท้ มีแต่ค่าศูนย์ กล่าวคือ จากกรณี ตัวอย่างหากมีนักศึกษาคนหนึ่งได้คะแนน 0 ในการสอบวิชาเศรษฐศาสตร์ ไม่ได้หมายความว่า นักศึกษาคนดังกล่าวไม่มีความรู้ในวิชาเศรษฐศาสตร์เพียงแต่ไม่สามารถทำข้อสอบที่เป็น ตัวแทนของความรู้ทั้งหมดได้ เป็นต้น ดังนั้นจึงสามารถนำตัวเลขดังกล่าวมาบวก ลบ คูณ หรือหารได้ สำหรับสถิติพื้นฐานที่ใช้ในการวิเคราะห์ตัวแปรที่มีมาตราวัดในลักษณะนี้มีหลากหลาย เช่น ค่าเฉลี่ย ค่าความแปรปรวน การทดสอบการแจกแจง เป็นต้น

     ตัวอย่างข้อมูลที่ได้จากการวัดโดยใช้มาตรอันดับ (Interval scale) 
1.       อุณหภูมิ………เซลเซียส์
2.      คะแนนสอบ……….คะแนน
3.      ระดับความพึงพอใจต่ออาหารประเภท fast food ในลักษณะ Rating Scale ดังแสดงในตารางที่ 1.2

ตารางที่ 1.2  ตัวอย่างคำถามลักษณะของข้อมูลโดยใช้มาตรอันตรภาค
อาหาร
ระดับความพึงพอใจ
ชอบมากที่สุด
ชอบมาก
ปานกลาง
ไม่ชอบ
ไม่ชอบอย่างมาก
พิซซ่า





ไก่ทอด





โดนัท





     
อย่างไรก็ตามในโปรแกรมสำเร็จรูปการวิเคราะห์ข้อมูลทางสถิตินั้น มิได้แบ่งมาตราอัตร-ภาคชั้นไว้ หากแต่มีการแบ่งออกเป็นอย่างประเภทอัตราส่วน ดังนั้นในการวิเคราะห์ข้อมูลทางสถิติจึงจัดอยู่ในกลุ่มเดียวกัน โดยรายละเอียดมาตราวัดแบบอัตราส่วนจะกล่าวในลำดับถัดไป

1.4.4   มาตราอัตราส่วน (Ratio Scale)
มาตราอัตราส่วนเป็นตัวแปรที่มีระดับการวัดเหมือนมาตราอันตรภาค และมีศูนย์สมบูรณ์  ข้อมูลที่เป็นอัตราส่วนสามารถนำมาบวก ลบ คูณ หาร ได้ และสามารถใช้ได้กับสถิติทุกประเภท เช่น รายได้ของนักท่องเที่ยว การใช้จ่ายของผู้บริโภค เป็นต้น ตัวเลขในระดับนี้สามารถนำมาบวก ลบ คูณ หารในทางคณิตศาสตร์ได้ และสามารถนำมาหาอัตราส่วนได้ ดังนั้นตัวแปรที่มีมาตราวัดในลักษณะนี้ จึงสามารถใช้สถิติได้เกือบทุกประเภทในการวิเคราะห์

ตัวอย่างข้อมูลที่ได้จากการวัดโดยใช้มาตราอัตราส่วน (Ratio scale) เป็นข้อมูลที่มีลักษณะจำแนกกลุ่ม  เรียงอันดับ  แบ่งเป็นช่วงเท่า ๆ  กัน และมีศูนย์แท้  สามารถเปรียบเทียบในเชิงอัตราส่วนได้  เช่น 
            1. รายได้ต่อเดือน  บาท.................
            2. อายุ ปี......................
3. ค่าใช้จ่าย  บาท......................
4. หนี้สิน .................บาท คิดเป็น .....% ของรายได้
5. สัดส่วนการถือครองที่ดิน  ....................ไร่
            ฯลฯ

จากที่กล่าวมาถึงประเภทของข้อมูล สามารถสรุปประเภทของข้อมูลจำแนกตามมาตราวัดได้ดังตารางที่ 1.3 และ 1.4

ตารางที่ 1.3 คุณสมบัติของประเภทข้อมูล
มาตรา
คุณสมบัติ
นามบัญญัติ (Nominal Scale) เรียงลำดับ (Ordinal Scale) อันตรภาค (Interval Scale) อัตราส่วน (Ratio Scale)
ความแตกต่างกัน ความแตกต่างกัน + ทิศทาง ความแตกต่างกัน + ทิศทาง + ช่วงเท่ากัน + ศูนย์สมมุติ ความแตกต่างกัน + ทิศทาง + ช่วงเท่ากัน + ศูนย์แท้

ตารางที่ 1.4 ลักษณะของข้อมูลสถิติสำหรับตัวแปรเดียว

ลักษณะของข้อมูล
สถิติที่ใช้
การนำเสนอข้อมูล
1. สเกลนามบัญญัติ (Nominal Scale)
ความถี่ อัตราส่วนร้อยละ
ตารางแจกแจงความถี่ ร้อยละ สัดส่วน
2. สเกลอันดับ                 (Ordinal Scale)
ความถี่ อัตราส่วนร้อยละ        เปอร์เซ็นต์ไทล์
ตารางแจกแจงความถี่ ร้อยละ สัดส่วน
3. สเกลอันตรภาค และ              อัตราส่วน               (Interval and Ratio Scale)
ความถี่ อัตราส่วนร้อยละ ส่วนเบี่ยงเบนมาตรฐาน ความแปรปรวน พิสัย เปอร์เซ็นต์ไทล์ ค่าเฉลี่ย
ตารางแจกแจงความถี่ ค่าความเบ้ ค่าความโด่ง



1.5 ประชากรและกลุ่มตัวอย่าง

1.5.1 ประชากร (Population)

ประชากร หมายถึง หน่วยทุกหน่วย (ซึ่งอาจมีชีวิตหรือไม่มีชีวิตก็ได้) ที่เรา สนใจเช่น จำนวนคนไทยที่เป็นเพศชาย ประชากรคือคนไทยทุกคนที่เป็นเพศชาย จำนวนรถยนต์ในจังหวัดหนองคาย ประชากรคือ รถยนต์ทุกคันที่อยู่ในจังหวัดหนองคาย ฯลฯ


          1.5.2 ตัวอย่าง (Sample)

 ตัวอย่าง หรือ กลุ่มตัวอย่าง หมายถึง หน่วยย่อย หรือตัวแทนของประชากรที่เราสนใจ ในการศึกษาหรือวิเคราะห์ เช่น จำนวนเกษตรกรในจังหวัดหนองคายซึ่งไม่สามารถจัดเก็บได้ทุกคน  จึงต้องใช้ตัวอย่างซึ่งตัวอย่างจะต้องเป็นตัวแทนเกษตรกรในจังหวัดหนองคายที่สามารถสอบถามข้อมูลได้ ฯลฯ



1.6  โครงสร้างของข้อมูลทางสถิติเศรษฐศาสตร์

          เนื่องจากข้อมูลทางเศรษฐกิจมีหลายประเภทซึ่งวิธีการทางสถิติและเศรษฐมิตินั้น ในการวิเคราะห์ข้อมูลจึงควรทราบโครงสร้างของข้อมูลที่เราจะทำการศึกษา ทั้งนี้ ข้อมูลที่ทำการศึกษาแบ่งออกได้เป็น 4 ประเภทดังนี้



1.6.1 ข้อมูลตัดขวางตามเวลา (Cross-sectional data)

 ข้อมูลตัดขวางตามเวลา หรือ ข้อมูลภาคตัดขวาง เป็นข้อมูลที่รวบรวม ณ เวลาใดเวลาหนึ่ง เช่น ค่าใช้จ่ายของนักท่องเที่ยวต่อครั้งในการเดินทางมาประเทศไทย ความพึงพอใจต่อการใช้บริการ ณ สถานที่บริการแห่งหนึ่ง เป็นต้น (ตัวอย่างแสดงไว้ในตารางที่ 1.5)



ตารางที่ 1.5 ตัวอย่างข้อมูลภาคตัดขวง

เลขที่แบบสอบถาม
เพศ
ระดับการศึกษา
รายได้
ค่าใช้จ่าย
1
2
3
.
.
.
n
ชาย
หญิง
ชาย
.
.
.
หญิง
ประถมศึกษา
ปริญญาตรี
มัธยมศึกษา
.
.
.
ประถมศึกษา
50,000
60,000
120,000
.
.
.
50,000
30,000
60,000
238,000
.
.
.
35,000




1.6.2 ข้อมูลอนุกรมเวลา (Time Series data)
เป็นข้อมูลที่รวบรวมตามระยะเวลาที่มีการกำหนด ช่วงระยะเวลาของข้อมูลที่ชัดเจน เช่น จำนวนและรายรับที่ได้รับจากนักท่องเที่ยว ต่างชาติของไทยระหว่างปี พ.. 2546-2550 เป็นต้น ข้อมูลประเภทนี้มีความถี่แตกต่างกันหลายรูปแบบ เช่น ข้อมูลรายวัน (Daily data) ข้อมูลรายสัปดาห์ (Weekly data) ข้อมูลรายไตรมาส (Quarterly data) ข้อมูลรายเดือน (Monthly data) ข้อมูลรายปี (Annual data) เป็นต้น  ทั้งนี้ตัวอย่างของข้อมูลอนุกรมเวลาแสดงไว้ในตารางที่ 1.6

ตารางที่ 1.6 ตัวอย่างข้อมูลอนุกรมเวลา
ปี
ยอดขาย
จำนวนสาขา
รายรับรวม
ค่าใช้จ่าย
2540
2541
2542
.
.
.
2555
50,000
60,000
120,000
.
.
.
500,000
18
19
21
.
.
.
29
150,000
160,000
220,000
.
.
.
750,000
130,000
150,000
238,000
.
.
.
350,000

1.6.3 ข้อมูลผสม (Pooled cross sections)
          ข้อมูลผสม เป็นข้อมูลที่มีลักษณะที่ผสมระหว่างข้อมูลตัดขวางและข้อมูลอนุกรมเวลาตัวอย่างเช่น การสำรวจข้อมูลตัดขวางตามเวลา 2 ชุดต่างเวลากัน ชุดแรกสำรวจในปี1985 อีกชุดหนึ่งสำรวจในปี1990 ในปี1985 สุ่มสำรวจข้อมูลครัวเรือนมีตัวแปรคือ รายได้ การออม ขนาดครอบครัว และในปี 1990 ทำสุมสำรวจครัวเรือนใหม่โดยมีตัวแปรเหมือนกัน เราเรียกข้อมูลประเภทนี้ว่าเป็น Pool cross section ข้อมูลผสมนี้บ่อยครั้งใช้ในการวิเคราะห์ผลของนโยบายรัฐบาลโดยเก็บข้อมูลก่อนใช้นโยบายและหลังใช้นโยบาย  ความสำคัญของการวิเคราะห์ข้อมูลผสมเป็นการวิเคราะห์การเปลี่ยนแปลงของตัวแปรระหว่างเวลา (ตัวอย่างแสดงในตารางที่ 1.7)

1.6.4 ข้อมูลตัดภาคขวางทางยาว (Panel or Longitudinal data)
          Panel data  เป็นข้อมูลที่ประกอบด้วยอนุกรมเวลาของแต่ละข้อมูลตัดขวางตามเวลา ตัวอย่างเช่น  เรามีข้อมูล ค่าจ้าง การศึกษา การจ้างงานของบุคคลหนึ่งจำนวน10ปี หรือเราเก็บข้อมูลของธุรกิจ เช่น การลงทุน การเงิน ของธุรกิจเดิมจำนวน 5 ปี Panel data แตกต่างจาก ข้อมูลผสมคือ panel data ใช้ตัวอย่างเดิมแต่เวลาเปลี่ยนไปเช่น บุคคล ธุรกิจ ประเทศ ส่วนข้อมูลผสมใช้ตัวอย่างแบบสุ่มซึ่งตัวอย่างจะเปลี่ยนไป (ตัวอย่างข้อมูลประเภทนี้แสดงในตารางที่ 1.8)


ตารางที่ 1.7 ตัวอย่างข้อมูลผสม
ปี
หมายเลขสาขา
จำนวนครั้งเฉลี่ยในการเยี่ยมชม
รายรับขั้นต่ำ
ต่อวัน
ค่าใช้จ่ายเฉลี่ยของพนักงาน
2540
2541
2542
2540
2541
2542
A
A
A
B
B
B
5
6
12
16
17
11
150,000
160,000
220,000
150,000
160,000
220,000
130,000
150,000
238,000
130,000
150,000
238,000

             

ตารางที่ 1.8 ตัวอย่างข้อมูลภาคขวางทางยาว
ปี
หมายเลขสาขา
จำนวนพนักงาน
รายรับของสาขา
ค่าใช้จ่ายของสาขา
2540
2541
2542
2540
2541
2542
A
A
A
B
B
B
5
6
12
16
17
11
150,000
160,000
220,000
150,000
160,000
220,000
130,000
150,000
238,000
130,000
150,000
238,000

สำหรับในการศึกษาในรายวิชานี้ จะมุ่งเน้นในการพิจารณาข้อมูลภาคตัดขวาง และข้อมูลอนุกรมเวลาเบื้องต้น สำหรับการพยากรณ์เบื้องต้นเท่านั้น