Rabu, Januari 09, 2008

Tiga Pertanyaan Mengenai Asumsi Normalitas

Demikan tiga pertanyaan mengenai asumsi normalitas (pertanyaan ini diberikan dalam posting mengenai Uji Asumsi dalam Regresi):

1. Pak Agung yang baik saya masih bingung mengenai pernyataan ini: central limit theorem disebutkan juga bahwa bagaimanapun bentuk distribusi data di populasinya, semakin besar sampel semakin normal distribusi mean sampelnya (Keppel & Wickens, 2004; Howell, 1984). Dan distribusi terlihat ‘cukup’ normal ketika sampel berisi sekitar 30 orang. Mungkin ini juga alasan mengapa kita sering mendengar ‘minimal sampel’ sebesar 30 orang. Pembahasan mengenai besar sampel akan dilakukan tersendiri.
Sebab ketika saya membaca Bukunya Leech, Barrret, & Morgan (2005) yang berjudul SPSS for intermediate statistics pada hal 28 disebutkan begini:

SPSS recommends that you divide the skewness by its standard error. If the result is less than 2.5 (which is approximately the p = .01 level), then the skewness is not significantly different from normal. A problem from this method, aside from having to use a calculator, is that the standard error depends on the sample size, so with large samples most variable would be found to be nonnormal.

apa yang dimaksud dengan so with large samples most variable would be found to be nonnormal? bgaimana kaitan pernyataan ini dengan central limit theorem?

2. Yang kedua, pada regresi, jika yang dihitung adalah normalitas residu, bagaimana jika asumsi normalitas tidak terpenuhi? bagaimana cara transformasinya, apakah caranya sama dengan transformasi biasa?

3. Terus yang ketiga bagaimana dengan pernyataan bahwa regresi bivariat digunakan untuk memprediksi skor satu variable tergantung yang normal atau berupa skala dari satu variabel bebas yang normal atau skala (Leech, Barret, & Morgan, 2005, hal 198). Apakah dari pernyataan tersebut dapat diinterpretasikan bahwa kita perlu menguji normalitas kedua variabel (bebas dan tergantung)? lalu apakah masih perlu diuji normalitas residunya?


Terima kasih banyak Pak... salam

Tjipto Susana

Saya akan berusaha menjawab pertanyaan ini sebaik mungkin. Semoga bisa menjawab dengan baik.

Pertanyaan Pertama. Jawaban ini dilakukan sebelum saya membaca buku yang diacu Bu Susan, semoga tidak meleset jawaban saya. Menurut saya yang dimaksud normalitas dalam central limit theorem itu berbeda dengan yang dimaksud di SPSS dalam skewness dibagi standard error skewness. Yang saya bahas dalam central limit theorem itu adalah normalitas dari distribusi mean sampel dalam populasi, sementara yang dimaksud dalam skewness adalah distribusi skor subjek dalam populasi.

Dalam central limit theorem disebutkan bahwa semakin besar n (besar sampel) maka distribusi mean sampel akan makin mendekati normal tanpa mempedulikan distribusi skor subjeknya. Jadi meskipun, anggap saja distribusi skor subjek di populasi itu nggak normal, tapi jika kita mengambil jumlah subjek yang mencukupi, maka dapat diasumsikan bahwa bentuk distribusi dari mean sampelnya normal.

Nah, yang diungkapkan Leech, Barrret, & Morgan (2005), itu merupakan 'kelemahan' dari uji signifikasi pada umumnya. Makin besar sampel, maka makin kecil standard error (mungkin bisa dibaca juga di posting mengenai signifikan tak selalu berarti besar), ini mengakibatkan makin besar kemungkinan kita memperoleh statistik yang besar (hasil bagi antara skewness dan standard error dari skewness), yang kemudian mengakibatkan makin besar kemungkinan kita menolak hipotesis nol dan menyatakan distribusi data di populasi tidak normal. Dalam hal ini kita cenderung melakukan tipe error I. Nah, di sini terjadi tarik ulur antara memilih menganggap distribusi data di populasi normal padahal tidak (tipe error II), atau memilih menganggap distribusi data di populasi tidak normal padahal normal (tipe errorI).
Saya pribadi akan memilih melakukan tipe error II lebih besar, dengan alasan central limit theorem tadi dan juga robustness dari statistik t dan F. Selain itu juga sangat disarankan untuk melihat bentuk data di sampelnya dengan menggunakan grafik seperti q-q plot atau stem and leaf plot sebelum mengambil keputusan mengenai uji normalitas ini (bisa juga dibaca di posting saya mengenai uji asumsi dalam SPSS). Ini kebiasaan baik yang tidak kita miliki saat ini. Mungkin bisa dimulai sejak posting ini diupload? (semoga... nyanyi lagu Katon deh).

Pertanyaan Kedua. Mengenai normalitas residu, jika tidak normal maka transformasi tetap dilakukan seperti biasa pada skor independen variabel. Hanya saja perlu berhati-hati karena mencari transformasi yang tepat untuk mengatasi ketidaknormalan data sepertinya cukup sulit . Saya sendiri belum banyak belajar mengenai transformasi ini, hanya pernah mendengar komentar seseorang seperti ini,"It can be forever". Saran saya, pertama perlu dilihat apakah ketidaknormalannya dapat dinilai parah. Jika iya, maka perlu dilakukan diagnostik dulu untuk mencari skor subjek atau observasi yang jadi biang keladinya. Jika semua baik-baik saja, baru kita cari transformasi yang pas.

Pertanyaaan Ketiga.Nah untuk pertanyaan satu ini saya agak ragu menjawabnya, karena kurang yakin dengan pemahaman saya sendiri mengenai Regresi bivariat. Setahu saya regresi biasanya selalu univariat. Nah regresi dengan model bivariat itu mungkin adalah model korelasi product moment. Dalam hal ini, tidak ada prediktor dan kriterion. Biasanya keduanya disebut sebagai response variable. Dalam model ini, kedua variabel berupa random variable, atau variabel yang datanya tidak ditentukan terlebih dulu oleh peneliti, melainkan berasal dari data di lapangan. Oke itu pemahaman saya mengenai Regresi bivariat.
Nah, terkait apakah kedua variabel ini harus memiliki sebaran data yang normal begini: Normalitas residu terkait sangat erat dengan pengujian hipotesis dalam Regresi. Misalnya kita ingin menguji apakah F yang dihasilkan itu signifikan. Jika Regresi dilakukan hanya untuk melihat koefisien korelasinya (atau koefisien regresinya), maka uji normalitas residu tidak perlu dilakukan.
Lalu misalnya kita hendak melakukan uji hipotesis terkait dengan F-nya? maka menurut saya yang diuji normalitas tetap residunya. Hanya saja kita melakukan uji normalitas residu dua kali.Anggaplah kita memiliki dua variabel X dan Y. Uji normalitas residu pertama dilakukan ketika X menjadi 'prediktor' dan Y menjadi 'kriterion' (ingat bahwa sebenarnya dalam model ini tidak ada yang namanya prediktor atau kriterion). Uji yang normalitas residu kedua dilakukan ketika Y yang menjadi 'prediktor' dan X yang menjadi 'kriterion'.

Demikian jawaban saya terhadap tiga pertanyaan ini. Semoga cukup jelas dan menjawab dengan memuaskan.
Jika belum, please feel free to deliver more questions.

15 komentar :

Anonim mengatakan...

Terima kasih banyak Pak..ats jawabannya... saya jadi lebih pinter nih....

GBU

Anonim mengatakan...

Eh..itu tadi dari aku Susan...payah nih...he...he... Kok yang nular ke aku sifat pelupa Pak Agung ya...Bukan Pinternya...

Salam hangat Susan

Anonim mengatakan...

Pak Agung... ada yang tertinggal... ketika uji normalitas menunjukkan bahwa residunya tidak normal, mengapa ya ditransformasikan variabel bebasnya? saya masih bingung. asumsi saya kan belum tentu sebaran variabel bebasnya tidak normal... bisa jadi yang tidak normal sebaran variabel tergantungnya.... lha bagaimana nih Pak... makacih....makacih

Tjipto Susana

Anonim mengatakan...

maaf pak saya bener2 awan statistik, tapi lagi skripsi. data saya tidak normal. tapi saya pernah baca untuk uji t data yang tidak normal tetap bisa di uji t asal selisih L tabel dan L hitung tidak besar. saya punta data: Ltabel 0,1498 dan L hitung: 0,1567 dan ltabel: 0.1457 , Lhitung: 0.2467. nah apakah data saya masih bisa diuji t. mohon solusinya ya pak...
terimakasih

Unknown mengatakan...

Wah saya baru kali ini dengar tentang Ltabel dan Lhitung. Kalau boleh tahu uji yang digunakan itu apa ya?

Menurut saya begini, prinsipnya sama saja dengan yang saya jabarkan dalam salah satu posting mengenai uji normalitas.

Pertama, ada baiknya mengecek grafik menggunakan q-q plot terlebih dulu. Kemudian bisa dicek bagaimana bentuk grafik box plot nya. Ini dikarenakan uji signifikasi akan cenderung memberikan nilai yang signifikan ketika n menjadi besar. Dalam kasus ini, uji asumsi cenderung memberi informasi bahwa data nggak normal ketika n besar. Hal ini disebabkan ketika n besar, penyimpangan sedikit saja dari distribusi normal akan mengakibatkan analisis memberitahu bahwa data kita nggak normal.

Kedua, informasi dari grafik ini juga bisa mengidentifikasikan data yang menyimpang jauh sekali, yang bisa juga membuat data terlihat tidak normal

Ketiga, informasi ini kemudian baru digabungkan dengan uji signifikasi tertentu (entah kolmogorov, Shapiro-Wilk, dll). Dengan mempertimbangkan besarnya n.

Dari ketiga informasi itu kita bisa mempertimbangkan lebih baik, apakah data kita ini normal atau tidak.

Kalau boleh tahu siapa namanya ya?

Anonim mengatakan...

saya nongol lagi, nggak papa ya pak...uji kenormalan saya pake uji liliefors.mau tanya lagi pak. untuk uji homogenitas selisih pretes-postes dari 2 sampel, apakah uji data pretes dan postesnya jg hrs normal? ato cukup menguji kenormalan selisihnya saja? menurut asumsi sy, kan yang mau di uji t data selisihnya, bukan data pretes-postes? gimana pak? soalnya ada temen yang menguji kenormalan data pretes, postes sama selihnya? oya pak ni dari Rohmah. Terima kasih

Unknown mengatakan...

Hai Rohmah,
begini pendapat saya: Karena yang diasumsikan normal itu adalah populasi dari skor yang diuji beda, maka dalam kasus Rohmah yang perlu dicek normalitasnya itu cukup selisih antara pretest dan posttest nya saja. Karena selisih ini yang akan diuji beda, maka selisih ini yang harus memenuhi asumsi normalitas agar estimasi p nya nanti lebih akurat.

Seandainya pretestnya tidak normal atau posttestnya tidak normal, tetapi selisih antara pre dan post nya normal, menurut saya tetap bisa dilakukan t-test.

Anonim mengatakan...

Pak Agung, klo kasusnya gini gimana pak? sampel saya 2 kelas masing-masing berjumlah 45 siswa. dalam proses penelitian ada data pretes siswa yg tidak terdokumentasi karena tidak mengikuti pretes. yg sy dapat data pretes postesnya cuma 37 dan 35 anak. jadi, anak yang tidak memiliki data postes tidak saya ikutkan uji beda. otomatis sampel saya berubah dari 45 ke 37 dan 36. apakah itu tidak apa2 ?

ada data selisih pretes postes yang nilainya negatif. artinya postes lebih rendah daripada pretes. bagaimana perhitungan uji asumsi dan homogenitasnya? nilai negatifnya dimasukkan atau tidak?

apakah boleh untuk tidak memasukkan data negatif itu dlam uji beda?mempengaruhi kesimpulan uji ato tidak?atokah ada syarat-syarat tertentu untuk menghapus data yang menyimpang itu?

terimakasih pak
rohmah

Unknown mengatakan...

Pertama mengenai kasus data yang nggak ada nilai posttestnya. Yang perlu diperhatikan pertama adalah: apakah tidak ikutnya subjek tersebut di posttest diakibatkan oleh faktor yang terkait dengan variabel dependen dan independen atau sifatnya random? Maksud saya begini, misalnya penelitian mengenai cara diet yang efektif. Nah ada beberapa subjek yang gugur di posttest karena mereka merasa diet mereka nggak efektif di tengah2 penelitian. Kalau ini kasusnya maka tentu saja akan mempengaruhi hasil penelitian, dan tidak ada cara untuk memperbaikinya. Artinya ini nantinya akan dituliskan sebagai kelemahan penelitian.

Jika gugurnya subjek ini sifatnya murni random (missing completely at random/MCAR) maka tidak masalah jika dihilangkan (tidak disertakan dalam analisis).

Jika gugurnya subjek ini mengikuti salah satu variabel independen, tapi random terhadap variabel dependennya (misalnya yang gugur itu subjek yang berasal dari daerah tertentu, tetapi bersifat random jika dilihat dari skor prestasi). Ini dinamakan Missing At Random (MAR).
Pada dua kasus terakhir kita bisa melakukan imputasi dengan teknik tertentu. Untuk hal ini ada baiknya kalo Rohmah mengkonsultasikannya dengan dosen pembimbing mengenai apakah rohmah perlu melakukan ini atau tidak.

Kedua mengenai nilai negatif. Menurut saya tentu saja nilai ini tetap dimasukkan dalam analisis baik untuk uji asumsi maupun uji hipotesisnya, karena nilai negatif ini memberikan informasi penting bahwa pelatihan memberikan dampak negatif pada beberapa orang. Jika dihilangkan jelas akan mempengaruhi hasil analisisnya.Misalnya seharusnya nggak ada beda jadi terlihat seolah-olah ada beda.

Saran buat rohmah: ada baiknya rohmah mengecek lagi karakteristik subjek yang tidak mengikuti posttest dan yang memperoleh nilai negatif pada gain scorenya. Ini tentunya akan memperkaya temuan penelitiannya nanti. Misalnya ternyata yang tidak mengikuti posttest kebanyakan siswa laki-laki. Nah ini akan menjadi catatan yang perlu dibahas, misalnya mengapa kebanyakan laki-laki? Apa yang dikatakan oleh teori mengenai fenomena ini? Adakah penjelasan mengenai fenomena ini? dst. Begitu juga dengan nilai negatif pada gain score.

Semoga membantu.

Anonim mengatakan...

pak Agung...

dulu aq emang pernah buka2 blog bapak, seperti yang selalu bapak "iklan"kan di email. tapi karena ngerasa belum perlu jadi ga diseriusin.
eh pas skripsi malah jadi kalang kabut karena ga mudeng.
(pasti pa Agung bakal ngomong "yah itu lah mahasiswa psi kampus kita")

oh, ya.... yang kemarin saya email bapak itu, jawabannya sedikit banyak saya temukan di bagian t-test. maap lho pak kalo bahasa saya sulit dimengerti.
lebih lanjutnya akan saya diskusikan lagi saja sama bu Lusi.

matur tengkyu ya pak...
GBU

yuni

Anonim mengatakan...

mohon bisa dijelaskan apa itu regresi logistik

Unknown mengatakan...

Hai,

Wah maaf nih sebelumnya, karena saya sendiri memang berencana akan membahas regresi logistik pada waktunya, tapi mungkin tidak dalam waktu dekat. Mengingat ini blog untuk konsumsi mahasiswa S1, dan masih banyak materi statistik yang perlu diketahui yang belum dibahas.

Tapi saya akan menulisnya suatu saat nanti. Kalau memang ingin diskusi bisa lo kirim email ke saya. Nanti kita bisa diskusikan.

Salam

sysilia mengatakan...

selamat malam pak.. saya sedang skripsi, nah saya masih bingung dengan uji regresi linier.. apakah untuk uji regresi linier harus di uji normalitas dan homogenitas?dan masalahna saya menggunakan uji regresi linier hanya untuk mengetahui koefisien korelasi.. terimakasih

Unknown mengatakan...

Kalau menggunakan regresi memang penting untuk mengecek normalitas residu, linearitas hubungan dan homogenitas residu. Karena ketiganya mempengaruhi nilai p dan besarnya beta yang dihasilkan.

Jika memang hanya ingin melihat hubungan, mengapa tidak menggunakan korelasi product momen saja?

Yulia Tri Cahyani mengatakan...

Selamat siang pak, saya mau bertanya. Saya sedang mengerjakaan skripsi dengan judul "Pengaruh DPK,NPL, LDR terhadap penyaluran kredit". Sampel yang saya gunakan 25 dengan waktu 6 tahun jadi ada 150 pengamatan. Nah, setelah saya melakukan pooling data (DPK,NPL gross,LDR,kredit yg disalurkan semuanya berasal dari laporan keuangan yg saya download dari web BEI). Namun,ketika saya olah data dengan spss v.22 data saya tidak normal (sudah saya lht dr histogram,norm p plot,One Sample KS).kemudian sya lakukan uji outlier dg hrpan dpt membantu mengatasi data. Namun yg terjadi ketika jml data tinggal 96 masih tetap tidak normal. Sampai akhirnya sya transform data dengan Ln jga tidak normal. Sya transform dgn sqrt jga ttp tidak normal. Lalu ada solusi lain yg sprti apa yg dpt sya terapkan pak? Mungkin bisa dikasih contoh terlebih dahulu utk pooling data ya pak. Terima kasih sebelumnya. Dan saya mau email Bapak.