Senin, September 17, 2007

Uji Asumsi 1: Uji Normalitas Regresi

Adakah yang berbeda dari uji normalitas pada regresi?
Sebenarnya tidak banyak berbeda dari uji normalitas dalam analisis lain, hanya saja dalam regresi yang diuji normalitas bukan skor variabel dependennya, melainkan residu atau errornya.

Praktek yang selama ini terjadi (setahu saya), ketika peneliti menguji normalitas sebaran dalam regresi, yang diuji adalah variabel dependennya. Hal ini kurang tepat, karena dalam pengujian hipotesis nol dari regresi (uji signifikasi) yang dibutuhkan adalah normalitas sebaran residunya bukan normalitas sebaran variabel dependennya (Pedhazur,1997).

Tapi apa sih yang dimaksud residu atau error?

Teknik regresi akan menghasilkan persamaan regresi. Persamaan regresi dalam sampel akan berwujud : Y'= a + bX (beberapa buku menuliskan dengan notasi yang berbeda). Nah Y' (prediksi dari Y) ini tidak selalu sama besarnya dengan Y yang dihasilkan dari data penelitian. Ini diakibatkan Y' hanyalah prediksi nilai Y yang didasarkan pada X, dan setiap prediksi akan mengandung error dalam jumlah tertentu. Semakin besar error yang dihasilkan berarti semakin buruk prediksi yang dilakukan, dan sebaliknya.

Dari penjelasan di atas dapat ditemukan cara mencari error ini untuk tiap subjek; yaitu:
e=Y'-Y
Nah nilai e inilah yang diasumsikan mengikuti distribusi normal bukan nilai Y nya.
(penjelasan menyeluruh mengenai regresi akan dibahas dalam posting tersendiri).

Uji Normalitas Residu dalam SPSS

Ada beberapa tahap yang perlu dilakukan untuk melakukan Uji Normalitas Residu dalam SPSS

1. Menghitung nilai residu untuk tiap subjek. Menghitung? tenang saja, yang saya maksud bukan kita menghitung satu-satu residu dari tiap subjek, tapi memerintahkan SPSS untuk menghitung nilai residu dari tiap subjek. Begini caranya :
Pertama kita pilih Analyze - Regression - Linear

sehingga akan muncul dialog box seperti berikut :

Anggap saja kita hendak melakukan penelitian untuk mengetahui prediksi kecemasan dari inteligensi seseorang. Oleh karena itu dalam kotak Dependent kita masukkan variabel cemas, dan dalam kotak Independent kita masukkan variabel iq.

Setelah variabel diletakkan pada tempatnya, kita mengklik tombol Save untuk memerintahkan SPSS menghitung nilai residu.
Dalam kotak ini kita perlu mengklik Unstandardized dalam kotak Residuals untuk memerintahkan SPSS menghitung residu. Kemudian klik Continue dan OK. Maka SPSS akan menampilkan hasil analisis regresi. Lalu di mana nilai residu untuk tiap subjek?
Nilai residu ini ditempatkan dalam tampilan data view dalam satu kolom tersendiri seolah-olah manjadi variabel baru dengan nama Res_1.

2.Nah selanjutnya kita tinggal melakukan uji normalitas seperti kita melakukan uji normalitas pada umumnya. Kalau kamu lupa, kamu bisa lihat posting sebelumnya mengenai Uji Normalitas dalam SPSS

OK demikian kiranya melakukan uji normalitas pada residu. Saya masih menanti pertanyaan dari anda semua.

Further Readings
  • Pedhazur,E.J.(1997) Multiple regression in behavioral research. Wadsworth:Thomson Learning

53 komentar :

Anonim mengatakan...

Pak Agung yang baik saya masih bingung mengenai pernyataan ini: central limit theorem disebutkan juga bahwa bagaimanapun bentuk distribusi data di populasinya, semakin besar sampel semakin normal distribusi mean sampelnya (Keppel & Wickens, 2004; Howell, 1984). Dan distribusi terlihat ‘cukup’ normal ketika sampel berisi sekitar 30 orang. Mungkin ini juga alasan mengapa kita sering mendengar ‘minimal sampel’ sebesar 30 orang. Pembahasan mengenai besar sampel akan dilakukan tersendiri.

Sebab ketika saya membaca Bukunya Leech, Barrret, & Morgan (2005) yang berjudul SPSS for intermediate statistics pada hal 28 disebutkan begini:

SPSS recommends that you divide the skewness by its standard error. If the result is less than 2.5 (which is approximately the p = .01 level), then the skewness is not significantly different from normal. A problem from this method, aside from having to use a calculator, is that the standard error depends on the sample size, so with large samples most variable would be found to be nonnormal.

apa yang dimaksud dengan so with large samples most variable would be found to be nonnormal? bgaimana kaitan pernyataan ini dengan central limit theorem?



Yang kedua, pada regresi, jika yang dihitung adalah normalitas residu, bagaimana jika asumsi normalitas tidak terpenuhi? bagaimana cara transformasinya, apakah caranya sama dengan transformasi biasa?

Terus yang ketiga bagaimana dengan pernyataan bahwa regresi bivariat digunakan untuk memprediksi skor satu variable tergantung yang normal atau berupa skala dari satu variabel bebas yang normal atau skala (Leech, Barret, & Morgan, 2005, hal 198). Apakah dari pernyataan tersebut dapat diinterpretasikan bahwa kita perlu menguji normalitas kedua variabel (bebas dan tergantung)? lalu apakah masih perlu diuji normalitas residunya?


Terima kasih banyak Pak... salam

Tjipto Susana

Anonim mengatakan...

Bu Susan yang baik,
Saya memutuskan untuk menjawab pertanyaan Bu Susan ini di posting tersendiri saja ya.
Supaya lebih jelas dan gamblang (semoga).

Unknown mengatakan...

Sebenarnya, kalau dibilang "melakukan uji normalitas adalah kurang tepat", tidak lah sepenuhnya benar. Jika anda menggunakan regresi linier dengan pendekatan OLS (Ordinary Least Square) atau meminimumkan kuadrat terkecil residual, secara statistik persamaan yang anda gunakan adalah persamaan normal. Dan nilai residual (e) sangat berkorelasi dengan nilai Y (variabel respon). Jadi, apabila-pun anda menemukan bahwa distribusi e tidak normal, ada 2 kemungkinan penyebab : variabel respon (Y) tidak berdistribusi normal atau kesalahan pada model (model linear yang anda bentuk tidak dapat diterapkan). Dan sebenarnya, fungsi adanya asumsi mengapa residual (e) harus mengikuti distribusi normal adalah terkait dengan pengujian2 parameter (beta) secara statistik setelah itu : F-test, t-test dan confident interval yang juga melibatkan variabel respon (Y).

Akhirnya, beberapa peneliti-pun cenderung menguji variabel respon terlebih dahulu sebelum melakukan regresi linear (dengan pendekatan OLS seperti yang digunakan oleh beberapa software ; SPSS, minitab), karena apabila diketahui bahwa Y tidak berdistribusi normal, peneliti bisa melakukan transformasi langsung pada nilai Y (seperti transformasi log atau ln) atau bahkan menggunakan pendekatan yang lain seperti : quantile regression, non-parametrik regression, dan masih banyak lagi.

Demikian, semoga dapat menjadi pengayaan

Wasalam
Suhermin Ari Pujiati

Anonim mengatakan...

Wah terima kasih, Mbak Suhermin atas masukannya. Tentu saja ini akan memperkaya saya dan blog ini.

Sayang sekali tempat untuk menuliskan komentar tidak cukup luas untuk memberi penjelasan cukup detil mengenai tanggapan Mbak Suhermin.

Jika ada buku atau artikel yang bisa saya baca mengenai hal ini mungkin bisa diinformasikan? Sehingga saya bisa memperbanyak referensi.

Pendapat saya didasarkan pada beberapa pendapat lain seperti Cohen (1983), Pedhazur (1997), dan Berry (1993). Sehingga jika saya bisa mendapat resource tambahan mengenai ini tentu akan sangat memperkaya.

Terima Kasih

Unknown mengatakan...

Ada beberapa buku yang bisa dipakai sebagai referensi. Salah satunya adalah :
Draper, N.R. and Smith, H. (1998), Analisis Regresi Terapan, Edisi Kedua, PT. Gramedia Pustaka Utama, Jakarta

Unknown mengatakan...

Terima Kasih sekali Bu Suhermin. Akan saya coba mempelajarinya.

Anonim mengatakan...

Pak Agung, saya sedang mengerjakan skripsi dan melakukan pengujian hipotesis. Saya masih bingung, selain menguji H0 dan H1, uji-uji apa saja yang harus dilakukan?

Di buku referensi saya, Hypothesis testing itu satu chapter, dan tidak ada lanjutannya mengenai uji-uji, jadi saya agak bingung. Terima kasih sebelumnya..

Unknown mengatakan...

Hai Yasinta,

yang dimaksud uji-uji yang lain itu apa ya? Apakah maksudnya uji asumsi atau post hoc analysis?

Mungkin bisa dijabarkan lebih detil pertanyaannya?

Tiny Mu mengatakan...

Pak saya mau bertanya utk tugas regresi ganda, saya punya tugas seperti ini:
Suatu perusahaan minuman ringan sejenis sirup ingin mengetahui hubungan antara penjualan pada suatu tahun tertentu dengan faktor-faktor yang mempengaruhinya. untuk itu diambil data penjualan seperti tabel berikut:
(ada tabel yg berisikan 'daerah', 'biaya iklan', 'banyak rekening aktif', 'banyak merk saingan', 'tenaga penjual' dan 'total penjualan'. manakah yg masuk ke dalam variable independent dan mana yg termasuk kedalam variable dependent?

terima kasih banyak sebelumnya.
tienny_makrus@hotmail.com

Unknown mengatakan...

Halo tiny,

Jawaban saya ini hanya berupa perkiraan dari apa yang tiny sampaikan ya. Saya hanya mengira-ira mana yang menjadi variabel independen dan dependen berdasarkan nama variabelnya.

Terkaan saya begini: karena tiny bilang bahwa perusahaan ingin mengetahui faktor apa yang mempengaruhi penjualan dalam satu tahun, maka tentu saja total penjualan yang menjadi variabel dependen sementara variabel lain dapat diterka sebagai variabel dependennya.

Semoga bisa membantu

Anonim mengatakan...

mo tnya lagi pa...
kenapa untuk menentukan besarnya/kuatnya hubungan variabel independen terhadap variabel dependen memakai nilai R square, bukan nilai adjusted R square dalam tabel model summary...???
trima kasih....

o y pa, trima kasih bantuana, atas tnya jwb'na mengenai statistik selama ini, coz akhirna saya baru saja lulus...
blog milik bpk sangat bermanfaat sekali...
mudah2an bpk terus selalu meng'update info2 terbaru tentang statistik...

Unknown mengatakan...

Hai niecoholic,

Selamat atas kelulusannya ya. Saya senang sekali blog ini juga bisa membantumu. Semoga bisa juga membantu yang lain.

Mengenai pertanyaanmu, itu tergantung apakah hasil R kuadrat nya akan digeneralisasi. Jika memang akan digeneralisasi, biasanya yang akan digunakan adalah yang adjusted. Jika tidak digeneralisasi yang digunakan yang R squared. Ini diakibatkan adanya shrinkage dari R ketika ia digeneralisasi pada data dari sampel lain.

cisco mengatakan...

pak agung , bisa tolong dijelaskan lebih rinci apa yang dimaksud dgn data residual dalam uji normalitas klomogorov smirnov???
thx

mietel mengatakan...

pak bagaimana cara pemilihan rumus transformasi data yang tepat dengan penilaian nilai skewnes ?

Unknown mengatakan...

Untuk Cisco,

Yang saya maksud data residual itu adalah selisih dari hasil prediksi berdasarkan garis regresi dengan nilai yang didapatkan oleh subjek.Dalam postingan ini saya menyebutnya juga sebagai error, yaitu Y-Y'.

Unknown mengatakan...

untuk Mietel,

Wah saya sendiri tidak bisa memberikan rumusan atau prinsip dasarnya. Karena saya sendiri tidak banyak tahu kapan suatu rumus digunakan paling tepat.

yang paling mungkin adalah dengan melihat bentuk sebaran datanya. Misal jika skew jenderung ke kanan, ini berarti jarak antar kasus pada persentil atas besar-besar. Oleh karena itu perlu ditransform dengan fungsi yang dapat mengecilkan jarak ini seperti ln(x), log(x).

Anonim mengatakan...

Pak Agung, saya ingin bertanya.

Setelah melakukan uji normalitas regresi dengan variabel res_1, apakah dlm melakukan regresi linear selanjutnya tetap menggunakan variabel-variabel (x,y) semula atau Res_1?

Apabila pada awal uji normalitas ternyata tidak normal dan harus dilakukan outlier data dengan boxplot, maka variabel mana yg harus diuji dengan boxplot (dependent, independent, atau kedua2nya/res_1) sebelum dilakukan uji normalitas kembali.

Tolong dijelaskan ya, pak.

Terima kasih sebelumnya. :)

Unknown mengatakan...

setelah dilakukan uji normalitas, analisis tetap dilakukan pada data variabel x dan y bukan pada residunya.

Yang perlu dicek menggunakan boxplot adalah residunya (res_1). Sebenarnya dari scatterplot sudah dapat dilihat mana individu yang merupakan outlier. Tetapi outlier tidak boleh begitu saja dibuang. Perlu dicek dulu apakah keberadaannya memang karena realitasnya begitu atau karena ada kesalahan input.

Anonim mengatakan...

Saya Ferdian, mau bertanya ke Pak Agung...
saya punya persamaan regresi sebagai berikut:
1.ROE = α0 + α1 VAIC + ε
2.ROE = α0 + α1 VACA + α2 VAHU + α3 STVA + ε
3.ROA = α0 + α1 VAIC + ε
4.ROA = α0 + α1 VACA + α2 VAHU + α3 STVA + ε
Saya sudah melakukan uji normalitas dengan K-S pada residual regresi2 di atas. Hasilnya diperoleh nilai Sig sebesar 0,086 dari data residual regresi pertama dan nilai Sig sebesar 0,075 dari data residual regresi kedua.
Sedangkan hasil uji K-S terhadap nilai unstandardized residual dari ROA menunjukkan Sig 0,000 (data belum normal).
Pertanyaan saya:
Apakah saya boleh katakan seperti berikut: "bahwa semua data yang digunakan dalam sampel penelitian dari persamaan regresi pertama dan kedua telah memenuhi asumsi normalitas tetapi untuk semua data yang digunakan dari regresi ketiga dan keempat belum memenuhi asumsi normalitas"? Mengingat bahwa semua data yang digunakan kan sama. Apa yang salah ya Pak Agung sampai hasil ujinya berbeda.
Bagaimana supaya hasil uji normalitas pada nilai unstandardized residual ROA menunjukkan angka Sig di atas 0,05?
Mohon sekali bantuannya ya Pak Agung. Terima kasih banyak....

Unknown mengatakan...

Untuk Ferdian,

Ya kurang lebih begitu. Data untuk persamaan pertama dan kedua memenuhi normal, sementara yang ketiga dan keempat tidak.
Walaupun datanya sama, tetapi yang diregresi variabelnya berbeda (variabel dependennya). Ketika berbicara data, maka yang dimaksudkan adalah data yang terlibat dalam persamaan bukan data keseluruhan.

Menurut saya tidak ada yang salah. Mungkin memang kondisi datanya begitu. Jadi bukan karena ada yang salah.
Ketidaknormalan sebenarnya tidak berdampak terlalu parah dalam regresi. Oleh karena itu jika ini hanya satu-satunya yang dilanggar, maka analisis masih bisa dilanjutkan.
Jika mau 'dinormalkan' memang bisa melalui transformasi data, tetapi transformasi memiliki dampak buruk lain yaitu mengubah skala pengukuran variabelnya. Jadi akan mengubah interpretasi persamaan regresinya.

Anonim mengatakan...

Pak Agung, saya ingin bertanya. Sebelumnya, saya diberitahu teman saya kalau cara menghitung normalitas residual dengan Klik regression –> masukkan variabel dependent Y ke kolom Dependent, dan masukkan X ke kolom independent, lalu memilih 'unstandardized' pada kotak 'predicted'.
Lalu pilih transform, compute, pada target variable diketik nama ‘Rasidual', masukkan Y dan 'Unstandardized Predicted Value' ke dalam kotak 'Numeric Expression' lalu 'ok'.
Setelah dicoba, hasilnya berbeda dengan yang diterangkan di atas. Bisa dijelaskan perbedaanya dan lebih baik saya menggunakan cara yg mana?

Apabila tidak normal, bagaimana cara terbaik mendeteksi data outlier? Apakah dengan melihat scatterplot bisa (yg biasa digunakan untuk melihat heteroskedastisitas
Terima kasih.

Unknown mengatakan...

Untuk anonim,
Sebenarnya langkah yang anda ambil agak merepotkan, karena sebenarnya spss sudah menyediakan fasilitas seperti yang saya sebutkan.

Saya mencoba seperti yang anda lakukan hanya saja yang saya masukkan ke dalam numeric expression adalah "Y - unstandardized predicted value". Dalam komentar anda tidak jelas apa operasi hitung yang disertakan. Dengan menggunakan numeric expression seperti di atas, saya mendapatkan angka yang sama. Perbedaan hanya diakibatkan oleh pembulatan saja.

Mungkin bisa dicek lagi?

Anonim mengatakan...

Salam, Pak Agung,

Saya awam dalam statistik & masih bingung mengenai uji normalitas.. Di buku SPSS karangan Duwi Priyatno (2009:58), sepertinya data yang di-uji normalitas adalah data variabel, bukan data residual. Sebelum membaca blog ini, saya mengikuti prosedur di buku tsb, hasilnya hanya variabel Y yg sig-nya di atas 0.05 (terdistribusi normal), sedangkan variabel X1 & X2 sig-nya di bawah 0.05 (tidak terdistribusi normal).

Dari blog ini saya menyimpulkan (cmiw) bahwa uji normalitas dilakukan pada residual regresi..Jadi, pada tabel test of normality Kolmogorov-Smirnov(dalam kasus saya) apakah hanya tercantum satu variabel yaitu variabel Y saja Pak? Apakah ini sudah mewakilkan normalitas dari variabel-variabel independennya juga?

Maaf bila pertanyaannya dangkal Pak, mohon sarannya segera, Terimakasih..

Unknown mengatakan...

Untuk Firglobe,

Ya memang ada beberapa orang yang menganjurkan menguji normalitas semua variabel yang terlibat dalam regresi. Tapi dari sumber yang saya baca selama ini, saya menyimpulkan bahwa sebenarnya yang lebih penting adalah mengecek normalitas residu bukan variabelnya. Pengecekan normalitas residu ini dapat memberi informasi lebih akurat mengenai pemenuhan asumsi dibandingkan pengecekan asumsi setiap variabel.

Nah jika yang dicek adalah residu, maka hanya akan ada satu tabel saja yaitu tabel pengecekan normalitas untuk residu. Bukan untuk variabel Y maupun X nya.

Anonim mengatakan...

pak agung nan baik hati..saya lagi skripsi tb2 d bab iv sy bingung knp setiap sya ngitung d spss error trs..sy menghitung ipk pak..yg mn ada koma2 gt..variabel satux nilai angka biasa gk ada koma2x..gmn pak cara input datax..?sy uda ganti titik ttp gk bisa..duh sy jd tmbh pusing..tlg bantuanx y pak..makasi Gbu

Unknown mengatakan...

Saya tidak bisa menjawab permasalahan ini karena saya tidak melihat kondisi datanya sendiri dan apa yang dilakukan. Apakah misalnya jenis datanya sudah diseting dengan baik, atau apakah data sudah dimasukkan dengan benar, dst.

Kamu bisa mengecek juga peringatan yang muncul di output ketika analisis tidak dapat dilakukan.

Anonim mengatakan...

selamat sore pak, saya nike, mau bertanya tentang step by step untuk mengetahui data outlier.. bagaimana caranya ya pak?

terimakasih ..

flowers_lotus mengatakan...

Pak, saya sedang mngrjakan skripsi dan saat mengolah data saya bingung karena setelh uji normalitas dgn spss trnyata normal kemudian lnjut dengn tes homogenitas. Trnyata kesimpulannya sampelnya tidak identik. Jdi tidak bisa dilanjutkan k anova one way, jdi saya mesti gimna pak agung? Mohon bantuannya,

Unknown mengatakan...

Untuk Nike,
Outlier memang belum banyak dibahas dalam blog ini. Semoga dalam waktu dekat bisa segera dibereskan. Mungkin sementara bisa melihat artikel ini dulu:
http://psikologistatistik.blogspot.com/2007/09/uji-asumsi-1-uji-normalitas-dalam-spss.html

Unknown mengatakan...

Untuk green46,

Kalau data ternyata tidak memenuhi asumsi homogenitas, sebenarnya ada dua uji lain yang bisa dilakukan. Keduanya merupakan uji alternatif jika data tidak homogen, yaitu: brown-forsythe dan welch.

Keduanya terdapat dalam menu spss one way anova. Ketika diaolog box terbuka, klik "option" lalu klik Brown-forsythe atau welch. (atau keduanya untuk perbandingan).

Cara membaca hasilnya kurang lebih sama dengan membaca hasil analisis varian.

Semoga membantu.

rose mengatakan...

pak numpang nanya, itu contohnya kalo regresi linear yah? bagaimana kalau pada regresi multivariat untuk menghitung nilai residunya?

Unknown mengatakan...

Untuk regresi multivariat saya pikir sama saja prosesnya dengan yang saya paparkan di atas karena sejauh yang saya pahami, hasil residu dari persamaan regresi hanya satu untuk tiap individu. (Saya berasumsi yang dimaksud rose dengan regresi multivariat itu regresi ganda).

Anonim mengatakan...

pak agung saya lagi skripsi, mau tanya, saya sama sekali ga paham, kenapa kita harus ngelakuin uji normalitas, hetero dan lain sebagainya,

skripsi saya regresi linear, pak

nah yang saya bingung itu, uji asumsi apa aja yang harus saya lakuin, dan gunanya buat apa ?

terus, uji normalitas kan utnuk melihat data terdistribusi normal apa enggak gitu pak, terus kalo normal emg knp kalo ga normal knp ?

jd apa korelasinya sama analisis regresi saya ? apakah kalo ga normal skrpsi saya ga bisa diterusin atau gimana pak ?

semoga bapak bisa membantu, terimakasih banyak pak :'(

Unknown mengatakan...

Singkatnya begini: Rumus-rumus atau program-program analisis statistik yang kita gunakan itu dibuat dengan dasar asumsi tertentu. Mengapa perlu asumsi? Karena data dalam dunia riil memiliki sangat banyak kemungkinan sehingga menyulitkan untuk membuat cara yang paling baik untuk menganalisisnya.

Maksud saya begini, misalnya mengenai bentuk distribusi: bentuk distribusi data riil di dunia bisa dibilang nyaris tidak terbatas, banyaknya bentuk sebanyak jumlah set data yang berhasil kita kumpulkan selama ini. Nah untuk bisa menganalisis suatu data dengan bentuk yang sangat beragam ini tidak mudah karena tiap bentuk distribusi punya ciri khasnya sendiri. Oleh karena itu kalau saya mau membuat suatu cara menganalisis hanya ada dua kemungkinan: buat cara analisis untuk bentuk distribusi yang paling umum ditemukan atau buat analisis yang bisa berlaku untuk semua distribusi.

Dari dua kemungkinan itu,kemungkinan pertama adalah yang paling mudah dan paling 'elegan' secara matematis sehingga paling sering dipilih. Oleh karena itu kita perlu berasumsi, jika distribusi berbentuk A maka cara no 1 yang akan digunakan. Bentuk distribusi yang 'dianggap' paling umum adalah bentuk distribusi normal (dan memiliki solusi matematis yang paling elegan dibanding yang lain). Dengan berasumsi distribusi normal ini dibuatlah rumus atau program regresi seperti yang kita gunakan sekarang. (catatan: tidak hanya asumsi normalitas tapi juga beberapa asumsi lainnya).

Bagaimana dengan kemungkinan kedua? Kemungkinan kedua ini terbagi lagi menjadi dua: cara yang begitu saja mengikuti bentuk distribusi sampel (seperti dalam analisis non-parametrik) atau cara yang bisa 'mendekati' hasil dari kemungkinan pertama meskipun asumsi dilanggar (dinamai 'robust method'). Kedua cara ini seringkali tidak mudah dan menuntut kemampuan hitung (dari komputer) yang lebih besar daripada kemungkinan pertama di atas.

Nah, mengenai asumsi regresi apa saja:
1. normalitas residu, 2. tidak adanya misspesifikasi model (model yang diajukan benar) 3. homogenitas varian residu 4. tidak terjadi multikolinearitas 5. prediktor berupa variabel yang fixed atau jika tidak fixed harus berdistribusi normal 6. Tidak ada korelasi antara error dan semua variabel lain dalam analisis 7. error antar tiap individu bersifat independen.

Info ini bisa dibaca di bebrapa buku regresi seperti tulisan Pedhazur atau Berry.
Terkait asumsi, saya pernah menulis satu artikel di ANIMA tahun 2009 (bulan Juni kalau tidak salah). Selain itu juga menulis satu bab di buku bunga rampai HIMPSI dalam kongres tahun ini di menado. Saya tidak tahu cara mendapatkan yang kedua di Indonesia. Tapi kalau berminat saya bisa kirim draft yang saya kirim ke sana.

Anonim mengatakan...

Selamat Sore. Pak Agung saya boleh bertanya? Saat ini saya sedang menyusun skripsi dengan menggunakan 4 variabel X dan 1 variabel Y. Semuanya sudah lulus uji asumsi klasik. Namun bagaimana jika secara konsep ada variabel x yang saling mempengaruhi? apakah masih bisa menggunakan uji regresi? Terimakasih atas jawabannya.

Unknown mengatakan...

Maaf sebelumnya, bisakah diberi penjelasan yang lebih detil seperti apa yang dimaksud saling mempengaruhi. Mungkin bisa dipaparkan contohnya?

Terima kasih sebelumnya.

Unknown mengatakan...

Selamat malam pak agung

saya punya pertanyaan begini, saya sudah melakukan uji normalitas dengan K-S dan memasukan nilai res nya, namun dosen saya meminta untuk melakukan uji normalitas dengan menggunakan residual error..

Saya kurang mengerti maksudnya apakah menggunakan uji residual error atau kah menggunakan uji lain?

Terima kasih pak sebelumnya

Anonim mengatakan...

Selamat siang pak, sy yanti, salam kenal :)
Pak saya mau bertanya, kenapa error harus mengikuti distribusi normal? Bukan distribusi yang lain seperti poisson, chi-square, dll?
Terima kasih banyak sebelumnya..

Unknown mengatakan...

Untuk Aldo, apakah analisis yang akan dilakukan adalah regresi? Jika ya bisa cek di sini cara melakukan uji normalitas pada residu http://psikologistatistik.blogspot.com/2007/09/uji-asumsi-1-uji-normalitas-regresi.html

Sebenarnya bisa dibilang sama saja antara melakukan pengecekan normalitas pada variabel dependen dengan melakukan pengecekan pada residu.

Unknown mengatakan...

Untuk Yanti,

Pertanyaannya menarik sekali! Sejauh yang saya pahami begini:

Untuk analisis regresi yang sering digunakan saat ini, inferensi dari hasil estimasi parameternya didasarkan pada asumsi bahwa variabel dependen dan hasil estimasinya berdistribusi normal. Oleh karena itu distribusi error nya kemudian dibandingkan dengan distribusi normal .
Apakah mungkin jika kita menggunakan distribusi lain sebagai asumsi? Mungkin saja menurut saya. Di statistik dikenal adanya regresi poisson misalnya. Dalam hal ini, asumsi yang dijadikan dasar adalah bahwa Y mengikuti distribusi poison.

Ada kalanya juga kita memutuskan untuk tidak berasumsi apapun tentang distribusi Y sehingga kita perlu menggunakan statistik yang 'kebal' terhadap penyimpangan distribusi, seperti robust method.

Semoga bisa menjawab pertanyaan Yanti.

Unknown mengatakan...

selamat pagi pak,,, saya jannah ingin bertannya....

apa yang akan terjadi jika error tidak berdistribusi normal, tidak independen dan varian residual tidak homogen?

bisa dijelaskan satu persatu pak? karena saya akan menghadapi sidang skripsi pak tetapi saya masih bingung tentang hal di atas?

Unknown mengatakan...

Untuk Jannah,

Kita mulai dari normalitas ya. Jika error tidak berdistribusi normal, maka inferensi dari koefisien regresi bisa menghasilkan nilai p yang tidak akurat. Misalnya di hasil SPSS keluar p=0.04, padahal sebenarnya p=0.07. Ini bisa membuat koefisien yang terlihat signifikan di hasil analisis SPSS, sebenarnya tidak signifikan. Beberapa orang menganggap pelanggaran asumsi ini tidak terlalu mengganggu nilai p, tapi kita tidak pernah tahu seberapa tidak mengganggunya.

Jika error tidak independen (atau berkorelasi) ini bisa mengakibatkan kesalahan estimasi dari koefisien regresinya. Misalnya di SPSS keluar b=1.4, padahal sebenarnya di populasi b=2.0. Ini terjadi karena tidak diperhitungkannya korelasi antar error ini dalam estimasi koefisien regresi.

Jika error memiliki varian yang tidak homogen, ini juga mengakibatkan tidak akuratnya nilai p yang dihasilkan. Heterogenitas varian error ini termasuk tidak bisa diabaikan dalam konteks regresi (dibandingkan dengan normalitas). Oleh karena itu biasanya orang melakukan 'koreksi' dengan menambahkan bobot pada varian errornya atau menggunakan robust statistic (huber weight misalnya).

Semoga cukup menjawab pertanyaan Jannah. Semoga sukses ujiannya!

Unknown mengatakan...

maaf Pak Agung mau tanya,, penelitian saya terdiri dari 2 variabel independen dan 1 variabel dependen (maka menggunakan uji regresi berganda), saya ingin menguji normalitas datanya.

Uji normalitas itu dilakukan sebelum uji regresi (menguji data masing2 variabel) atau dengan menguji residualnya??

mohon bantuannya,, terimakasih..

Unknown mengatakan...

Mas Ryan Pratama,

Sebenarnya mengecek normalitas residu maupun normalitas variabel dependen nya akan memberikan hasil yang sama.

Sementara itu variabel independennya sendiri tidak terlalu penting untuk dicek normalitasnya.

Karena mengecek normalitas residu, maka pengecekan ini dilakukan setelah analisis regresi dijalankan.

Semoga bisa membantu,

Alifa mengatakan...

Malam mas agung, saya ingin bertanya..

1. Alasan apa yang melandasi bahwa uji normalitas pada regresi dilakukan pada residualnya? Mengapa harus pada residualnya? Adakah referensinya?
2. Mengapa SPSS tidak memberikan output error pada model persamaan regresinya?
3. Sampel saya dibawah 30 karena memang populasi yang kecil (tapi populasi tdk sama dengan sampel) dan ketidak mungkinan mengambil sampel banyak. Namun data berdistribusi normal dan residual regresi juga normal. Saya masih bisakan menggunakan analisis regresi? Dan tidak apakah sampel < 30? Adakah referensi berkaitan dgn itu?

Terima kasih. Mohon maaf kalau terlalu banyak bertanya krn selama ini mencari2 belum menemukan jawaban utk pertanyaan di atas hehe

Anonim mengatakan...

Pak saya mau bertanya . Bagaimana melakukan uji asumsi klasik dengan 1 variabel dependen, 3 variabel independen dan 2 variabel kontrol?

Mohon bantuannya,terima kasih

Anonim mengatakan...

Salam Pak Agung,
mohon bantuannya, mohon informasi referensi untuk
"Sebenarnya mengecek normalitas residu maupun normalitas variabel dependen nya akan memberikan hasil yang sama.

Sementara itu variabel independennya sendiri tidak terlalu penting untuk dicek normalitasnya."

kebetulan saya sangat membutuhkan sekali penguat untuk argumen ini bapak. Terimakasih sekali.

Unknown mengatakan...

Mohon maaf karena balasan komentar teman-teman cukup lama saya lakukan karena kesibukan saya akhir-akhir ini. Semoga masih relevan.

Untuk Alifa,
1. Alasan utamanya adalah pada asumsi yang mendasari analisis regresi. Dalam analisis regresi (dalam hal ini regresi OLS), untuk mendapatkan estimasi standard error dari koefisien2nya, kita perlu berasumai bahwa variabel dependen (dan karenanya residu) berdistribusi normal. Tanpa berasumsi seperti ini maka kita tidak bisa melakukan estimasi standard errornya. (Bisa dibaca dalam banyak buku-buku mengenai regresi. Salah satunya buku tulisan pedhazur ini: http://www.amazon.com/Multiple-regression-behavioral-research-Pedhazur/dp/0030728312).
2. Saya kurang paham apa yang dimaksud Alifa dengan output error? Apakah yang dimaksud adalah residu? Jika yang dimaksud residu, maka ada opsi dalam fungsi regresi yang bisa memunculkan residu ini sebagai salah satu kolom data di data viewnya.
3. Sebenarnya keputusan dalam analisis statistik seringkali tidak bersifat dikotomis: bisa-tidak bisa, tapi selalu ada konsekuensi jika melakukan keputusan tertentu. Misalnya, jumlah subjek kurang dari 30 orang memiliki beberapa resiko: kemungkinan koefisien regresi yang diperoleh tidak menggambarkan yang sebenarnya, kemungkinan untuk memperoleh hasil yang tidak signifikan, dll. Jadi apakah boleh? Boleh saja asal dalam pelaporan hasil penelitian, resiko-resiko seperti ini tetap ditulis untuk mengingatkan pembaca akan kerentanan hasil analisis yang didapatkan. Referensi yang secara langsung menyatakan seperti ini tentunya tidak ada. Paparan saya merupakan hasil membaca beberapa artikel jurnal terkait dengan analisis power dan statistik inferensial. Sehingga sulit untuk menyebutkan satu sumber yang mencakup semua paparan di atas. Ada satu sumber tulisan Cohen (http://www.amazon.com/Statistical-Power-Analysis-Behavioral-Sciences/dp/0805802835/ref=sr_1_1?s=books&ie=UTF8&qid=1454735803&sr=1-1&keywords=cohen+power+analysis) yang cukup banyak menyinggung apa yang saya bicarakan ini.

Untuk teman yang bertanya tentang asumsi klasik dengan beberapa variabel. Apakah konteks analisisnya adalah regresi? jika ya, maka untuk normalitas dapat di baca di blog ini juga http://psikologistatistik.blogspot.com/2007/09/uji-asumsi-1-uji-normalitas-regresi.html. Jika yang dimaksud berbeda mungkin bisa posting pertanyaan yang lebih detil agar saya memahami konteksnya.

Untuk yang menanyakan referensi. Biasanya buku-buku mengenai statistik yang memuat regresi, memaparkan hal ini juga. Misalnya buku tulisan pedhazur (yang sering saya acu juga: http://www.amazon.com/Multiple-regression-behavioral-research-Pedhazur/dp/0030728312).

Semoga dapat membantu semuanya.
Salam.

Unknown mengatakan...

Salam...
Pak Agung, saya ingin bertanya, apabila penelitian saya menguji hubungan antara satu variabel dependen dan satu variabel independen dan pengujiannya menggunakan korelasi pearson, bolehkah saat menguji normalitas menggunakan unstandardized residual? Karena jika diuji terpisah, variabel dependen saya distribusinya tidak normal. Mohon penjelasannya, Pak

Terimakasih.

Salam,
Hanis

Jessica mengatakan...

Pak saya mau tanya, apabila data residu awal saya transform ke abs lalu hasil abs saya transform lagi menjadi LN, apa pada hasil analisis akan terlihat(ketahuan) jika datanya telah saya transform?

Unknown mengatakan...

Untuk Hanis,

Jika melakukan korelasi product moment pearson, maka menurut saya kedua variabel harus mengikuti distribusi normal, bukan residu dari variabel dependen saja.

Salam,

Unknown mengatakan...

Untuk Jessica,

Menurut saya, yang seharusnya ditransformasi adalah data dari variabel dependen, bukan residunya.

Selain itu transformasi menggunakan fungsi absolut, khususnya jika ada nilai negatif, akan menghilangkan urutan skor (nilai -2 yang seharusnya lebih kecil dari -1, ketika dijadikan absolut menjadi 2 dan 1, dimana 2 lebih besar dari 1). Atau transformasi absolut tidak bersifat monotonik.

Wira Acristarini mengatakan...

Pak, mohon jawabannya Pak..
Saya wira. Saya mau bertanya , judul skripsi yang saya ambil mengenai pengaruh lingkungan kerja fisik dan lingkungan kerja non fisik terhadap kinerja karyawan dengan kepuasan kerja sebagai variabel intervening.
Di ketahui : x1 = lingkungan kerja fisik
X2 = lingkungan kerja non fisik
Y = kepuasan kerja
Z kinerja karyawan

Nah, saat ini saya sedang melakukan uji normalitas Pak, yg di masukkan pada Spss itu semua variabel atau hanya x1,x2 dan Y saja Pak ??

Dan uji normalitas persamaan satu dan persamaan dua itu variabel yg mana saja yang di masukkan dlm sppss ??