Iklan 1

Minggu, Juli 26, 2009

Analisis Regresi Ganda

Bagaimana jika kita hendak melakukan analisis regresi dengan lebih dari satu prediktor atau variabel independen? Kita tetap dapat menggunakan analisis regresi, hanya saja saat ini melibatkan lebih dari satu prediktor dalam analisisnya. Analisis regresi seperti ini sering disebut dengan analisis regresi ganda (Multiple Regression Analysis). Sebagai catatan: baik analisis regresi sederhana maupun analisis regresi ganda, keduanya berada dalam satu bendera yang sama yaitu Analisis Regresi. Jadi keduanya bukan merupakan teknik analisis yang berbeda, tetapi analisis yang sama hanya saja diterapkan pada situasi yang berbeda.

Pada dasarnya, pemikiran mengenai analisis regresi ganda ini merupakan perluasan dari prinsip-prinsip analisis regresi sederhana yang dibahas dalam postingan sebelumnya. Karena melibatkan lebih dari satu prediktor, tentu saja perhitungan dalam analisis regresi ganda akan lebih rumit.

Dalam beberapa hal saya masih menganggap perlu untuk menampilkan rumus-rumus untuk kepentingan memperoleh pemahaman bukan untuk perhitungan semata. Jadi kita masih akan bertemu dengan beberapa rumus yang mungkin agak rumit dalam postingan ini. Harap sabar ya…

Regresi Ganda dan Regresi dengan Satu Prediktor
Sebenarnya pemikiran mengenai analisis regresi ganda itu seperti melakukan beberapa kali analisis regresi, satu kali untuk tiap prediktor. Analisis regresi ganda menjadi lebih rumit karena seringkali kedua prediktor memiliki hubungan yang mempengaruhi hubungan tiap prediktor dengan kriterion. Hal ini yang membuat hasil analisis regresi dengan menggunakan lebih dari satu prediktor akan berbeda dengan analisis regresi untuk tiap prediktornya. Perbedaan muncul misalnya dalam hasil estimasi b dan R2 nya.

Baiklah saya akan berikan contoh untuk ilustrasi poin ini. Contoh yang saya berikan adalah ketika kedua prediktor memiliki korelasi yang sangat kecil dan hampir nol (sebenarnya saya ingin membuatnya benar-benar nol tapi agak sulit sepertinya). Anggaplah ada dua prediktor yaitu a dan b dan satu kriterion c. Yang pertama saya melakukan analisis regresi dengan melibatkan satu prediktor saja. Hasil analisis dengan menggunakan SPSS 16 dapat dilihat sebagai berikut:

Gambar 1. R kuadrat dengan melibatkan a saja

Gambar 2. R kuadrat dengan melibatkan b saja

Gambar 3. R kuadrat dengan melibatkan a dan b

Dari ketiga tabel di atas dapat dilihat bahwa nilai R kuadrat yang dihasilkan dari analisis regresi yang melibatkan dua prediktor kurang lebih adalah jumlah dari R kuadrat dari analisis regresi untuk tiap prediktornya: 0.549 =0.478+0.070.
Gambar 4. nilai slope dengan melibatkan a saja
Gambar 5. nilai slope dengan melibatkan b saja
Gambar 6. nilai slope untuk tiap variabel dengan melibatkan a dan b

Dari gambar 4 sampai 6, dapat kita lihat bahwa besarnya slope untuk tiap variabel kurang lebih sama antara slope yang didapatkan dari hanya melibatkan satu prediktor dengan slope yang didapatkan dari dua prediktor.

Hal ini terjadi karena bagian dari variasi d yang dijelaskan oleh a adalah murni bagian yang terpisah dari bagian variasi d yang dijelaskan oleh b, karena kedua prediktor tersebut tidak berkorelasi. Begini gambarnya:

Gambar 7. Ilustrasi regresi dengan dua prediktor yang tidak saling berkorelasi.

Tentu saja kita akan sangat jarang berhadapan dengan situasi ini. Situasi lain yang lebih sering dijumpai dalam penelitian adalah ketika kedua prediktor saling berkorelasi. Korelasi dua prediktor ini mengakibatkan bagian dari variasi kriterion yang dijelaskan oleh prediktor yang satu bukan merupakan bagian yang murni terpisah dari bagian yang dijelaskan prediktor lain atau dengan kata lain ada overlap antara bagian yang dijelaskan oleh a dan b. Oleh karena itu bagian ini perlu diidentifikasi agar tidak terhitung ulang (lihat gambar 8.).

Gambar 8. Ilustrasi analisis regresi yang melibatkan dua prediktor yang berkorelasi

Estimasi Parameter dalam Regresi Ganda
Seperti yang dijelaskan sebelumnya, estimasi parameter dalam regresi ketika melibatkan lebih dari dua prediktor, perlu memperhitungkan korelasi antar prediktor. Ini tercermin dalam rumus-rumus untuk mencari tiap parameter.
Dalam artikel ini, penjelasan analisis regresi ganda melibatkan hanya dua prediktor saja demi kemudahan pemaparan. Oleh karena itu rumus dari garis prediksi yang akan dicari adalah
Slope
Rumus untuk mencari b1 maupun b2 mirip. Dapat dilihat sebagai berikut:
Dapat dilihat dalam kedua rumus di atas, bahwa nilai b selalu didapatkan dari korelasi antara variabel yang dicari b-nya dengan variabel dependen (ry1), yang kemudian dikoreksi dengan korelasi antara variabel independen lain dengan variabel dependen (ry2) dan korelasi antar variabel independen (r12).

Nah ketika korelasi antar variabel independen tidak sama dengan nol, maka dapat dikatakan korelasi ini ‘dibersihkan’ (partialed out) dari perhitungan nilai b atau dengan kata lain dikendalikan atau dikontrol. Oleh karena itu nilai b dalam analisis regresi ganda diinterpretasi sebagai “kenaikan nilai prediksi Y untuk setiap poin kenaikan nilai X dengan mengendalikan nilai variabel independen lain”. Atau “kenaikan nilai prediksi Y untuk setiap poin kenaikan nilai X jika nilai variabel independen lain tetap”. Dari sinilah kemudian ide mengenai korelasi parsial dan semi parsial muncul, yaitu korelasi antara dua variabel dengan mengendalikan (partial out) variabel lain.

Ketika korelasi antar variabel independen sama dengan nol (r12=0), maka akan terjadi :
Jika kita lihat rumus b1 ini sama dengan rumus b1 pada analisis regresi dengan menggunakan satu prediktor saja, ini diakibatkan tidak ada korelasi yang ‘dibersihkan’ dari perhitungan nilai b, karena tidak ada korelasi antar variabel independen.

R kuadrat.
Perhitungan R kuadrat dalam regresi ganda dapat dilakukan dengan banyak cara. Cara pertama dilakukan dengan menjumlahkan R kuadrat untuk tiap korelasi antara variabel independen dengan variabel dependen, lalu dikoreksi.
Rumus di atas juga menunjukkan bahwa R kuadrat dari garis regresi ganda merupakan jumlah r kuadrat tiap variabel yang dikoreksi atau ‘dibersihkan’ dari korelasi antar variabel independen. Jika r12 = 0 makaSelain cara pertama itu, cara lain yang terhitung mudah adalah dengan mencari koefisien korelasi antara prediksi y dengan y dari data penelitian. Koefisien korelasi yang didapatkan kemudian dikuadratkan. Cara kedua ini dapat dinyatakan dalam bentuk seperti berikut:Regresi Ganda dalam SPSS
Saya tidak akan memberikan contoh pengerjaan rumus-rumus di atas secara manual…
“Yaaah…..”, begitu mungkin terdengar dari kejauhan sana.
Ya … ya … saya bisa memahami kekecewaan anda semua. Tapi saya melakukannya demi kebaikan kita semua (hmm… mulai tercium bau keangkuhan dan hawa kesombongan…). Selain karena membutuhkan kesabaran dan ketelitian ekstra, saya juga menghindari tampilan yang mengerikan dari perhitungan statistik dengan harapan mengurangi pengalaman traumatik berurusan dengan statistik …(hehe… lebai banget…). Saya juga merasa jauh lebih penting memfokuskan pada pemahaman konsep daripada penguasaan hitung-hitungannya, jadi dalam kesempatan ini mari kita segera beralih pada contoh regresi ganda dalam SPSS…. (Mari…. ).
Contoh: Sebuah penelitian dilakukan untuk mengetahui korelasi dari nilai IPK mahasiswa dengan dua variabel lain yaitu nilai Tes Seleksi Masuk I dan Tes Seleksi Masuk II. Penelitian ini juga ditujukan untuk menemukan garis regresi untuk melakukan prediksi nilai IPK seorang mahasiswa berdasarkan informasi dari nilai Tes Seleksi Masuk I dan II.
Baiklah, langkah pertama adalah dengan membuka data dalam SPSS tentu saja. Yang diikuti dengan klik menu Analyze-Regression-Linear sehingga muncul dialog box seperti ini (gambar 9.)
Gambar 9.

Variabel Indeks Prestasi Kumulatif dimasukkan ke dalam kotak Dependent sementara Tes Seleksi I dan Tes Seleksi II dimasukkan ke dalam kotak Independent(s). Kemudian klik OK, sehingga ditampilkan hasil seperti berikut (gambar 10, 11,12):
Gambar 10.

Pada Gambar 10. ditampilkan tabel yang memberikan informasi mengenai besarnya R dan R kuadrat. R merupakan korelasi majemuk (multiple correlation) dari kedua variabel independen dengan variabel dependen. R kuadrat (R square) memberikan gambaran seberapa baik garis regresi dapat memberikan prediksi variabel dependen. Dalam hal ini 14% dari variasi variabel dependen yang dapat diprediksikan oleh garis regresi dengan menggunakan kedua tes seleksi sebagai prediktornya.
Gambar 11.

Tabel dalam gambar 11, memberikan informasi mengenai signifikasi nilai R atau dapat juga dianggap sebagai uji hipotesis terkait dengan parameter-parameter regresi. Dalam tabel ditemukan nilai p (sig.) lebih kecil dari 0.05. Ini berarti nilai R secara signifikan berbeda dari 0 di populasi. Atau dapat juga diinterpretasi bahwa menggunakan garis regresi memberikan informasi lebih baik dibandingkan hanya dengan menggunakan mean dari variabel dependen. Interpretasi lain terkait dengan parameter, yaitu paling tidak ada satu nilai b yang signifikan. Jika kita membagi JK (Sum of Squares) dari Regression dengan JK dari Total, akan ditemukan nilai yang sama dengan R kuadrat.
Gambar 12.

Tabel berikutnya dalam gambar 12. memberikan informasi mengenai besarnya slope dan intercept serta signifikasi dari tiap koefisien tersebut. Slope untuk Tes Seleksi I adalah 0.049 sementara Tes Seleksi II adalah 0.090. Intercept dari persamaan garis regresi ini adalah 1.932. Semua parameter tersebut signifikan dengan taraf 5%. Ini berarti garis regresi untuk memprediksi IP Kumulatif mahasiswa adalah sebagai berikut:

Arti dari slope untuk Tes Seleksi masuk : dengan mengendalikan nilai Tes Seleksi II, tiap kenaikan satu poin dalam Tes Seleksi I akan diikuti oleh prediksi IPK sebanyak 0.049 poin. Atau : kenaikan 1 poin nilai Tes seleksi I akan diikuti oleh kenaikan prediksi IPK, jika nilai Tes Seleksi II tetap.
Baiklah demikian kiranya pembahasan mengenai analisis regresi ganda. Tentu saja banyak bunga-bunga di sekitar analisis regresi ganda ini yang belum bisa dibahas dalam postingan ini.

12 komentar:

widia winata mengatakan...

Saya orang awam tentang statistika. Tapi dalam satu mata kuliah ini harus dipelajari.padahal sejak kecil saya selalu malas melihat angka2 dan rumus2 yang sulit saya mengerti. pada tulisan ini begitu banyak istilah dan rumus yang tidak dipahami karena mungkin dasar2 statistik itu belum dipelajari dengan mendalam. kalau boleh tau, apa saran anda untuk saya yang berminat statistik ini tetapi takut dengan angka dan rumus?judul topik atau buku apa yang harus saya baca sebelum membahas analisis regresi ganda ini sehingga tidak keder lagi.terimakasih

Anonim mengatakan...

Assalamualaikum Wr.Wb.
Halo Pak Agung, salam kenal untuk anda.
Saya ingin menanyakan apabila dalam suatu penelitian terdapat variabel moderating yang mempengaruhi hub antara var. independen dan var. dependen, apakah analisis regresi berganda masih bisa digunakan dalam menganalisis data?
Misalnya model dari penelitian tersebut adalah:

Y = α + B1X1 + B2X2 + B3 |X1 – X2| + ε
dimana: Y = variabel dependen, X1 = variabel independen, X2 = variabel moderating

dengan model diatas apakah akan menggugurkan teknik analisis tersebut? kalau iya, bagaimana teknik analisis yang tepat untuk penggunaan variabel diatas?
Terima kasih.

sur_yha@yahoo.co.id

Agung Santoso mengatakan...

Untuk Bu Widia,
Sebelumnya maaf kalau saya lama sekali menanggapi komentar Ibu.
Sebenarnya jika Ibu belajar statistik bukan sebagai ilmu murni, dalam arti lebih ke aplikasi statistik, maka akan lebih baik kalau fokus belajar bukan pada penguasaan rumus melainkan pada pemahaman teknik analisis. Misalnya, kapan analisis ini digunakan, bagaimana interpretasinya, bagaimana menggunakan software analisis tertentu, dll.
Kalau untuk analisis regresi sendiri, sebaiknya memang Ibu memahami terlebih dulu paling tidak topik mengenai korelasi dan analisis varian. Dalam blog ini juga sudah ada beberapa artikel mengenai dua topik tersebut. Selamat Belajar!

Agung Santoso mengatakan...

Untuk mas Suryha,

Sebenarnya tidak masalah jika ada satu variabel moderator dalam model regresi. Hanya saja, persamaan regresi yang disusun harus melibatkan interaksi antara moderator dan variabel independen. Dalam hal ini X1 dan X2. Interaksi ini dapat dimunculkan dengan sebuah variabel baru hasil perkalian kedua variabel ini (X1*X2).

Dalam model yang ditunjukkan, tertulis B3(X1-X2), mengapa ini diperlukan? Dari model yang dibuat, saya mengkhawatirkan adanya multikolinearitas, karena dapat dibilang (X1-X2) akan memiliki korelasi sangat tinggi dengan X1 dan X2. Ini mungkin satu hal yang perlu diperhitungkan.

piek mengatakan...

Ass,,
pa' agung, sya ingin tanyakan?
1. Perbedaan Ho & HI ?
2. Apabila ditemukan data (p)sebesar 0.062>0.05 maka Ho,,?
3. dan mengapa harus di Kuadratkan (regresi berganda)r2 dan hasilnya harus di kali(x)100%?

trima kasih sebelumnya, mohon

jawabanya,,??

Agung Santoso mengatakan...

Untuk mas Piek,
1. H0 adalah hipotesis nol. Hipotesis yang menyatakan bahwa tidak ada perbedaan antar kelompok atau tidak ada korelasi antar variabel. Sementara H1 atau hipotesis alternatif menyatakan ada korelasi atau perbedaan. Kebalikan dari H0.
2. jika p > 0.05 maka H0 akan gagal ditolak. (beberapa orang menyatakan diterima). Atau kita tidak memiliki cukup bukti untuk menolak H0.
3.r kuadrat merupakan gambaran mengenai seberapa besar proporsi variasi dari variabel tergantung yang mengikuti variasi variabel bebas. Sebetulnya tidak harus dikalikan 100%, karena tanpa dikalikan pun sudah menggambarkan proporsi. Angka r kuadrat ini memang agak membingungkan interpretasinya. Beberapa orang menginterpretasi sebagai "besarnya pengaruh", tetapi sebenarnya kurang tepat, kecuali dalam konteks penelitian eksperimental. Yang paling tepat ya itu tadi: besarnya proporsi variasi variabel tergantung yang mengikuti variasi variabel bebas.
Kalau mengapa harus dikuadratkan, karena angka kuadrat inilah yang bercerita tentang besarnya proporsi tadi. Kalau yang diinginkan informasi yang lain, maka tentunya perlu mencari parameter lain selain r kuadrat ini.

WongMbeling mengatakan...

Salam kenal Pak Agung...

Saya kemarin ditanya oleh Asisten Dosen saya karena hasil analisis regresi ganda yang saya buat (2 variabel independen, 1 variabel dependen) (alfa = 5%) terjadi hal demikian:
- pada uji F (ANOVA) nilai sig. = 0,071 (tidak signifikan)
- pada uji parsial (uji t) nilai Sig untuk b1 = 0,031 (signifikan) dan nilai Sig. untuk b2 = 0,243 (tidak signifikan)
nah kata Asdos saya, tidak mungkin uji F tidak signifikan, tapi uji t ada yang signifikan.
saya tidak bisa menjelaskan...
Bisa minta tolong Pak, sebenarnya interpretasi dari ANOVA itu: "Paling tidak ada satu variabel independen yang berpengaruh secara signifikan" atau "Secara bersama-sama variabel-variabel independen berpengaruh signifikan"?

Bingung saya.....
Terima kasih sebelumnya.

Agung Santoso mengatakan...

Untuk Wong Mbeling,
Yang dikatakan Asdos anda memang benar. Lazimnya ketika uji F tidak signifikan, maka tidak satupun uji t nya yang signifikan. Dalam kasus ini ada kemungkinan begini:
1. dalam persamaan regresi dalam kasus WongMbeling itu sebenarnya ada 3 kali uji t secara berturutan, 2 kali uji untuk tiap variabel independen dan 1 kali uji untuk interceptnya. Oleh karena itu sebenarnya besarnya nilai p yang dilaporkan oleh SPSS menjadi kurang akurat. Agar menjadi akurat, nilai p tersebut perlu dikoreksi dengan rumus 1-(1-p)^k. k adalah banyaknya uji t yang dilakukan. Jadi jika nilai p nya 0.031, nilai p yang sebenarnya adalah 1-(1-0.031)^3 = 0.09. Dalam hal ini p > 0.05.

Pengertian uji F signifikan dalam regresi sendiri memang yang pertama : paling tidak ada satu variabel independen yang berpengaruh.

Anonim mengatakan...

luar biasssaaaa,,,,
terima kasih sekali pak agus,,
saya mahasiswa tingkat akhir yg sdg skripsi..
padahal tdnya sy udah depresi ga ngerti bab IV..
tp ternyata ada pencerahan setelah melihat blog bapak..
terima kasih pak..

Agung Santoso mengatakan...

Sama-sama. Terima kasih juga untuk komentar ini. Salam.

Anonim mengatakan...

assalamualaikum
saya yuli
saya minta tolong ajarin cara penggunaan spss tentang regresi ganda dan cara membacanya
bisa di kirim di emai saya
yuliatisanny@gmail.com
terima kasih sebelunya

Agung Santoso mengatakan...

Untuk Yuli,

Dalam artikel di atas sudah dijelaskan tentang cara penggunaan SPSS untuk regresi ganda dan cara membaca hasil. Mungkin bisa dicermati terlebih dulu?

Jika ada pertanyaan tentu saja akan saya coba jawab sebaik mungkin.

Salam