Minggu, Juli 26, 2009

Analisis Regresi Ganda

Bagaimana jika kita hendak melakukan analisis regresi dengan lebih dari satu prediktor atau variabel independen? Kita tetap dapat menggunakan analisis regresi, hanya saja saat ini melibatkan lebih dari satu prediktor dalam analisisnya. Analisis regresi seperti ini sering disebut dengan analisis regresi ganda (Multiple Regression Analysis). Sebagai catatan: baik analisis regresi sederhana maupun analisis regresi ganda, keduanya berada dalam satu bendera yang sama yaitu Analisis Regresi. Jadi keduanya bukan merupakan teknik analisis yang berbeda, tetapi analisis yang sama hanya saja diterapkan pada situasi yang berbeda.

Pada dasarnya, pemikiran mengenai analisis regresi ganda ini merupakan perluasan dari prinsip-prinsip analisis regresi sederhana yang dibahas dalam postingan sebelumnya. Karena melibatkan lebih dari satu prediktor, tentu saja perhitungan dalam analisis regresi ganda akan lebih rumit.

Dalam beberapa hal saya masih menganggap perlu untuk menampilkan rumus-rumus untuk kepentingan memperoleh pemahaman bukan untuk perhitungan semata. Jadi kita masih akan bertemu dengan beberapa rumus yang mungkin agak rumit dalam postingan ini. Harap sabar ya…

Regresi Ganda dan Regresi dengan Satu Prediktor
Sebenarnya pemikiran mengenai analisis regresi ganda itu seperti melakukan beberapa kali analisis regresi, satu kali untuk tiap prediktor. Analisis regresi ganda menjadi lebih rumit karena seringkali kedua prediktor memiliki hubungan yang mempengaruhi hubungan tiap prediktor dengan kriterion. Hal ini yang membuat hasil analisis regresi dengan menggunakan lebih dari satu prediktor akan berbeda dengan analisis regresi untuk tiap prediktornya. Perbedaan muncul misalnya dalam hasil estimasi b dan R2 nya.

Baiklah saya akan berikan contoh untuk ilustrasi poin ini. Contoh yang saya berikan adalah ketika kedua prediktor memiliki korelasi yang sangat kecil dan hampir nol (sebenarnya saya ingin membuatnya benar-benar nol tapi agak sulit sepertinya). Anggaplah ada dua prediktor yaitu a dan b dan satu kriterion c. Yang pertama saya melakukan analisis regresi dengan melibatkan satu prediktor saja. Hasil analisis dengan menggunakan SPSS 16 dapat dilihat sebagai berikut:

Gambar 1. R kuadrat dengan melibatkan a saja

Gambar 2. R kuadrat dengan melibatkan b saja

Gambar 3. R kuadrat dengan melibatkan a dan b

Dari ketiga tabel di atas dapat dilihat bahwa nilai R kuadrat yang dihasilkan dari analisis regresi yang melibatkan dua prediktor kurang lebih adalah jumlah dari R kuadrat dari analisis regresi untuk tiap prediktornya: 0.549 =0.478+0.070.
Gambar 4. nilai slope dengan melibatkan a saja
Gambar 5. nilai slope dengan melibatkan b saja
Gambar 6. nilai slope untuk tiap variabel dengan melibatkan a dan b

Dari gambar 4 sampai 6, dapat kita lihat bahwa besarnya slope untuk tiap variabel kurang lebih sama antara slope yang didapatkan dari hanya melibatkan satu prediktor dengan slope yang didapatkan dari dua prediktor.

Hal ini terjadi karena bagian dari variasi d yang dijelaskan oleh a adalah murni bagian yang terpisah dari bagian variasi d yang dijelaskan oleh b, karena kedua prediktor tersebut tidak berkorelasi. Begini gambarnya:

Gambar 7. Ilustrasi regresi dengan dua prediktor yang tidak saling berkorelasi.

Tentu saja kita akan sangat jarang berhadapan dengan situasi ini. Situasi lain yang lebih sering dijumpai dalam penelitian adalah ketika kedua prediktor saling berkorelasi. Korelasi dua prediktor ini mengakibatkan bagian dari variasi kriterion yang dijelaskan oleh prediktor yang satu bukan merupakan bagian yang murni terpisah dari bagian yang dijelaskan prediktor lain atau dengan kata lain ada overlap antara bagian yang dijelaskan oleh a dan b. Oleh karena itu bagian ini perlu diidentifikasi agar tidak terhitung ulang (lihat gambar 8.).

Gambar 8. Ilustrasi analisis regresi yang melibatkan dua prediktor yang berkorelasi

Estimasi Parameter dalam Regresi Ganda
Seperti yang dijelaskan sebelumnya, estimasi parameter dalam regresi ketika melibatkan lebih dari dua prediktor, perlu memperhitungkan korelasi antar prediktor. Ini tercermin dalam rumus-rumus untuk mencari tiap parameter.
Dalam artikel ini, penjelasan analisis regresi ganda melibatkan hanya dua prediktor saja demi kemudahan pemaparan. Oleh karena itu rumus dari garis prediksi yang akan dicari adalah
Slope
Rumus untuk mencari b1 maupun b2 mirip. Dapat dilihat sebagai berikut:
Dapat dilihat dalam kedua rumus di atas, bahwa nilai b selalu didapatkan dari korelasi antara variabel yang dicari b-nya dengan variabel dependen (ry1), yang kemudian dikoreksi dengan korelasi antara variabel independen lain dengan variabel dependen (ry2) dan korelasi antar variabel independen (r12).

Nah ketika korelasi antar variabel independen tidak sama dengan nol, maka dapat dikatakan korelasi ini ‘dibersihkan’ (partialed out) dari perhitungan nilai b atau dengan kata lain dikendalikan atau dikontrol. Oleh karena itu nilai b dalam analisis regresi ganda diinterpretasi sebagai “kenaikan nilai prediksi Y untuk setiap poin kenaikan nilai X dengan mengendalikan nilai variabel independen lain”. Atau “kenaikan nilai prediksi Y untuk setiap poin kenaikan nilai X jika nilai variabel independen lain tetap”. Dari sinilah kemudian ide mengenai korelasi parsial dan semi parsial muncul, yaitu korelasi antara dua variabel dengan mengendalikan (partial out) variabel lain.

Ketika korelasi antar variabel independen sama dengan nol (r12=0), maka akan terjadi :
Jika kita lihat rumus b1 ini sama dengan rumus b1 pada analisis regresi dengan menggunakan satu prediktor saja, ini diakibatkan tidak ada korelasi yang ‘dibersihkan’ dari perhitungan nilai b, karena tidak ada korelasi antar variabel independen.

R kuadrat.
Perhitungan R kuadrat dalam regresi ganda dapat dilakukan dengan banyak cara. Cara pertama dilakukan dengan menjumlahkan R kuadrat untuk tiap korelasi antara variabel independen dengan variabel dependen, lalu dikoreksi.
Rumus di atas juga menunjukkan bahwa R kuadrat dari garis regresi ganda merupakan jumlah r kuadrat tiap variabel yang dikoreksi atau ‘dibersihkan’ dari korelasi antar variabel independen. Jika r12 = 0 makaSelain cara pertama itu, cara lain yang terhitung mudah adalah dengan mencari koefisien korelasi antara prediksi y dengan y dari data penelitian. Koefisien korelasi yang didapatkan kemudian dikuadratkan. Cara kedua ini dapat dinyatakan dalam bentuk seperti berikut:Regresi Ganda dalam SPSS
Saya tidak akan memberikan contoh pengerjaan rumus-rumus di atas secara manual…
“Yaaah…..”, begitu mungkin terdengar dari kejauhan sana.
Ya … ya … saya bisa memahami kekecewaan anda semua. Tapi saya melakukannya demi kebaikan kita semua (hmm… mulai tercium bau keangkuhan dan hawa kesombongan…). Selain karena membutuhkan kesabaran dan ketelitian ekstra, saya juga menghindari tampilan yang mengerikan dari perhitungan statistik dengan harapan mengurangi pengalaman traumatik berurusan dengan statistik …(hehe… lebai banget…). Saya juga merasa jauh lebih penting memfokuskan pada pemahaman konsep daripada penguasaan hitung-hitungannya, jadi dalam kesempatan ini mari kita segera beralih pada contoh regresi ganda dalam SPSS…. (Mari…. ).
Contoh: Sebuah penelitian dilakukan untuk mengetahui korelasi dari nilai IPK mahasiswa dengan dua variabel lain yaitu nilai Tes Seleksi Masuk I dan Tes Seleksi Masuk II. Penelitian ini juga ditujukan untuk menemukan garis regresi untuk melakukan prediksi nilai IPK seorang mahasiswa berdasarkan informasi dari nilai Tes Seleksi Masuk I dan II.
Baiklah, langkah pertama adalah dengan membuka data dalam SPSS tentu saja. Yang diikuti dengan klik menu Analyze-Regression-Linear sehingga muncul dialog box seperti ini (gambar 9.)
Gambar 9.

Variabel Indeks Prestasi Kumulatif dimasukkan ke dalam kotak Dependent sementara Tes Seleksi I dan Tes Seleksi II dimasukkan ke dalam kotak Independent(s). Kemudian klik OK, sehingga ditampilkan hasil seperti berikut (gambar 10, 11,12):
Gambar 10.

Pada Gambar 10. ditampilkan tabel yang memberikan informasi mengenai besarnya R dan R kuadrat. R merupakan korelasi majemuk (multiple correlation) dari kedua variabel independen dengan variabel dependen. R kuadrat (R square) memberikan gambaran seberapa baik garis regresi dapat memberikan prediksi variabel dependen. Dalam hal ini 14% dari variasi variabel dependen yang dapat diprediksikan oleh garis regresi dengan menggunakan kedua tes seleksi sebagai prediktornya.
Gambar 11.

Tabel dalam gambar 11, memberikan informasi mengenai signifikasi nilai R atau dapat juga dianggap sebagai uji hipotesis terkait dengan parameter-parameter regresi. Dalam tabel ditemukan nilai p (sig.) lebih kecil dari 0.05. Ini berarti nilai R secara signifikan berbeda dari 0 di populasi. Atau dapat juga diinterpretasi bahwa menggunakan garis regresi memberikan informasi lebih baik dibandingkan hanya dengan menggunakan mean dari variabel dependen. Interpretasi lain terkait dengan parameter, yaitu paling tidak ada satu nilai b yang signifikan. Jika kita membagi JK (Sum of Squares) dari Regression dengan JK dari Total, akan ditemukan nilai yang sama dengan R kuadrat.
Gambar 12.

Tabel berikutnya dalam gambar 12. memberikan informasi mengenai besarnya slope dan intercept serta signifikasi dari tiap koefisien tersebut. Slope untuk Tes Seleksi I adalah 0.049 sementara Tes Seleksi II adalah 0.090. Intercept dari persamaan garis regresi ini adalah 1.932. Semua parameter tersebut signifikan dengan taraf 5%. Ini berarti garis regresi untuk memprediksi IP Kumulatif mahasiswa adalah sebagai berikut:

Arti dari slope untuk Tes Seleksi masuk : dengan mengendalikan nilai Tes Seleksi II, tiap kenaikan satu poin dalam Tes Seleksi I akan diikuti oleh prediksi IPK sebanyak 0.049 poin. Atau : kenaikan 1 poin nilai Tes seleksi I akan diikuti oleh kenaikan prediksi IPK, jika nilai Tes Seleksi II tetap.
Baiklah demikian kiranya pembahasan mengenai analisis regresi ganda. Tentu saja banyak bunga-bunga di sekitar analisis regresi ganda ini yang belum bisa dibahas dalam postingan ini.