Minggu, Agustus 23, 2009

STOP PRESS: PLAGIARISM!!!

Beberapa minggu ini tema plagiasi ini mencuat dalam kehidupan saya. Pertama karena blog ini sempat diplagiasi oleh blog lain, dan kedua karena saya mengajar dan biasanya saya menekankan betapa saya tidak menyukai plagiarism. Saya akan memberikan nilai E saat itu juga jika ketahuan ada mahasiswa saya yang melakukan plagiarism. Di beberapa universitas tempat saya kuliah dulu, plagiarism bisa diganjar hukuman dikeluarkan dari universitas. Jadi saya pikir memberikan nilai E termasuk 'sangat ringan'. Semoga saja itu menimbulkan efek jera.

Nah permasalahan dengan plagiarism kadang terjadi karena ketidaktahuan si pelaku bahwa apa yang dilakukannya adalah plagiarism. Walaupun dari definisi plagiarism, intensi tidak diperhitungkan dalam menentukan apakah suatu perilaku itu plagiasi atau bukan. Jadi seseorang akan dituduh plagiasi karena perilakunya bukan karena intensinya. Oleh karena itu ketidaktahuan tidak dapat dijadikan alasan untuk menghindari tuduhan plagiasi. Satu-satunya cara menghindari adalah dengan tidak melakukan perilaku tersebut.

Untuk keperluan itulah maka artikel kali ini memuat tentang plagiarism. Artikel ini disusun berdasarkan beberapa artikel terkait mengenai plagiarism yang saya dapatkan baik di internet maupun di buku-buku. Sumber-sumber acuan akan saya berikan di akhir artikel ini sehingga pembaca bisa mengaksesnya sendiri jika membutuhkan.

Minggu, Juli 26, 2009

Analisis Regresi Ganda

Bagaimana jika kita hendak melakukan analisis regresi dengan lebih dari satu prediktor atau variabel independen? Kita tetap dapat menggunakan analisis regresi, hanya saja saat ini melibatkan lebih dari satu prediktor dalam analisisnya. Analisis regresi seperti ini sering disebut dengan analisis regresi ganda (Multiple Regression Analysis). Sebagai catatan: baik analisis regresi sederhana maupun analisis regresi ganda, keduanya berada dalam satu bendera yang sama yaitu Analisis Regresi. Jadi keduanya bukan merupakan teknik analisis yang berbeda, tetapi analisis yang sama hanya saja diterapkan pada situasi yang berbeda.

Pada dasarnya, pemikiran mengenai analisis regresi ganda ini merupakan perluasan dari prinsip-prinsip analisis regresi sederhana yang dibahas dalam postingan sebelumnya. Karena melibatkan lebih dari satu prediktor, tentu saja perhitungan dalam analisis regresi ganda akan lebih rumit.

Dalam beberapa hal saya masih menganggap perlu untuk menampilkan rumus-rumus untuk kepentingan memperoleh pemahaman bukan untuk perhitungan semata. Jadi kita masih akan bertemu dengan beberapa rumus yang mungkin agak rumit dalam postingan ini. Harap sabar ya…

Regresi Ganda dan Regresi dengan Satu Prediktor
Sebenarnya pemikiran mengenai analisis regresi ganda itu seperti melakukan beberapa kali analisis regresi, satu kali untuk tiap prediktor. Analisis regresi ganda menjadi lebih rumit karena seringkali kedua prediktor memiliki hubungan yang mempengaruhi hubungan tiap prediktor dengan kriterion. Hal ini yang membuat hasil analisis regresi dengan menggunakan lebih dari satu prediktor akan berbeda dengan analisis regresi untuk tiap prediktornya. Perbedaan muncul misalnya dalam hasil estimasi b dan R2 nya.

Baiklah saya akan berikan contoh untuk ilustrasi poin ini. Contoh yang saya berikan adalah ketika kedua prediktor memiliki korelasi yang sangat kecil dan hampir nol (sebenarnya saya ingin membuatnya benar-benar nol tapi agak sulit sepertinya). Anggaplah ada dua prediktor yaitu a dan b dan satu kriterion c. Yang pertama saya melakukan analisis regresi dengan melibatkan satu prediktor saja. Hasil analisis dengan menggunakan SPSS 16 dapat dilihat sebagai berikut:

Gambar 1. R kuadrat dengan melibatkan a saja

Gambar 2. R kuadrat dengan melibatkan b saja

Gambar 3. R kuadrat dengan melibatkan a dan b

Dari ketiga tabel di atas dapat dilihat bahwa nilai R kuadrat yang dihasilkan dari analisis regresi yang melibatkan dua prediktor kurang lebih adalah jumlah dari R kuadrat dari analisis regresi untuk tiap prediktornya: 0.549 =0.478+0.070.
Gambar 4. nilai slope dengan melibatkan a saja
Gambar 5. nilai slope dengan melibatkan b saja
Gambar 6. nilai slope untuk tiap variabel dengan melibatkan a dan b

Dari gambar 4 sampai 6, dapat kita lihat bahwa besarnya slope untuk tiap variabel kurang lebih sama antara slope yang didapatkan dari hanya melibatkan satu prediktor dengan slope yang didapatkan dari dua prediktor.

Hal ini terjadi karena bagian dari variasi d yang dijelaskan oleh a adalah murni bagian yang terpisah dari bagian variasi d yang dijelaskan oleh b, karena kedua prediktor tersebut tidak berkorelasi. Begini gambarnya:

Gambar 7. Ilustrasi regresi dengan dua prediktor yang tidak saling berkorelasi.

Tentu saja kita akan sangat jarang berhadapan dengan situasi ini. Situasi lain yang lebih sering dijumpai dalam penelitian adalah ketika kedua prediktor saling berkorelasi. Korelasi dua prediktor ini mengakibatkan bagian dari variasi kriterion yang dijelaskan oleh prediktor yang satu bukan merupakan bagian yang murni terpisah dari bagian yang dijelaskan prediktor lain atau dengan kata lain ada overlap antara bagian yang dijelaskan oleh a dan b. Oleh karena itu bagian ini perlu diidentifikasi agar tidak terhitung ulang (lihat gambar 8.).

Gambar 8. Ilustrasi analisis regresi yang melibatkan dua prediktor yang berkorelasi

Estimasi Parameter dalam Regresi Ganda
Seperti yang dijelaskan sebelumnya, estimasi parameter dalam regresi ketika melibatkan lebih dari dua prediktor, perlu memperhitungkan korelasi antar prediktor. Ini tercermin dalam rumus-rumus untuk mencari tiap parameter.
Dalam artikel ini, penjelasan analisis regresi ganda melibatkan hanya dua prediktor saja demi kemudahan pemaparan. Oleh karena itu rumus dari garis prediksi yang akan dicari adalah
Slope
Rumus untuk mencari b1 maupun b2 mirip. Dapat dilihat sebagai berikut:
Dapat dilihat dalam kedua rumus di atas, bahwa nilai b selalu didapatkan dari korelasi antara variabel yang dicari b-nya dengan variabel dependen (ry1), yang kemudian dikoreksi dengan korelasi antara variabel independen lain dengan variabel dependen (ry2) dan korelasi antar variabel independen (r12).

Nah ketika korelasi antar variabel independen tidak sama dengan nol, maka dapat dikatakan korelasi ini ‘dibersihkan’ (partialed out) dari perhitungan nilai b atau dengan kata lain dikendalikan atau dikontrol. Oleh karena itu nilai b dalam analisis regresi ganda diinterpretasi sebagai “kenaikan nilai prediksi Y untuk setiap poin kenaikan nilai X dengan mengendalikan nilai variabel independen lain”. Atau “kenaikan nilai prediksi Y untuk setiap poin kenaikan nilai X jika nilai variabel independen lain tetap”. Dari sinilah kemudian ide mengenai korelasi parsial dan semi parsial muncul, yaitu korelasi antara dua variabel dengan mengendalikan (partial out) variabel lain.

Ketika korelasi antar variabel independen sama dengan nol (r12=0), maka akan terjadi :
Jika kita lihat rumus b1 ini sama dengan rumus b1 pada analisis regresi dengan menggunakan satu prediktor saja, ini diakibatkan tidak ada korelasi yang ‘dibersihkan’ dari perhitungan nilai b, karena tidak ada korelasi antar variabel independen.

R kuadrat.
Perhitungan R kuadrat dalam regresi ganda dapat dilakukan dengan banyak cara. Cara pertama dilakukan dengan menjumlahkan R kuadrat untuk tiap korelasi antara variabel independen dengan variabel dependen, lalu dikoreksi.
Rumus di atas juga menunjukkan bahwa R kuadrat dari garis regresi ganda merupakan jumlah r kuadrat tiap variabel yang dikoreksi atau ‘dibersihkan’ dari korelasi antar variabel independen. Jika r12 = 0 makaSelain cara pertama itu, cara lain yang terhitung mudah adalah dengan mencari koefisien korelasi antara prediksi y dengan y dari data penelitian. Koefisien korelasi yang didapatkan kemudian dikuadratkan. Cara kedua ini dapat dinyatakan dalam bentuk seperti berikut:Regresi Ganda dalam SPSS
Saya tidak akan memberikan contoh pengerjaan rumus-rumus di atas secara manual…
“Yaaah…..”, begitu mungkin terdengar dari kejauhan sana.
Ya … ya … saya bisa memahami kekecewaan anda semua. Tapi saya melakukannya demi kebaikan kita semua (hmm… mulai tercium bau keangkuhan dan hawa kesombongan…). Selain karena membutuhkan kesabaran dan ketelitian ekstra, saya juga menghindari tampilan yang mengerikan dari perhitungan statistik dengan harapan mengurangi pengalaman traumatik berurusan dengan statistik …(hehe… lebai banget…). Saya juga merasa jauh lebih penting memfokuskan pada pemahaman konsep daripada penguasaan hitung-hitungannya, jadi dalam kesempatan ini mari kita segera beralih pada contoh regresi ganda dalam SPSS…. (Mari…. ).
Contoh: Sebuah penelitian dilakukan untuk mengetahui korelasi dari nilai IPK mahasiswa dengan dua variabel lain yaitu nilai Tes Seleksi Masuk I dan Tes Seleksi Masuk II. Penelitian ini juga ditujukan untuk menemukan garis regresi untuk melakukan prediksi nilai IPK seorang mahasiswa berdasarkan informasi dari nilai Tes Seleksi Masuk I dan II.
Baiklah, langkah pertama adalah dengan membuka data dalam SPSS tentu saja. Yang diikuti dengan klik menu Analyze-Regression-Linear sehingga muncul dialog box seperti ini (gambar 9.)
Gambar 9.

Variabel Indeks Prestasi Kumulatif dimasukkan ke dalam kotak Dependent sementara Tes Seleksi I dan Tes Seleksi II dimasukkan ke dalam kotak Independent(s). Kemudian klik OK, sehingga ditampilkan hasil seperti berikut (gambar 10, 11,12):
Gambar 10.

Pada Gambar 10. ditampilkan tabel yang memberikan informasi mengenai besarnya R dan R kuadrat. R merupakan korelasi majemuk (multiple correlation) dari kedua variabel independen dengan variabel dependen. R kuadrat (R square) memberikan gambaran seberapa baik garis regresi dapat memberikan prediksi variabel dependen. Dalam hal ini 14% dari variasi variabel dependen yang dapat diprediksikan oleh garis regresi dengan menggunakan kedua tes seleksi sebagai prediktornya.
Gambar 11.

Tabel dalam gambar 11, memberikan informasi mengenai signifikasi nilai R atau dapat juga dianggap sebagai uji hipotesis terkait dengan parameter-parameter regresi. Dalam tabel ditemukan nilai p (sig.) lebih kecil dari 0.05. Ini berarti nilai R secara signifikan berbeda dari 0 di populasi. Atau dapat juga diinterpretasi bahwa menggunakan garis regresi memberikan informasi lebih baik dibandingkan hanya dengan menggunakan mean dari variabel dependen. Interpretasi lain terkait dengan parameter, yaitu paling tidak ada satu nilai b yang signifikan. Jika kita membagi JK (Sum of Squares) dari Regression dengan JK dari Total, akan ditemukan nilai yang sama dengan R kuadrat.
Gambar 12.

Tabel berikutnya dalam gambar 12. memberikan informasi mengenai besarnya slope dan intercept serta signifikasi dari tiap koefisien tersebut. Slope untuk Tes Seleksi I adalah 0.049 sementara Tes Seleksi II adalah 0.090. Intercept dari persamaan garis regresi ini adalah 1.932. Semua parameter tersebut signifikan dengan taraf 5%. Ini berarti garis regresi untuk memprediksi IP Kumulatif mahasiswa adalah sebagai berikut:

Arti dari slope untuk Tes Seleksi masuk : dengan mengendalikan nilai Tes Seleksi II, tiap kenaikan satu poin dalam Tes Seleksi I akan diikuti oleh prediksi IPK sebanyak 0.049 poin. Atau : kenaikan 1 poin nilai Tes seleksi I akan diikuti oleh kenaikan prediksi IPK, jika nilai Tes Seleksi II tetap.
Baiklah demikian kiranya pembahasan mengenai analisis regresi ganda. Tentu saja banyak bunga-bunga di sekitar analisis regresi ganda ini yang belum bisa dibahas dalam postingan ini.

Senin, Mei 18, 2009

Analisis Regresi

Hmm…. Akhirnya kita sampai juga di sini. Analisis Regresi. Analisis ini cukup populer dalam penelitian-penelitian baik di psikologi, ekonomi atau biologi. Varian nya juga banyak. Dari analisis regresi yang biasa sampai antar waktu sampai regresi kuantil. Dalam kesempatan ini, kita akan ngobrolin tentang analisis regresi yang biasa dilakukan dalam penelitian psikologi. Beberapa menyebutnya Analisis Regresi Ordinary Least Square atau Conditional Mean Regression, atau ya yang kita sering sebut dengan Analisis Regresi.
Analisis Regresi itu untuk apa?

Analisis regresi sebenarnya sangat dekat dengan teknik korelasi. Beberapa penulis seperti Pedhazur (1997) membedakan dua model ini dan cenderung memandang analisis regresi lebih superior. Terlepas dari pendapat itu, analisis regresi memang dapat memberikan informasi lebih banyak daripada korelasi, yaitu prediksi.
Salah satu hasil dari analisis regresi adalah garis regresi atau garis prediksi. Setelah kita mendapatkan garis regresi ini, kita dapat melakukan prediksi mengenai besarnya skor variabel dependen berdasarkan besarnya skor dari satu atau lebih variabel independen. Selain itu kita juga dapat mengukur seberapa tepat prediksi yang kita lakukan dengan garis prediksi yang kita dapatkan.
Jadi analisis regresi itu untuk apa? Analisis regresi dilakukan jika kita ingin mengetahui kondisi hubungan antar variabel. Biasanya satu variabel dependen dengan satu atau lebih variabel independen. Jenis data dari variabel dependen biasanya berupa data kontinum. Sementara jenis data dari variabel independen dapat berupa data kontinum maupun kategorik. Analisis regresi juga dilakukan jika kita ingin mendapatkan garis regresi untuk melakukan prediksi dan memperoleh informasi mengenai seberapa baik prediksi dilakukan dengan garis tersebut.
Artikel ini akan membahas materi mengenai analisis regresi sederhana, yaitu hubungan antara satu variabel dependen dengan satu variabel independen. Konsep mengenai analisis regresi sederhana ini dapat diterapkan ke analisis regresi dengan lebih dari satu variabel independen. Analisis regresi dengan lebih dari satu variabel independen akan dibahas dalam postingan sendiri.

Scatter Plot
Jika kita membicarakan korelasi atau regresi sederhana, kita tidak dapat melepaskan diri dari scatter plot. Scatter plot berupa grafik yang menggambarkan hubungan antara dua variabel. Sesuai namanya, scatter plot berisi titik-titik (plots) yang tersebar (scatter) dalam suatu grafik. Penentuan posisi satu titik didasarkan pada besarnya nilai dari variabel independen dan dependen. Biasanya variabel independen akan digambarkan dengan sumbu x sementara variabel dependen pada sumbu y.
Baiklah, untuk lebih jelasnya kita lihat contoh berikut:

Tabel 1.
Data Kasus
Tabel 1. merupakan data dari sepuluh orang siswa yang diberi tes numerik dan kemudian dilihat nilai ulangan matematikanya. Jika dilihat sepintas rasanya kedua data itu saling terkait. Hmm…. Bagaimana jika kita lihat scatter plotnya saja? Begini caranya:
Pertama, kita buat dulu dua sumbu yang saling tegak lurus. Satu sumbu Y satu sumbu X. Sumbu X merupakan sumbu yang horizontal dan Y yang vertikal.
Kedua, kita buat skala untuk tiap sumbu dimulai dari nilai terkecil untuk tiap variabel dikurangi 1. Jadi misalnya untuk variabel tes numerik, yang akan menjadi sumbu X, kita mulai sumbu X ini dengan angka 5.
Ketiga, kita letakkan setiap poin dalam grafik tersebut berdasarkan nilainya pada sumbu X dan sumbu Y. Misalnya untuk poin pertama, kita meletakkan pada grafik dengan koordinat (6,7).
Hasil dari grafik tersebut adalah scatter plot seperti yang terlihat pada gambar 1. berikut:

Gambar 1.
Scatter Plot
Jika dilihat sepintas kita bisa melihat bahwa titik-titik tersebut memiliki pola yang cenderung naik. Ini berarti semakin besar nilai variabel independen, nilai variabel dependen juga akan naik. Ya… ya ini berarti ada korelasi yang positif antara variabel independen dan variabel dependen. Jika kita hitung angka korelasinya menggunakan rumus korelasi product momen, kita akan mendapatkan angka 0.446.
Well, selesai sudah tugas kita jika ketertarikan kita hanya ingin melihat keeratan hubungan antar variabel. Tetapi jika kita ingin melakukan prediksi variabel dependen dari variabel independennya, kita membutuhkan informasi lebih banyak dari ini, informasi mengenai garis regresi yang dinyatakan dalam bentuk persamaan Prediksi Y=a +bX. Prediksi Y adalah prediksi variabel dependen dengan menggunakan informasi dari variabel dependen, a merupakan intercept, b merupakan slope.

Garis Regresi
Jadi bagaimana kita mendapatkan garis regresi ini? Sebenarnya kalau pertanyaannya hanya sampai di sana, jawabannya mudah. Buat saja sebuah garis yang menurut kita mewakili scatter plot dalam gambar 1. “Yang manapun?” tanya seseorang mungkin. “Ya yang manapun”, jawab saya. Loh tapi kok di buku-buku itu rumus-rumusnya beribet banget?
Karena dalam buku-buku tersebut, garis regresi yang ingin didapatkan harus memiliki kriteria khusus. Garis regresi ini harus menghasilkan kesalahan prediksi paling kecil dibandingkan semua garis regresi yang mungkin dibuat.
“Kesalahan prediksi?”
Ya kesalahan prediksi. Tentu saja kita menginginkan prediksi kita tepat 100%, namun demikian dalam dunia nyata sulit sekali mendapatkan ketepatan prediksi sesempurna itu. Oleh karena itu pasti akan ada kesalahan prediksi. Misalnya kita buat saja sebuah garis regresi Prediksi dari Y=2*X. Jika ini diterapkan pada data kita sebelumnya, maka hasilnya akan seperti di tabel 2.

Tabel 2.
Tabel hasil prediksi dan kesalahan prediksi Y dari X
Prediksi dari Y adalah hasil perhitungan menggunakan garis prediksi yang kita tetapkan. Y – prediksi Y merupakan kesalahan prediksi yang kita lakukan jika kita menggunakan garis regresi yang kita tetapkan tadi.
Nah, tiap garis prediksi yang mungkin dibuat tentu saja memiliki kemungkinan salah prediksi. Dari semua garis prediksi yang mungkin dibuat, kita memilih satu yang menghasilkan kesalahan prediksi terkecil.
“Sebentar…sebentar… apa ini berarti kita harus menggambar banyak garis prediksi?”
Ya! Hehe…maaf bercanda… tidak kok. Kita tidak harus menggambar semua garis prediksi itu dan menghitung satu-satu seperti tadi. Ada sebuah teknik estimasi untuk mencari garis prediksi terbaik dalam arti memiliki kesalahan prediksi terkecil, yaitu Least Square Estimation atau sering dikenal dengan Ordinary Least Square. Dalam hal ini yang ingin dicari adalah garis prediksi yang menghasilkan jumlah kesalahan prediksi terkecil dalam bentuk kuadrat atau dirumuskan seperti ini:
“Tapi ini masih berarti kita perlu mencari nilai ini untuk setiap garis… ini berarti kita masih tetap perlu menghitung satu-satu…”
Tenang… tenang…Kita akan menghitung satu-satu seandainya di dunia ini tidak ada Calculus.
“Bagaimana mungkin tokoh komik temannya Tintin menyelesaikan masalah ini?”
Sabar… sabar… yang saya maksud bukan tokoh komik, tapi calculus dalam matematika. Dengan memanfaatkan calculus kita dapat mencari garis regresi yang akan memberikan nilai kesalahan prediksi kuadrat yang terkecil. Di sini saya tidak akan cerita bagaimana si calculus bekerja, tetapi dengan menggunakan calculus ini ditemukan bahwa ternyata garis regresi akan menghasilkan kesalahan prediksi kuadrat terkecil jika
Yaitu jika Prediksi dari Y merupakan mean dari Y untuk setiap nilai dari X. Mean yang dimaksud di sini adalah mean populasi. Inilah sebabnya mengapa Ordinary Least Square regression juga sering disebut sebagai conditional mean regression, atau teknik regresi yang didasarkan pada mean kondisional, atau mean dari Y untuk setiap nilai X.

Parameter-Parameter Garis Regresi
Lalu bagaimana rumus untuk menemukan garis regresi yang akan menghasilkan kesalahan prediksi kuadrat yang terkecil?
Kita perlu mencari satu demi satu parameter dari garis regresi kita. Parameter-parameter yang saya maksud adalah intercept dan slope seperti yang telah saya sebutkan di atas.
Intercept merupakan konstanta dalam persamaan regresi. Intercept sering dilambangkan sebagai a atau b0, yang merupakan nilai dari prediksi Y jika nilai dari X adalah nol (X=0). Intercept dapat memiliki makna praktis dalam suatu penelitian, tetapi dalam penelitian lain hanya memiliki makna matematik saja. Misalnya dalam suatu penelitian untuk menghubungkan jumlah jam latihan fisik dengan peningkatan berat badan per minggu ditemukan intercept sebesar 0.4 gram. Ini berarti jika seseorang tidak melakukan latihan fisik sama sekali, ia akan mengalami peningkatan sebesar 0.4 gram per minggu. Tetapi dalam contoh kasus kita, misalnya ditemukan intercept sebesar 0.5 tidak dapat dikatakan bahwa jika seseorang tidak memiliki kemampuan numerik, maka nilai matematika nya akan sama dengan 0.5. Dalam kasus terakhir, intercept hanya memiliki makna matematis saja.
Slope merupakan tingkat kemiringan garis regresi, yang juga berarti berapa banyaknya peningkatan Y jika X meningkat sebanyak 1 poin. Misalnya saja dalam persamaan Y = 2X, ini berarti peningkatan 1 poin dari X akan diikuti peningkatan sebanyak 2 poin dari Y.
Lalu bagaimana menghitung kedua parameter ini?
Untuk menghitung Slope kita gunakan rumus ini:
Dapat dilihat di sini bahwa rumus mencari slope ini mirip sekali dengan rumus mencari korelasi product momen. Bedanya terletak pada penyebutnya. Pada rumus korelasi, KovarianXY dibagi standard deviasi dari X dan standard deviasi dari Y, sementara ketika menghitung slope, kita membagi kovarian ini dengan varian dari X.
Sementara untuk menghitung intercept kita menggunakan rumus ini:
Baiklah kita bisa menggunakan contoh tadi untuk ilustrasinya.
Jadi kita temukan b = 0.217 ini berarti peningkatan sebanyak 1 poin pada kemampuan numerik, akan diikuti dengan peningkatan sebanyak 0.217 poin pada nilai matematika. Dan intercept sebesar a = 6.471 yang dalam kasus ini tidak memiliki makna praktis. Jika digambar, garis regresi yang kita dapatkan itu akan terlihat seperti gambar 2. Garis regresi inilah yang memiliki tingkat kesalahan prediksi kuadrat yang paling kecil.

Gambar 2.
Garis regresi dari data kasus
R2 dan Signifikasi Parameter-Parameter
“Apakah pekerjaan kita sudah beres? Kan kita sudah menemukan garis prediksinya?”
Sayang sekali belum. Kita masih harus melakukan beberapa perhitungan terkait dengan seberapa baik garis regresi kita melakukan prediksi dan apakah parameter yang kita dapatkan ini berbeda dari nol di populasi atau signifikan.
Untuk urusan yang pertama, terkait dengan seberapa baik garis regresi kita melakukan prediksi, kita dapat menggunakan nilai R2 yang sering disebut juga sebagai Sumbangan Efektif. Dalam kasus ini, kita hanya meregresikan satu variabel dependen pada satu variabel independen, oleh karena itu nilai R2 bisa didapatkan dengan secara langsung mencari kuadrat dari korelasi antara kedua variabel tersebut. Nilai korelasi product momen dari kedua variabel tersebut adalah 0.446. Angka ini tinggal dikuadratkan saja menjadi 0.199 yang berarti 19.9% variasi dari variabel dependen dapat dijelaskan oleh variabel independen. Angka inilah yang menggambarkan seberapa baik prediksi dilakukan oleh garis regresi. Semakin mendekati 100% makin baik. Memang dalam penelitian-penelitian di psikologi jarang ditemukan R2 yang besar. Angka 19.9% biasanya dianggap sudah cukup memuaskan.
Berikutnya terkait dengan apakah kita dapat menyimpulkan bahwa parameter-parameter di populasi tidak sama dengan nol? Apakah b di populasi dan a di populasi tidak sama dengan nol. Untuk mengecek hal ini, pertama yang perlu dilakukan adalah menghitung nilai F yang menguji secara keseluruhan parameter-parameter ini. Nilai F ini juga dapat digunakan untuk menguji apakah nilai R2 yang kita peroleh juga signifikan.
Jadi bagaimana melakukannya?
Pertama, kita perlu menghitung JK Regresi, JK dalam dan JK Total. Seperti Anova ya? Ya memang benar. Langkah-langkah yang dilakukan memang seperti anova karena kita juga akan melakukan uji F di sini (Bahkan sebenarnya Regresi dan Anova merupakan saudara dekat). Rumus untuk setiap JK dapat dilihat sebagai berikut:
“Sebentar…sebentar…. Rumus JK dalam ini seperti ….seperti…”
Ya… ya …. JK dalam itulah kesalahan prediksinya dalam bentuk kuadrat.
Ketiga JK ini akan distandardkan dengan membaginya dengan db masing-masing yang rumusnya sebagai berikut:
Hasil pembagian JK dengan db ini akan menghasilkan nilai MK (Mean Kuadrat). Nilai F didapatkan dari pembagian MK regresi dengan MK dalam atau :
Nah, nilai F ini yang kemudian kita konsultasikan ke tabel F untuk dicek signifikasinya.
Baiklah kita kerjakan contoh kasus kita supaya jelas penerapan rumus-rumus ini ya. Saya membuat lagi sebuah tabel yaitu Tabel 4 untuk membantu ilustrasi hitungan dalam kasus ini.

Tabel 4.
Ilustrasi hitungan.
Dalam ilustrasi tersebut prediksi dari Y ( ) dihitung menggunakan garis regresi yang sudah kita dapatkan yaitu Y=6.471+0.217*X. Baris paling akhir, yaitu baris jumlah, merupakan nilai JK dari JK dalam, JK regresi dan JK Total berturut-turut. Kita bisa amati juga bahwa JK dalam +Jk regresi akan sama dengan JK Total.

Perhitungan berikutnya yaitu db dan MK akan saya masukkan sekaligus dalam tabel rangkuman anava dalam tabel 5.

Tabel 5.
Tabel rangkuman anava
Karena F tabel > daripada F hitung, maka dapat disimpulkan bahwa kita gagal menolak hipotesis nol. Ini berarti R2 yang kita dapatkan di sampel besar kemungkinan hanya merupakan sampling error.

Lalu bagaimana dengan signifikasi parameter-parameternya? Kita akan memanfaatkan uji t untuk menguji apakah parameter-parameter regresi yang kita dapatkan itu signifikan atau tidak.
Seperti yang pernah dibahas jauh sebelum ini, rumus t yang sangat umum adalah
Dalam hal ini statistik yang menjadi perhatian adalah b, oleh karena itu rumus t-nya akan menjadi seperti ini:
Jadi mari kita terapkan dalam kasus di atas :
Nilai t yang kita dapatkan ini dibandingkan dengan tabel t pada df = N-2. Dalam hal ini df-nya menjadi 7. Nilai t tabel dengan taraf signifikasi 5% pada df = 7 adalah 2.3646… Dengan demikian dapat kita lihat bahwa b yang kita peroleh tidak signifikan. Atau dengan kata lain kita tidak memiliki bukti kuat untuk menyatakan bahwa nilai b di populasi tidak sama dengan nol.

Untuk a, rumusnya t nya tetap sama, hanya saja ada penyesuaian dengan standard deviasi dari a-nya. Rumus mencari nilai t untuk menguji a sebagai berikut:
Jika diterapkan:
Nilai ini juga dibandingkan dengan t tabel yang sama yaitu 2.3646. Dengan demikian dapat disimpulkan bahwa nilai a itu signifikan, atau nilai a di populasi dapat diharapkan tidak sama dengan nol.
Jadi bagaimana?
Karena nilai b tidak signifikan maka dapat disimpulkan bahwa kita belum memiliki bukti yang memadai bahwa kemampuan numerik memiliki korelasi yang signifikan dengan nilai ulangan matematika. Dengan kata lain kita belum bisa memprediksi nilai ulangan dengan menggunakan skor pada tes kemampuan numerik.

Dalam kasus kita, nilai a signifikan, tapi sayangnya dalam kasus ini nilai a tidak memiliki makna praktis sehingga tidak dapat diinterpretasi dengan baik.

OK guys postingan berikutnya kita akan bicara mengenai regresi yang melibatkan lebih dari 1 variabel independen.

Jumat, Maret 27, 2009

Simple Effect, Contrast Analysis, dan Multiple Comparison dengan Menggunakan Syntax SPSS

tulisan ini merupakan bagian dari artikel yang awalnya hendak diterbitkan di salah satu jurnal. Tapi karena beberapa alasan yang menurut saya sendiri cukup adil, tidak dapat diterbitkan dalam jurnal tersebut. Karena saya sendiri merasa tulisan ini penting untuk dibagikan maka saya memutuskan untuk menuliskannya di blog ini.

Analisis menggunakan menu yang tersedia di SPSS (SPSS Inc., 2007a) memiliki keterbatasan. Peneliti tidak dapat melakukan kustomisasi analisis jika dikehendaki. Hal ini mengakibatkan perlu melakukan beberapa langkah-langkah yang merepotkan untuk mendapatkan hasil analisis seperti simple effects atau perbandingan antar pasangan mean antar level dalam suatu variabel independen pada satu level variabel independen yang berbeda atau disebut uji-t interaksi (Hadi, 2005). Misalnya jika kita memiliki dua variabel independen yaitu metode belajar dan jenis kelamin, maka membutuhkan langkah-langkah yang merepotkan untuk melakukan perbandingan mean antar metode pada jenis kelamin laki-laki saja.

Syntax dalam SPSS diberikan untuk mengatasi keterbatasan-keterbatasan seperti ini. Peneliti perlu untuk menulis sendiri baris perintah yang biasanya tidak terlihat ketika melakukan perintah melalui menu dalam SPSS. Baris perintah yang dibutuhkan untuk melakukan seluruh analisis dapat didapatkan ketika peneliti menekan tombol paste dalam kotak dialog utama di setiap analisis. Baris perintah ini perlu ditambahkan beberapa perintah lagi untuk dapat melakukan analisis simple effects dan multiple comparison.
Keseluruhan baris perintah diberikan dalam lampiran 1. Tulisan ini hanya memfokuskan pada baris perintah yang perlu diberikan untuk mengeluarkan hasil analisis simple effects dan multiple comparison. Baris perintah tambahan yang diperlukan untuk menampilkan simple effects ini adalah /lmatrix (SPSS Inc., 2007b).

Perintah /lmatrix ini akan meminta SPSS (SPSS Inc., 2007a) untuk melakukan analisis tambahan dengan membandingkan mean antar sel hasil pertemuan antara dua atau lebih variabel independen. Format umum dari perintah ini adalah:

/LMATRIX = “label dari analisis yang kita lakukan”
analisis yang diminta dalam bentuk kode matriks.

Contoh: jika kita hendak melakukan analisis simple effects pada jenis kelamin perempuan maka baris perintah dari /lmatrix ini :

Kelompok merupakan variabel independen yang terdiri dari 3 kelompok siswa yang diberi metode pembelajaran yang berbeda, sementara jenkel merupakan variabel independen yang terdiri dari 2 kelompok jenis kelamin. Kode 1, -1 dan 0 merupakan perintah yang diberikan pada SPSS (SPSS Inc., 2007a) untuk melakukan perbandingan mean pada level tertentu. Kalimat di dalam tanda petik (“) akan dianggap sebagai judul. Pada bagian Kelompok 1 0 -1, perintah diberikan pada SPSS (SPSS Inc., 2007a) untuk membandingkan kelompok pertama dan ketiga. Bagian Kelompok*jenkel 0 1 0 0 0 -1, memberikan perintah pada SPSS untuk memberitahu kelompok pertama dan ketiga dari jenis kelamin yang mana yang dibandingkan. Dalam contoh, perintah diberikan untuk membandingkan kelompok satu dan tiga pada jenis kelamin perempuan. Kode-kode tersebut sebenarnya mewakili sel-sel yang terbentuk karena ada lebih dari satu variabel independen. SPSS membaca sel-sel ini dengan cara yang khusus seperti berikut:
Jika kode itu diaplikasikan pada tabel di Gambar 1., ini berarti kelompok 1 berjenis kelamin laki-laki mendapat nilai 0, kelompok 1 yang berjenis kelamin perempuan mendapat nilai 1, kelompok 2 laki-laki mendapat 0, kelompok 2 perempuan mendapat 0, kelompok 3 laki-laki mendapat 0 dan kelompok 3 perempuan mendapat -1. Ini berarti kita memerintahkan SPSS (SPSS Inc., 2007a) untuk membandingkan kelompok 1 perempuan dengan kelompok 3 perempuan.

Tanda titik koma (;) di akhir baris pertama dan kedua, hendak memberitahu bahwa perintah yang diberikan belum berakhir. Perbandingan mean yang lain diperlukan agar SPSS (SPSS Inc., 2007a) dapat menghitung secara lengkap simple effects pada jenis kelamin perempuan. Simple effects yang lengkap berarti kita akan membandingkan tiap kelompok dengan kelompok lain untuk satu jenis kelamin. Ini berarti perbandingan pasangan mean dilakukan antara kelompok 1 dan 2, 1 dan 3, 2 dan 3 hanya untuk jenis kelamin perempuan saja. Perbandingan pasangan mean lainnya ditulis dalam baris kedua dan ketiga.

Jika peneliti menghendaki perbandingan pasangan lain atau analisis kontras lainnya, baris perintah yang baru yang diawali dengan /lmatrix perlu ditulis untuk setiap analisis kontras.
Penulisan baris perintah /lmatrix dapat juga dilakukan dengan format sebagai berikut (mengikuti contoh simple effects) :

Baris perintah ini menambahkan kata ALL (SPSS Inc., 2007b) di awal tiap baris. Kata ini memberi tahu SPSS (SPSS Inc., 2007a) bahwa perintah yang diberikan akan diberikan dalam urutan yang memasukkan semua parameter yang diestimasi.

Baris pertama, setelah kata ALL merupakan kode untuk intercept. Baris berikutnya adalah kode untuk variabel kelompok. Baris ketiga merupakan kode untuk variabel jenis kelamin dan baris terakhir merupakan kode untuk tiap sel akibat interaksi antara dua variabel. Format ini akan berguna ketika peneliti hendak membandingkan mean antar kelompok yang berbeda levelnya pada dua variabel. Misalnya peneliti hendak membandingkan Kelompok 1 Laki-laki dengan Kelompok 3 Perempuan, maka baris perintah akan diberikan seperti berikut:

Baris pertama memberitahu SPSS (SPSS Inc., 2007a) bahwa kita tidak akan membandingkan intercept (dalam hal ini mean secara keseluruhan). Baris kedua memberitahu SPSS (SPSS Inc., 2007a) untuk membandingkan kelompok 1 dan kelompok 3. Baris ketiga memberitahu SPSS (SPSS Inc., 2007a) bahwa kita juga hendak membandingkan antar jenis kelamin. Baris terakhir memberitahu SPSS bahwa kita hendak membandingkan mean antara kelompok 1 laki-laki dan kelompok 3 perempuan.

MEMBACA HASIL ANALISIS SIMPLE EFFECTS DAN MULTIPLE COMPARISON MENGGUNAKAN SYNTAX


Hasil analisis menggunakan /lmatrix memang akan terasa terlalu banyak. Namun demikian, tampilan yang diberikan memiliki manfaat untuk mengecek kebenaran hasil analisis yang telah dilakukan: apakah SPSS (SPSS Inc., 2007a) telah melakukan analisis seperti yang diinginkan.
Tabel pertama yang disajikan oleh SPSS (SPSS Inc., 2007a) terkait dengan analisis ini memberikan gambaran global mengenai analisis apa saja yang telah dilakukan oleh SPSS (SPSS Inc., 2007a). Tabel ini dapat dilihat di lampiran 2.

Tabel kedua dapat dilihat dalam lampiran 3, berisi hasil analisis untuk tiap baris yang dilakukan. Misalnya, ketika melakukan analisis simple effects ada tiga baris perintah dituliskan. Baris pertama dalam contoh di atas membandingkan mean antara kelompok 1 perempuan dengan kelompok 3 perempuan. Oleh karena itu dalam tabel tersebut pada baris pertama diberikan hasil dari analisis perbandingan ini. Contrast estimate merupakan hasil perbandingan antara kelompok 1 dan 3 untuk jenis kelamin perempuan. Perbandingan di sini berarti mean dari kelompok yang mendapat nilai 1 (kelompok 1) dikurangi mean kelompok yang mendapat nilai -1.

Hypothesized value merupakan nilai yang menggambarkan hipotesis nol, dalam kasus ini hipotesis nol yang diajukan adalah tidak adanya perbedaan mean (hypothesized value = 0). Std Error merupakan standard deviasi dari perbedaan mean. Sig. merupakan nilai p yang didapatkan dari hasil analisis.
Baris berikutnya dari tabel tersebut memberikan hasil analisis dari baris berikutnya dalam perintah /lmatrix.

Tabel ketiga memberikan hasil analisis secara menyeluruh dari baris-baris perintah yang telah diberikan. Untuk kasus simple effects, ini berarti tabel terakhir inilah yang memberikan hasil analisis simple effects. Untuk kasus multiple comparison, hasil analisis dalam tabel kedua akan memberikan nilai p yang sama dengan hasil analisis dalam tabel ketiga ini, karena keduanya merupakan analisis yang sama hanya saja analisis pada tabel kedua menggunakana uji t sementara analisis kedua menggunakan uji F.

BEBERAPA HAL YANG PERLU DIPERHATIKAN
Ada beberapa hal yang perlu menjadi catatan. Pertama, hasil analisis menggunakan perintah /lmatrix ini tidak mengenal penyesuaian nilai p. Oleh karena itu penting bagi peneliti untuk menyesuaikan sendiri nilai p yang diperoleh dengan rumus seperti yang telah dicantumkan sebelumnya. Kedua, baris perintah /lmatrix dalam tulisan ini ditulis dengan menggunakan program SPSS versi 16 (SPSS Inc., 2007a), dan tidak selalu dapat diterapkan dalam versi-versi sebelumnya tanpa penyesuaian. Oleh karena itu penting bagi peneliti untuk mengecek kembali manual SPSS yang menyertai versi-versi lainnya.

KESIMPULAN
Hasil ANAVA belum memberikan informasi yang lengkap mengenai keadaan data penelitian. Oleh karena itu, analisis perlu dilanjutkan dengan menggunakan teknik-teknik tertentu untuk mengetahui lebih jauh keadaan data penelitian. Beberapa analisis yang dapat dilakukan antara lain : simple effects jika terdapat lebih dari satu variabel independen, perbandingan pasangan mean menyeluruh, analisis kontras kompleks, dan lain-lain.
SPSS (SPSS Inc., 2007a) menyediakan beberapa fasilitas untuk melakukan analisis-analisis tersebut. Analisis perbandingan pasangan mean menyeluruh dilengkapi pula dengan teknik-teknik untuk menyesuaikan nilai p akibat uji yang dilakukan secara terus-menerus. Selain analisis standard yang dapat dilakukan melalui kotak dialog yang tersedia, peneliti dapat melakukan uji lain yang disesuaikan dengan kebutuhan penelitian, termasuk di dalamnya analisis simple effects, dengan menggunakan fasilitas syntax. Hasil analisis dari syntax yang disajikan dalam tulisan ini perlu dicermati dalam arti peneliti perlu menyesuaikan terlebih dulu nilai p yang dihasilkan untuk mengatasi peningkatan error tipe I akibat uji hipotesis yang dilakukan secara terus menerus. Syntax yang disajikan dalam tulisan ini ditulis dalam program SPSS versi 16 (SPSS Inc., 2007a), sehingga peneliti perlu mengecek terlebih dulu kesamaan bahasa yang digunakan dalam versi lainnya.

Lampiran 1
Baris Perintah melakukan Analisis Varians beserta Simple Effects dan Multiple Comparison menggunakan Syntax SPSS

Lampiran 2
Tabel Pertama Hasil Analisis Simple Effects Menggunakan Syntax SPSS


Lampiran 3.
Tabel Kedua Hasil Analisis simple effects menggunakan Syntax SPSS

Daftar Pustaka

Aron. A. & Aron. E. N.(2003). Statistics for psychology. Upper Saddle River, NJ: Prentice Hall

Hadi.S. (2005) Aplikasi Ilmu Statistika Di Fakultas Psikologi. Anima, Indonesian Psychological Journal. Vol. 20 (3) : 203-229.

Howell.D.C.(1982).Statistical methods for psychology. Boston, MA: Duxbury Press.

Keppel, G & Wickens, T.D.(2004). Design and Analysis, A Researcher’s Handbook. Fourth Edition. Upper Saddle River : Pearson Prentice Hall.

Santoso. A. (2008). Anava Identity: Post Hoc dan Kontras (dan Usaha mengendalikan tipe error I). Retrieved February 26, 2009 from www.psikologistatistik.blogspot.com.

SPSS Inc. (2007). SPSS 16.0 for Windows. Chicago, IL : Author.

SPSS Inc.(2007). SPSS 16.0 Command Syntax Reference. Chicago, IL: Author.

Supratiknya. A.(2000). Statistik Psikologi. Jakarta : Grasindo

Analisis Varians Desain Faktorial di SPSS (bagian 2)

Dalam postingan ini saya akan membahas materi yang terkait dengan bagaimana melakukan simple effects dalam program SPSS. Pada dasarnya ada 2 cara melakukan simple effects dalam SPSS: cara yang mudah dan cara yang sulit. Memang sih mudah sulit itu tergantung pada the eye of the beholder...cie ileh... maksudnya tergantung yang lihat. Nah dalam artikel ini akan disajikan satu cara saja sementara cara yang lain akan ditulis dalam postingan berikutnya.

Menggunakan Analisis Varians 1 Jalur
Cara yang cukup mudah menurut saya, walaupun agak merepotkan (dan terkesan manual), adalah dengan menggunakan menu analisis varians 1 jalur di SPSS. Well, pada dasarnya analisis simple effects itu memang analisis 1 jalur, karena menghitung variasi mean ditinjau dari satu variabel independen saja. Perbedaannya terletak pada variasi errornya (JK dalam atau JK error atau SS error). Analisis varians 1 jalur, karena hanya memperhitungkan 1 variabel saja, maka variasi errornya akan cenderung lebih besar daripada simple effects yang juga memperhitungkan variasi yang dapat dijelaskan oleh variabel lain.
Baiklah, baiklah... kita beri contoh saja ya. Kita menggunakan contoh dalam postingan sebelumnya. Data yang digunakan juga sama agar kesinambungannya terjaga. Hasil dari analisis varians 2 jalur sebelumnya dapat dilihat di gambar 1 ini:
Gambar 1.
Dari hasil tersebut dapat dilihat bahwa ada interaksi antara variabel model pembelajaran dan jenis kelamin. Lebih lanjut kita ingin menguji apakah ada perbedaan prestasi belajar antara siswa laki-laki yang diberi metode pembelajaran yang berbeda. Oleh karena itu kita perlu melakukan simple effects.
Kita memulai analisis dengan memerintahkan SPSS untuk menyeleksi subjek-subjek yang akan dianalisis, dalam hal ini kita hanya ingin analisis dilakukan pada subjek siswa laki-laki saja. Kita klik menu Data-Select Cases... lalu muncullah dialog box seperti berikut:

Gambar 2.
Dalam dialog box ini kita pilih If condition is satisfied sehingga tombol If... menjadi terbuka. Kita klik tombol If... ini sehingga muncul dialog box kedua seperti gambar 3.
Gambar 3.
Dalam dialog box ini, kita pindahkan variabel Jenis Kelamin ke kotak di sebelah kanan. Kemudian kita tuliskan ”=1” di sebelah kanan Jenis Kelamin. Ini dilakukan karena kita ingin memilih subjek yang berjenis kelamin laki-laki saja (dalam data, jenis kelamin laki-laki itu diberi nilai 1 sementara perempuan =2). Contoh dapat dilihat dalam gambar 4.
Gambar 4.
Setelah kita tuliskan, kita klik Continue sehingga kita kembali pada dialog box sebelumnya, lalu kita klik OK. Kalau kita amati, dalam tampilan data editor, semua nomor kasus subjek dengan jenis kelamin perempuan akan diberi tanda garis diagonal ke arah kanan atas. Ini menunjukkan dalam analisis berikutnya SPSS hanya akan menyertakan subjek laki-laki saja.
Langkah berikutnya, kita melakukan analisis varians 1 jalur seperti biasa dengan Model Pembelajaran sebagai variabel Independennya (Factor), melalui menu Analyze-Compare Means-One Way Analysis of Variance. (Kalau ada yang lupa bisa lo baca artikel-artikel sebelumnya mengenai analisis varians 1 jalur di SPSS). Hasil dari analisis varians 1 jalur ini sebagai berikut:
Gambar 5.
Angka yang kita butuhkan dari tabel ini hanyalah angka Mean Square Between Groups (MS between atau MK antar) yaitu 7.000. Nah angka inilah yang kemudian kita bagi dengan angka MK error dari hasil analisis varians 2 jalur dalam gambar 1 sebesar 1.444. Ini dia sisi manualnya. Hasil pembagian kedua angka ini menghasilkan angka F sebesar 4.848. Angka ini kemudian dikonsultasikan dengan tabel F dengan df pembilang sebesar 2 dan df penyebut sebesar 18. Atau kita bisa juga menggunakan program MS Excell untuk mendapatkan nilai p-nya dengan rumus

=FDIST(F hitung,df pembilang,df penyebut)
=FDIST(4.848,2,18)

Dari fungsi ini kita dapatkan nilai p sebesar 0.021. Ini berarti ada perbedaan prestasi belajar yang signifikan antara siswa laki-laki yang mendapat metode pembelajaran yang berbeda-beda.
Proses ini dapat dilakukan berulang-ulang untuk simple effects lainnya. Misalnya jika kita ingin melihat pengaruh metode pembelajaran terhadap prestasi hanya pada siswa berjenis kelamin perempuan.

Syntax SPSS
Selain menggunakan cara manual seperti di atas kita juga dapat melakukan simple effects dengan menggunakan Syntax dari SPSS. Syntax ini semacam ”bahasa”-nya SPSS dalam melakukan program. Kita dapat menambahkan beberapa perintah dalam syntax ini untuk meminta SPSS melakukan simple effects.
Caranya? Hmm... saya kebetulan pernah menulis satu tulisan untuk jurnal tertentu. Tapi karena ditolak untuk diterbitkan, saya pikir ada baiknya juga saya publikasikan di blog ini agar informasi di dalamnya tidak berhenti di meja saya. Jadi materi khusus mengenai cara melakukan simple effects dan juga multiple comparison dapat dilihat dalam artikel berikutnya.
Fiuhh.... Selesai sudah analisis varians desain faktorial.... Pembahasan sepertinya akan berlanjut ke Regresi. Caio Caio!