Selasa, Januari 08, 2008

Anava Identity : Varians (Part 1)

Saya pernah bertanya iseng di kelas Statistik,”Anava itu singkatan Analisis Varians berarti yang dianalisis kan varians nya. Tapi kok digunakan untuk menguji beda mean?” Pertanyaan itu jadi kuis dengan hadiah coklat. Sayang sekali coklatnya tidak jadi dibagi karena nggak ada yang jawab.

Menjawab pertanyaan ini sebenarnya sama saja dengan menjelaskan apa itu Analisis Varians. Dan semua berawal dari Varians itu sendiri, lebih tepatnya Varians dari Variabel Dependen.

Pada Awalnya: Variasi Variabel Dependen

Penelitian biasanya melibatkan satu atau lebih variabel. Variabel didefinisikan sebagai atribut yang dapat bervariasi. Namanya juga Vary-able, dapat bervariasi. Misalnya tinggi badan, ada yang tinggi ada yang pendek. Tinggi badan adalah variabel karena ia bervariasi. Variasi di sini dapat berarti variasi antara orang satu dengan yang lain, bisa juga antara orang yang sama dalam waktu yang berbeda. Variasi juga bisa terjadi antara kelompok satu dengan yang lain.

Nah mengapa variasi ini bisa terjadi? Mengapa tinggi badan orang-orang bisa bervariasi? Orang yang sama pada waktu yang berbeda juga memiliki variasi tinggi badan. Ketika kita masih usia 5 tahun, mungkin tinggi badan kita nggak lebih dari 1 meter. Sekarang kita mungkin punya tinggi badan yang lebih dari 1,5 meter.

Beberapa pertanyaan mengenai variasi ini menjadi pertanyaan yang cukup penting untuk dijelaskan sehingga menjadi kajian ilmu tertentu. Misalnya mengapa prestasi siswa bisa bervariasi? Adakah suatu penjelasan mengenai variasi ini? Kemudian psikologi pendidikan atau ilmu kependidikan berusaha mencari penjelasan mengenai variasi prestasi ini.

Kemudian misalnya, ada yang mengajukan teori bahwa prestasi siswa itu bervariasi karena jam belajar yang bervariasi. Siswa dengan jam belajar yang banyak biasanya prestasinya baik juga. Atau dengan kata lain orang ini menyatakan bahwa variasi prestasi itu mengikuti variasi jam belajar, bahkan jika ia cukup berani akan mengatakan variasi prestasi itu diakibatkan variasi jam belajar. Sementara yang lain berkata variasi prestasi itu mengikuti variasi model pembelajarannya. Dalam kelompok yang mengikuti model pembelajaran A, prestasi siswanya cenderung lebih tinggi daripada kelompok yang mengikuti model B. Orang yang lain lagi akan berkata variasi prestasi akan mengikuti variasi dari variabel lain lagi.

Jika digambarkan maka paragraf di atas akan tampak seperti ini:

Gambar 1.

Dalam gambar ini, tiap lingkaran mewakili variasi tiap variabel. Perpotongan antara dua lingkaran (yang berwarna-warni) merupakan variasi dari satu variabel yang mengikuti variabel lain. Perpotongan antara dua lingkaran ada yang besar dan kecil. Ini menggambarkan juga bahwa variasi prestasi siswa yang mengikuti variasi variabel ada yang besar dan kecil.

Selain perpotongan antara dua lingkaran, ada juga perpotongan tiga lingkaran (lihat bagian berwarna merah). Bagian ini merupakan perpotongan antara variasi prestasi siswa, jam belajar dan model pembelajaran. Apa maksudnya. Ini berarti ada sebagian variasi prestasi siswa yang mengikuti interaksi variabel model pembelajaran dan jam belajar. Untuk sementara diingat dulu saja ya. Saya akan jelaskan panjang lebar nanti ketika kita membahas desain faktorial.

Nah bagian dari variasi prestasi siswa yang tidak diwarnai merupakan variasi prestasi siswa yang tidak dapat dijelaskan oleh ketiga variabel. Bisa jadi variasi ini bisa dijelaskan variabel lain yang belum disebutkan, atau (beberapa ahli percaya) merupakan efek dari error yang bersifat random, tak ada variabel yang mampu menjelaskannya.

Lalu?

Jika variasi prestasi siswa yang mengikuti variasi variabel lain itu besar, bisa dibilang variabel ini cukup berperan dalam menjelaskan variasi prestasi siswa, dalam gambar misalnya variasi model pembelajaran. Jadi jika ada dua orang siswa yang berbeda prestasinya, kita bisa bilang bahwa mereka berdua memiliki kemungkinan besar mengikuti model pembelajaran yang berbeda. Anggaplah jika model A lebih baik, maka kemungkinan besar siswa yang memiliki prestasi lebih baik berasal dari kelompok yang mengikuti model A.

Nah jika kita memiliki cara untuk memilah variasi-variasi itu dari data kita, kita akan dapat menentukan mana variabel yang penting untuk menjelaskan variasi prestasi siswa. Hmmm… lalu gimana cara?

Varians sebagai ukuran Variasi

Sebelum melangkah lebih jauh… sepertinya memang kita tidak bisa melangkah lebih jauh sebelum membahas tema ini.Pertanyaan yang muncul berikutnya, gimana kita bisa tahu besarnya variasi kelompok? Apakah kita lihat satu-satu data kita? (saya bisa mendengar nada cemas nih). Nggak lah. Ada kok ukuran untuk menggambarkan variasi ini : Varians (sayang nggak ada musiknya, ini bisa diiringi musik misterius nih).

Sepertinya pernah denger atau baca? Iya di posting-posting terdahulu saya cukup banyak bicara ini. Karena kita akan banyak bicara analisis varians, maka varians ini yang akan jadi tema sentral.

“Maaf, Kang, Varians teh apa ya?” (Ini yang nanya dari jawa barat, blog ini dibaca sampe medan lo. Terima kasih untuk Pak Azuar di medan)

Varians itu sebenarnya rata-rata dari kuadrat jarak skor subjek dari mean kelompoknya. Agak susah bayanginnya ya? Bayangkan kita main lempar ladam (sepatu kuda). Peraturannya kita melempar ladam ini ke sebuah tonggak kayu yang jaraknya 5 meter dari tempat kita berdiri. Nah setelah semua peserta melempar, kita ukur jarak tiap ladam dari tonggak. Ada yang dekat, ada yang jauh seperti dalam gambar berikut.

Gambar 2.

Hasil pengukuran jarak tiap ladam dari tonggak ini kemudian dikuadratkan lalu dijumlahkan. Setelah itu kita membaginya dengan banyaknya ladam yang dilempar. Hasil baginya berupa rata-rata kuadrat dari jarak ladam dengan tonggaknya. Kalau dirumuskan bisa seperti ini:

Nah analogi ini kita terapkan pada varians menjadi:

Bagaimana menghitung jarak skor individu dari mean? Skor individu pada satu variabel akan digambarkan dalam satu garis lurus.

Gambar 3.

Jika begini keadaannya, bagaimana mengukur jarak skor individu dari mean? Aha! Kita tinggal mengurangi jarak skor individu dari nol dengan jarak mean dari nol. Jadi seperti ini:

Nah mari kita terapkan pada rumus tadi, sehingga menjadi begini:
Aaah sepertinya sering melihat rumus seperti ini di buku statistik bukan? Jika nanti bertemu dengan rumus ini lagi atau kata Varians, bayangkan gambar ladam tadi. Varians adalah rata-rata dari kuadrat jarak skor individu dari mean kelompoknya.

“Wah sorry, man. Tapi why, man ? (baca: kenapa harus dikuadratkan?)” (yang nanya anak gaul)

Gini coy…ups ketularan gaul. Kalo kita menghitung jarak skor dari mean kelompoknya, maka akan ada yang bernilai positif ada yang bernilai negatif. Nah kalo kita jumlahkan begitu saja, hasil penjumlahannya akan sama dengan nol. Jadi kesannya janggal, semua titik itu punya jarak dari meannya tapi kok jumlahnya nol? Kalo jaraknya nol harusnya kan jarak semua titik itu dari mean ya nol, atau tidak berjarak (tumpuk undhung). Tentu saja ini terjadi karena ada nilai positif dan negatif. Ada titik yang skornya berada di sebelah kiri ada yang di sebelah kanan dari mean. Untuk mengatasi ini ada dua cara, yaitu menghilangkan semua tanda dengan membuat nilainya absolut, atau dengan mengkuadratkannya.

Dengan beberapa alasan (untuk saat ini percaya dulu sama saya ya. Saya akan bahas mengenai alasan ini suatu hari nanti), para ahli memilih menggunakan cara mengkuadratkannya.

“Tapi Lo bakalan dapet ukuran dalam unit kuadrat, dong” (wah orang jakarte yang nanya).

Iye …duh ketularan lagi. Iya, varians memang ukuran variasi skor subjek dalam unit kuadrat. Jika kita menginginkan ukuran variasi skor subjek dalam unit satuan, kita tinggal menghitung akar dari variansnya. Nah ukuran ini yang kemudian disebut sebagai standard deviasi. (Saya bisa mendengar suara O panjang sekali). Begini rumusnya

Varians dalam Sampel

Yang saya sajikan di atas adalah menghitung varians dari populasi. Bagaimana jika kita ingin menghitung varians dari sampel. Apakah sama saja? Pada dasarnya sama. Hanya saja begini, jika varians yang kita hitung di sampel ingin dijadikan estimasi varians populasi, kita perlu sedikit mengubah rumusnya.

Masih ingat mengenai derajat kebebasan? Saya membahas hal ini dalam posting mengenai t-test. Tiap kali kita mengestimasi satu parameter, kita akan kehilangan satu derajat kebebasan. Di sini karena kita mengestimasi varians populasi dari varians sampel, kita kehilangan satu derajat kebebasan. Oleh karena itu sekarang kita tidak membagi jumlah kuadrat jarak skor dari mean dengan N tetapi dengan n-1. Rumusnya menjadi begini:

Nah varians yang dirumuskan seperti ini yang merupakan ukuran dari variasi skor subjek dalam suatu sampel tertentu.Standard deviasinya? Hmm tinggal mencari akar kuadratnya saja tentunya.

Mempartisi Varians dan Jumlah Kuadrat

Waduh apa pula ini? Seperti mempartisi harddisk saja?

Ya, yang bisa dipartisi ternyata nggak cuma harddisk aja. Mempartisi varians sebenarnya memiliki arti yang sama dengan berusaha menemukan besarnya perpotongan dua lingkaran dalam gambar 1. Kita berusaha memilah berapa besar variasi dari variabel dependen yang mengikuti variasi variabel lain. Misalnya berapa besar variasi variabel prestasi siswa yang mengikuti variasi model pembelajaran.

“Kepriben carane?”(yang nanya orang tegal).

Baiklah, sebelum membahas caranya, kita perkenalkan dulu satu ukuran variasi yang lain, yaitu Jumlah Kuadrat (Sum of Square), lengkapnya Jumlah dari Deviasi Kuadrat (Sum of Squared Deviation). Sebenarnya kita sudah bertemu dengan tamu kita ini, hanya saja tersembunyi dalam rumus Varians. Seperti namanya Jumlah dari Kuadrat Deviasi… Yak! Benar sekali! Jumlah Kuadrat ini adalah numerator (pembilang) dari rumus varians:

Ini adalah rumus umumnya, yang tentunya bisa diaplikasikan pada setiap situasi. Dengan mengaplikasikan satu rumus ini dalam setiap situasi, kita nggak perlu mengingat rumus yang sangat banyak yang ada di buku-buku. Cukup satu rumus ini untuk segala situasi. Hmm… tidak percaya? Akan saya buktikan.

Nah melalui JK (atau SS) inilah kita akan mempartisi variasi dari variabel dependen. Mengapa? (ini yang nanya saya sendiri). Karena SS memiliki sifat aditif yang tidak dimiliki oleh varians. Maksudnya dapat dijumlahkan dan dapat dikurangi satu sama lain di antara bagian-bagiannya. Jelasnya begini, kita lihat gambar berikut:

Gambar 2.

Lingkaran Variasi Model Pembelajaran digambar dengan garis putus-putus karena tidak menjadi fokus perhatian saat ini. Kita akan banyak memperhatikan Lingkaran Variasi Prestasi Siswa.

Keseluruhan lingkaran Variasi Prestasi Siswa ini merupakan variasi dari semua siswa yang diukur prestasinya, sering juga disebut sebagai Variasi Total. Jika kita menghitung JK-nya maka kita akan mendapatkan JK total (sounds familiar?). Nah keseluruhan variasi ini dipartisi dalam bagian yang mengikuti variasi variabel model pembelajaran (bagian berwarna biru) diberi lambang A, dan bagian yang tidak mengikuti variasi variabel model pembelajaran (yang tidak berwarna) diberi lambang e. Sehingga keseluruhan variasi prestasi siswa merupakan penjumlahan dari A dan e, dapat dirumuskan sebagai berikut:

Lalu bagaimana rumus tiap JK ini?

Rumusnya persis seperti yang telah saya berikan tapi diaplikasikan dalam situasi yang berbeda.

Jumlah Kuadrat Total

Nah namanya saja jumlah kuadrat total, berarti ini menggambarkan keseluruhan variasi sampel dalam penelitian tanpa memperhatikan asal sampel (dari model pembelajaran A atau B). Oleh karena itu kita perlu terlebih dulu mencari mean yang mencakup semua subjek disebut juga Grand Mean (GM). Kita tinggal menjumlahkan semua skor semua subjek dan membaginya dengan banyaknya subjek.

Jangan terbebani dengan rumus ya. Ini sebenarnya rumus mencari mean biasa, hanya saja diberlakukan pada seluruh subjek penelitian tanpa melihat kelompoknya.

Kemudian kita menerapkan rumus JK secara umum untuk mencari Jumlah Kuadrat Total:

Beberapa buku memberikan rumusan yang berbeda-beda untuk Jumlah Kuadrat Total ini. Salah satunya antara lain:

Keduanya akan memberikan hasil yang persis sama, karena rumus kedua merupakan penyederhanaan rumus pertama.

Baiklah sebagai ilustrasi saya sajikan contoh saja ya:

Tabel 1

Berapa JK Total dari data ini?

Jadi JK Total dari data di atas adalah 46.4. Cobalah kamu cari dengan menggunakan rumus kedua, lalu bandingkan apakah hasilnya sama.

Jumlah Kuadrat dari Bagian Variasi Variabel Dependen yang Mengikuti Variabel Independen.

Wah namanya panjan banget ya. Kita akan menggunakan nama lainnya saja agar lebih ringkas yaitu JK Antar Kelompok. Penjelasan mengenai asal usul nama ini akan diberikan di akhir posting. Jadi untuk sementara kita ingat dulu saja bahwa JK Antar ini adalah JK dari Bagian Variasi Variabel Dependen yang Mengikuti Variabel Independen.

Ilustrasi di gambar 1 maupun 2 merupakan salah satu cara penjelasan mengenai JK Antar ini. Di sini saya akan menyajikan konsep yang sama dari cara penjelasan yang berbeda. Kita lihat lagi Tabel 1. A1, A2, A3 merupakan variasi dari variabel independen, misalnya saja proses pembelajaran. Nah variasi variabel dependen yang mengikuti variasi variabel independen dapat dilihat dari perbandingan antar kolom A1, A2, A3. Misalnya kita lihat di kolom A1,skor di dalam kolom ini cenderung kecil berkisar antara 2 sampai 5. Sementara kolom A2 berisi skor dari 4 hingga 7 dan kolom A3 berisi skor antara 5 sampai 8. Kita bisa melihat bahwa kolom yang berbeda memiliki kecenderungan skor variabel dependen yang berbeda. Ini yang dimaksud dengan variasi variabel dependen yang mengikuti variasi variabel independen. Secara grafis bisa dilihat dalam gambar 3 berikut:

Gambar 3.

Dalam gambar tersebut, dapat kita lihat kecenderungan A1 berada di bawah sementara A2 berada di tengah dan A3 berada di paling atas. Jadi ketika kita melihat kelompok yang berbeda, sebaran skor variabel dependennya juga berbeda dari sebaran pada kelompok yang lain.

Nah apa yang bisa kita anggap mewakili kecenderungan tiap kelompok ini? Mean. Ya kita bisa melihat mean untuk mewakili kecenderungan kelompok. Jadi jika kita ingin melihat variasi dari variabel dependen yang mengikuti variabel independen, kita akan melihat variasi dari mean kelompok. Dengan kata lain kita akan mencari JK dari mean antar kelompok.

Bagaimana caranya?

Kita akan menerapkan rumus JK secara umum yang diaplikasikan untuk mean kelompok. Kurang lebih begini:

Mean dari mean akan sama dengan Grand Mean yang kita cari tadi.

Dengan demikian, rumus dari JK mean akan menjadi seperti ini:

Atau dapat juga diekspresikan dengan:

Kita coba terapkan dulu di contoh kasus kita. Sebelumnya kita mencoba menghitung mean dari tiap kelompok seperti ini:

Kemudian kita menerapkan rumus tadi menjadi begini:

Nah ada sedikit masalah dengan JK mean ini, yaitu kita cenderung untuk memperoleh JK Mean yang kecil. Ini diakibatkan kita menghitung variasi ini berdasarkan mean dari skor subjek. Variasi dari mean skor subjek tentunya akan lebih kecil daripada variasi skor subjek. Untuk mengatasi hal ini, kita akan mengalikan JK Mean ini dengan banyaknya subjek di tiap kelompok. Hasil perkalian ini yang kemudian dianggap secara tepat mewakili variasi variabel dependen yang mengikuti variasi variabel independen.

Saya akan menunjukkan juga alasan lain mengapa kita perlu mengalikan JK mean ini dengan banyaknya subjek dalam tiap sampel di posting lain.

Tapi apakah ini sama dengan rumus yang ada di buku-buku? Saya yakin sama. Kita buktikan ya(jika dirasa terlalu kecil klik saja pada pembuktian, maka akan muncul image yang lebih besar):

Nah rumus terakhir ini yang sering kita lihat di buku-buku bukan? Aha! Ternyata tidak serumit yang dibayangkan bukan? Kita tidak perlu menghafal pembuktian ini tentunya. Pembuktian ini hanya dilakukan untuk menunjukkan bahwa rumus yang saya tawarkan dan rumus yang di buku sama. Keuntungan rumus dari buku ini, kita bisa berurusan degan sampel dengan n yang berbeda, sementara menggunakan rumus yang saya tawarkan memang sederhana tapi akan kesulitan jika harus berurusan dengan kelompok dengan n yang berbeda.

Sekarang cobalah menghitung JK Antar dengan menggunakan rumus kedua ini lalu bandingkan hasilnya.

(to be continued…)


11 komentar :

Anonim mengatakan...

emm pak...pak...pak "to be continued" nya ditunggu loh...^_^;

apakah ada rencana hendak membahas anava satu, dua, dan tiga jalur?

semoga di hari sabtu sudah di bahas di sini ya pak..^_^;

Anonim mengatakan...

asalamu'alaikum
mas Agung Santoso, ada id Ym gak?
Kalo boleh, saya minta id YMnya. saya pengin nanya2 soal statistika. gak nyampe ke psikologi sih.. masih dasar2.

ok deh mas, thanks atas responnya.

Unknown mengatakan...

Mas choidirin,

saya ada id YM sebenarnya dan tentunya boleh sekali untuk diketahui. Tapi saya memilih untuk memberitahu lewat email saja ya. Jadi mungkin mas Choidirin bisa email ke alamat email saya?

Anonim mengatakan...
Komentar ini telah dihapus oleh administrator blog.
Anonim mengatakan...

sudah dapat emailnya... baca2 di halaman belakang. thanks

Unknown mengatakan...

Mas chodirin, saya sudah mengemailkan alamat YM saya. posting sebelumnya saya hapus untuk menjaga keamanan mas chodirin terkait dengan alamat email. kuatirnya nanti dikirimi spam.

Anonim mengatakan...

mas' e saya dpt referensi yg mengatakan kalo itu varians adalah kuadrat dar nilai standar deviasi ini gimana maksudnya... beda sangat atau sama saja??
dan apakah varians dan standar deviasi ini digunakan u/ mencari jalan alternative dari skor ekstreeeem...
tolong ya mas di bahas saya benar2 awam ama statistik...

Unknown mengatakan...

Halo,

Jujur saja saya agak kurang paham arah pertanyaan anda. Khususnya pertanyaan terakhir:
"dan apakah varians dan standar deviasi ini digunakan u/ mencari jalan alternative dari skor ekstreeeem..."
apa yang dimaksud mencari jalan alternatif dari skor ekstrim? apakah maksudnya menggantikan skor ekstrim? Mungkin anda bisa memperjelas.

Saya akan berusaha menjawab sebaik mungkin: memang benar bahwa standard deviasi (SD) merupakan akar kuadrat dari varians (V). keduanya bercerita hal yang sama, yaitu ukuran variasi/sebaran skor dari mean. Makin besar SD atau V, ini berarti makin besar juga sebaran data dalam kelompok.

Kedua ukuran ini sama-sama dipengaruhi oleh skor esktrim. Jika ada satu saja skor yang jauh lebih besar/kecil dari skor lain dalam data, SD dan V akan meningkat sangat banyak.

Semoga bisa membantu

Unknown mengatakan...

pak bagaimana dengan desain faktorial campuran? adakah pembahasannya? Trmks

Anonim mengatakan...

Mantap penjelasannya pak, pake pemisalan lebih mudah di terima...
#tidak semua orang pintar bisa menjelasakan dg bahasa yg sederhana termasuk para pak Dosen2 sy yg dah bergelar Doktor2 tuh...

Unknown mengatakan...

Terima kasih untuk komentarnya. Ya semoga penjelasan di blog ini lebih mudah dipahami sehingga banyak membantu teman-teman.

Salam,