Jumat, Mei 09, 2008

Asumsi Linearitas

Atas permintaan beberapa teman, saya akhirnya memutuskan untuk menulis dulu mengenai topik ini sebelum melanjutkan topik mengenai Analisis Varian. Apa itu asumsi linearitas? Bagaimana mengetahui apakah asumsi ini terpenuhi atau tidak? Dan mungkin beberapa pertanyaan lain yang akan saya coba jawab dalam posting ini… omong-omong kok saya jadi serius gini ya? Hmm…

Apa itu Asumsi Linearitas?
Ada beberapa teknik statistik yang didasarkan pada asumsi linearitas, lengkapnya linearitas hubungan. Teknik statistik yang dimaksud adalah teknik yang terkait dengan korelasi, khususnya korelasi product momen, termasuk di dalamnya teknik regresi. Jadi tentunya tidak semua teknik statistik didasarkan pada asumsi ini.
Jadi apa itu asumsi linearitas hubungan? Kurang lebih asumsi ini menyatakan bahwa hubungan antar variabel yang hendak dianalisis itu mengikuti garis lurus. Jadi peningkatan atau penurunan kuantitas di satu variabel, akan diikuti secara linear oleh peningkatan atau penurunan kuantitas di variabel lainnya. Gambarannya kurang lebih begini:

Memangnya ada yang nggak mengikuti garis lurus? Ya banyak sekali model hubungan yang nggak mengikuti garis lurus. Misalnya seperti di gambar ini:
Dalam gambar ini, hubungan antar variabelnya bersifat kurvilinear, khususnya hubungan kuadratik. Masih banyak pola hubungan yang lain selain ini, seperti eksponensial, logistik, dll.

Mengapa harus Linear?
Korelasi produk momen dan turunannya, mengasumsikan hubungan antar variabelnya bersifat linear. Jika ternyata pola hubungannya tidak linear, maka teknik korelasi produk momen akan cenderung melakukan underestimasi kekuatan hubungan antara dua variabel. Jadi sangat mungkin sebenarnya kedua variabel memiliki hubungan yang kuat tetapi diestimasi oleh produk momen sebagai tidak ada hubungan atau memiliki hubungan yang lemah, hanya karena pola hubungannya tidak linear.

Bagaimana Mengecek Asumsi Linearitas ini?
Ada beberapa cara untuk mengecek asumsi linearitas ini dalam program SPSS:
1. Menggunakan test for linearity dalam SPSS
Cara ini termasuk cara yang sangat lazim dilakukan selama ini ketika berurusan dengan pengecekan asumsi linearitas. Saya sendiri tidak terlalu yakin dengan cara ini, hanya saja sampai hari ini saya tidak memiliki bukti untuk menolak penggunaan cara ini.
Kita akan memulai dengan mengklik Analyze->Compare Means->Means, lalu muncullah sebuah dialog box berikut ini.

Pilihlah variabel dependen dari daftar variabel di sebelah kiri, lalu pindahkan ke kolom Dependent Variable, begitu juga variabel independen dipindah ke kolom Independent Variable.
Kemudian klik Option, lalu muncul lagi satu dialog box seperti ini:


Kita klik kotak di sebelah kiri Test for linearity, untuk memilihnya. Kita dapat membersihkan kotak Cell Statistics jika tidak ingin ada hasil output lain karena memang tidak dibutuhkan. Klik Continue, dan kita kembali ke dialog box sebelumnya, lalu klik OK.
Output analisis yang akan kita baca hanya bagian seperti gambar di bawah ini:
Nah pada bagian ini dapat kita lihat tabel yang sangat mirip dengan Anova, karena memang sebenarnya ini analisis varians. Pada bagian paling atas kita dapat melihat baris Between (Subject). Ini sebenarnya sama dengan JK Antar dalam analisis varians sederhana seperti yang pernah saya bahas di Anava Identity. Dalam analisis ini, JK Antar dipartisi lagi menjadi dua bagian. Yaitu bagian yang mengikuti garis linier, dan bagian yang tidak mengikuti garis linier.
Bagian yang mengikuti garis linier itu yang diwakili oleh baris Linearity sementara bagian yang tidak mengikuti garis linier diwakili oleh baris Deviation from Linearity. Bagian ini sebenarnya merupakan ‘sisa’ dari bagian dari JK Antar setelah dikurangi bagian yang mengikuti garis linear. Mungkin dapat digambarkan seperti ini:

Bagian yang berwarna biru merupakan bagian dari variasi variabel dependen yang mengikuti variasi variabel independen, diberi lambang A. Ini adalah bagian yang sering diwakili oleh JK Antar. Bagian yang tidak berwarna, diberi lambang e, merupakan bagian dari variabel dependen yang tidak mengikuti variabel independen. Nah ternyata oh ternyata… bagian berwarna ini, JK Antar, masih dapat dipartisi lagi menjadi dua bagian yaitu yang mengikuti garis linear, diwakili oleh baris linearity, dan yang tidak mengikuti garis linear, diwakili oleh deviation from linearity.

Nah lalu bagaimana memutuskan apakah asumsi linearitas ini terpenuhi atau tidak?

Ada beberapa pendapat yang beredar saat ini. Pendapat pertama menyatakan keputusan diambil dengan melihat baris linearity, karena baris ini dianggap merupakan bagian JK Antar yang mengikuti trend linear. Jika F untuk baris linearity ini signifikan, kita bisa bilang bahwa bagian dari JK Antar yang mengikuti garis linear cukup besar, sehingga dapat disimpulkan trend antara variabel independen dan dependen itu linear. Atau dapat juga dikatakan bahwa garis linear dapat memberikan penjelasan yang baik mengenai hubungan antara kedua variabel, dengan kata lain fit.

Ada juga pendapat yang mengatakan keputusan diambil dengan melihat baris deviation from linearity. Deviation from linearity merupakan bagian dari A yang tidak mengikuti garis linear. Jika baris ini tidak signifikan, maka dapat dikatakan bahwa hubungan antar variabel dependen dan independen linear. Pemikirannya kurang lebih begini, sangat mungkin hubungan antar variabel itu fit dengan garis linear, tapi tidak seluruh variasi dari hubungan antar variabel ini dapat dijelaskan dengan garis linear ini. Ada sebagian lain yang mengikuti pola hubungan yang tidak linear. Dalam hal ini, jika deviation from linearity signifikan, ini menunjukkan bahwa sebagian lain variasi hubungan antar variabel ini tidak mengikuti garis linear. Jadi disamping model linear kita perlu juga melihat model non-linear. Nah, jika deviation from linearity ini tidak signifikan, ini berarti variasi hubungan antar variabel hampir sepenuhnya mengikuti pola hubungan linear.

Jadi gimana nih?
Kalo menurut saya begini: patokan pertama yang bisa dipakai adalah linearity, karena baris ini menggambarkan apakah model linear dapat menjelaskan dengan baik hubungan antar variabel. Jika linearity signifikan, maka itu berarti hubungan antar variabel dapat dijelaskan menggunakan model linear, dalam hal ini korelasi produk momen atau regresi linear. Deviation from linearity merupakan informasi tambahan mengenai pola hubungan yang tidak dapat dijelaskan oleh garis linear. Jika ternyata baris ini signifikan. Ini berarti, hanya memberikan penjelasan linear mengenai hubungan antar variabel akan memberikan informasi yang kurang lengkap mengenai hubungan antar variabel. Sehingga perlu kiranya menguji juga model hubungan antar variabel dengan model non-linear pada data yang sama. Ini dilakukan untuk melihat manakah model yang terbaik menjelaskan pola hubungan ini.

Masalah
Saya pribadi kurang merasa ‘sreg’ dengan pendekatan ini, apalagi jika digunakan sebagai satu-satunya sumber informasi untuk mengecek asumsi linearitas data.
Keberatan saya yang pertama, sebenarnya analisis ini merupakan analisis trend, jadi bukan analisis yang memang dirancang untuk melihat linearitas hubungan antara dua variabel dengan data kontinum. Apa bedanya? Analisis trend sebenarnya menganalisis mean dari beberapa kelompok dari sampel penelitian. Kelompok-kelompok ini dibentuk menurut kuantitas dari variabel independent. Misalnya variabel independennya obat A, maka kelompok pertama misalnya diberi obat A sebanyak 10 gram, kelompok berikutnya 20 gram, dan seterusnya. Yang ingin dilihat apakah pemberian obat dengan kuantitas tertentu ini akan memiliki efek yang linier terhadap variabel dependen, misalnya kecepatan sembuh. Terkait dengan ini akan ada dua masalah yaitu:

a. Jika tiap nilai variabel independen hanya memiliki satu nilai unik untuk variabel dependennya (misalnya setiap subjek yang memiliki skor IQ 100 memiliki nilai raport 10), analisis trend di SPSS ini tidak akan dapat dijalankan, karena SPSS tidak dapat menghitung varians errornya.

b. Jika range dari variabel independent sangat besar, misalnya 100 point, maka derajat kebebasan (df) untuk baris deviation from linearity akan cenderung besar. Ini mengakibatkan Rerata Kuadratnya (MS deviation from linearity) akan cenderung kecil, sehingga nilai F nya akan cenderung kecil juga. Hal ini mengakibatkan makin besar kemungkinan untuk mendapatkan F yang tidak signifikan terlepas dari apakah kondisi datanya linear atau tidak.

Kedua, terkait dengan ketergantungan teknik ini terhadap jumlah subjek. Semakin besar subjek, makin kecil Rerata Kuadrat untuk error (MS error), yang mengakibatkan makin besar kemungkinan untuk menolak hipotesis nol. Dalam baris linearity ini berarti makin besar kecenderungan untuk mengatakan hubungan antar variabel itu linear padahal tidak demikian. Dalam baris deviation from linearity ini berarti makin besar kecenderungan untuk mengatakan hubungan antar variabel dapat dijelaskan dengan model non linear.

Alasan ketiga terkait dengan ‘sense of data’…cieileh…keren betul bahasanya. Maksud saya begini, mengenali dan melihat data itu penting bagi peneliti. Peneliti perlu mendapat ‘sense’ atas datanya sendiri. Nah, mengandalkan uji asumsi saja hanya akan membatasi pandangan kita mengenai data kita sendiri. Kita perlu melihatnya secara langsung baik dalam arti memandangi datanya (ini serius nggak guyon…) atau membuat grafik yang bisa menggambarkan data kita. Nah terkait dengan ini kita masuk ke pendekatan kedua.

2. Menggunakan Grafik Scatter Plot antar Variabel
Saya menganggap penting sekali mengecek data secara visual. Ini dapat dilakukan dengan melihat datanya secara langsung atau melihatnya dalam bentuk grafik. Ada cukup banyak informasi yang bisa kita peroleh dengan melihat data dengan grafik dibandingkan hanya melihat hasil output berupa tabel.

Scatter plot termasuk grafik yang menurut saya cukup berguna untuk mengecek linearitas hubungan antar variabel. Beberapa manfaat yang dapat diperoleh antara lain, dapat melihat secara langsung bentuk hubungan antar variabel. Seandainya hubungan antar variabel tidak linear, dengan scatter plot kita dapat memperkirakan seperti apa bentuk hubungannya; kuadratik, kubik, logaritmik, atau yang lain. Manfaat lainnya adalah dapat mengecek outlier dalam data kita, keberadaannya dan pada variabel mana data tersebut menjadi outlier.

Lalu bagaimana melakukannya dengan SPSS?
Kita dapat menggunakan menu Graph->Interactive->Scatterplot, yang akan memunculkan dialog box seperti ini:

Dalam dialog box tersebut kita bisa memasukkan variabel independen dalam kotak pada garis horizontal dan variabel dependen dalam kotak pada garis vertikal. Kemudian klik OK, yang akan memunculkan grafik seperti berikut:
Nah dari grafik ini bisa dilihat bahwa hubungan kedua variabel dapat dikatakan linear. Jika kita menarik garis lurus seperti di atas, kita dapat melihat titik-titik tersebut memiliki jarak yang relatif dekat dengan garis. Dalam grafik ini juga dapat dilihat beberapa outlier sekaligus kemungkinan heterogenitas varians.

Masalah utama terkait dengan grafik adalah subjektivitas penilaian seperti apa grafik yang dapat dikatakan linear dan seperti apa yang dikatakan non linear. Dalam gambar di atas, kita dapat melihat dengan cukup jelas bahwa hubungan keduanya linear, tetapi dalam grafik lain sangat mungkin ada perbedaan pendapat mengenai linearitas hubungan antara dua variabel. Oleh karena itu meminta penilaian orang lain mengenai bentuk hubungan dalam hal ini cukup penting.

Saat ini saya sedang menggali kemungkinan-kemungkinan lain untuk menguji linearitas hubungan ini. Saya belum menemukan sampai saya menyelesaikan tulisan ini. Jika suatu hari nanti saya memperolehnya tentu saja akan saya upload artikel baru di blog ini. Salam!