Senin, Mei 02, 2016

Kritik Artikel tentang Statistik: "Seven Deadly Sin of Statistical Analysis"[1]

Artikel yang saya kritik ini merupakan salah satu contoh artikel yang ditulis untuk 'membetulkan' praktek analisis statistik, tetapi justru memperkenalkan kesalahan-kesalahan lain di dalamnya. Saya menduga, penulis artikel ini bukan orang yang benar-benar mempelajari statistik dengan seksama (statistik bukan area utama yang dipelajari mereka). Kritik yang saya berikan ini juga menunjukkan bahwa kita juga perlu berhati-hati dalam mempelajari artikel-artikel yang ditulis mengenai praktek statistik, yang ditulis dalam Bahasa Inggris yang diterbitkan dalam media di luar negeri. Tidak semua penulis tentang topik statistik memahami benar apa yang mereka tulis. Perlu kiranya membandingkan tulisan-tulisan seperti ini dengan tulisan lain yang ditulis oleh orang yang dikenal memiliki publikasi dalam bidang statistik. Dalam hal ini, tulisan saya sendiri tidak terlepas dari kemungkinan memperkenalkan kesalahan-kesalahan juga. 

Sin 1: Using parametric analysis for ordinal data


Artikel tersebut me-rancukan antara analisis parametrik dan analisis yang mensyaratkan data kontinum pada variabel dependen. Analisis parametrik tidak sama dengan analisis yang berasumsi data pada variabel dependen memiliki sifat kontinum. Analisis parametrik adalah analisis yang berasumsi bahwa statistik mengikuti distribusi tertentu. Kebanyakan analisis yang dikenal selama ini memang mengasumsikan statistik mengikuti distribusi normal, yang tergolong dalam distribusi data kontinum, namun demikian sangat banyak bentuk distribusi lainnya yang tidak masuk dalam kategori kontinum. Misalnya regresi poisson (atau regresi log-linear) yang berasumsi data variabel dependen mengikuti distribusi poisson yang diskrit, atau regresi logistic yang berasumsi data variabel dependen mengikuti distribusi binomial yang juga diskrit. Kedua analisis tersebut termasuk dalam analisis parametrik, bukan non-parametrik, karena berasumsi mengenai distribusi statistik di populasi.
            Saran yang diberikan bahwa peneliti sebaiknya menggunakan analisis non-parametrik jika berurusan dengan data ordinal, tidak cukup layak diikuti karena dua hal. Pertama seperti yang disebutkan di atas, jika kita bisa berasumsi bahwa distribusi dari data variabel dependen mengikuti distribusi tertentu, dan menyusun cara estimasi parameter berdasarkan distribusi tersebut, maka analisis yang kita gunakan tergolong parametrik. Kedua, dalam banyak kejadian, seperti yang diamati oleh Howell (1982) dan Nunnally (tahun lupa), ketika data memiliki sifat ordinal dan dianalisis menggunakan teknik yang mengakomodasi data ordinal maupun kontinum, hasil yang diperoleh tidak jauh berbeda: Kesimpulan yang diperoleh hampir selalu sama. Ini khususnya jika data ordinal tersebut memiliki nilai yang variatif (misal jika skor bisa bergerak dari 0 hingga 7, maka hasil analisis dengan teknik analisis data ordinal maupun kontinum akan saling mendekati).  Hasil analisis baru akan memberikan hasil yang berbeda secara kentara, ketika data ordinal hanya memiliki kategori yang sangat sedikit.

 Sin 2: Inappropriate use of parametric analysis


Sepertinya penulis enggan berkomentar tentang pemenuhan asumsi pertama: the study must be randomly drawn… Karena dapat dikatakan, hampir tidak ada data yang dapat diambil secara random, kecuali dalam studi simulasi. Asumsi ini mendasari semua teknik analisis statistik yang ada selama ini, oleh karena itu jika penulis mengatakan should only be employed if they can be fulfilled, maka tidak ada satupun teknik analisis statistik yang dapat digunakan. Jadi ?
            Penulis sepertinya juga tidak benar-benar memahami permasalahan di seputar pengujian asumsi normalitas. Jika p>0.05, dapatkah dinyatakan asumsi dipenuhi? Tidak. Ini terkait dengan kesalahan interpretasi nilai p yang dianut orang selama ini.
            Permasalahan lain dengan uji non-parametrik adalah rendahnya power. Oleh karena itu, penggunaan analisis non-parametrik akan beresiko gagal mengidentifikasi efek yang sebenarnya ada di populasi. Sementara itu saat ini mulai banyak modifikasi analisis (analisis yang robust) yang dikembangkan yang memberikan hasil yang cukup memuaskan ketika pelanggaran asumsi baik distribusi maupun jenis data dilanggar.

 Sin 3: Failure to consider type 2 statistical error


Istilah yang digunakan penulis,  type 2 statistical error , tidak lazim. Istilah yang lebih lazim digunakan adalah type 2 error, yang terkait dengan keputusan yang diambil. Statistical error memiliki impresi ‘standard error’ bukan keputusan yang diambil mengenai hasil analisis.
            Penulis menuturkan bahwa ketika peneliti tidak melaporkan Beta (probabilitas melakukan kesalahan tipe 2), maka ini dianggap sebagai kesalahan serius. Permasalahannya adalah, Beta tidak dapat dihitung tanpa pengetahuan mengenai efek di populasi (bukan di sampel seperti yang tersirat dalam artikel tersebut). Definisi yang diberikan oleh penulis mengenai D juga keliru: D bukan perbedaan mean antara dua sampel melainkan perbedaan mean antara dua populasi. Penulis menggunakan lambang yang benar (mu) tetapi menginterpretasikannya secara keliru. Tentu saja kita dapat mengatakan bahwa D di sampel itu merupakan estimasi yang unbiased terhadap D di populasi, tetapi perlu diingat pula bahwa, karena berupa estimasi, maka D juga berfluktuasi. Oleh karena itu, D yang kita peroleh di sampel bisa saja berbeda dengan penelitian replikasi. Berikutnya, ini membuat Beta yang diperoleh bisa keliru jika D di sampel sangat jauh dari D di populasi. Ini sebabnya, Beta jarang dianjurkan untuk dipaparkan. Kita juga bisa mendekati D di populasi dengan informasi dari penelitian-penelitian sebelumnya. Namun demikian, ini berarti Beta yang kita peroleh tidak spesifik terkait dengan penelitian kita, sehingga kita tidak dapat mengevaluasi penelitian kita berdasarkan Beta ini.
            Analisis power untuk menentukan besarnya sampel, memang penting untuk dilakukan. Analisis power juga membutuhkan nilai D di populasi yang biasanya didekati dengan informasi dari penelitian-penelitian sebelumnya. Berbeda dengan pelaporan Beta di atas, penggunaan D dari penelitian-penelitian sebelumnya memiliki manfaat untuk menentukan besarnya sampel dalam penelitian yang akan dilakukan, agar power dari analisis yang kita lakukan memadai.
            Catt: Sejauh ini saya belum menemukan analisis power yang melibatkan analisis non-parametrik. Ini salah satu kesulitan lain penggunaan analisis non-parametrik.

 Sin 4: Using unmodified t-test for multiple comparisons


Pertama, penulis memperkenalkan istilah yang kurang lazim mengenai apa yang disebutnya cumulative probability of erroneously rejecting the null hypothesis. Yang sebenarnya dibahas oleh penulis bukan cumulative… tetapi familywise error rate  atau experimentwise error rate. Berapa kalipun melakukan pengujian statistik untuk hipotesis yang sama, cumulative … akan tetap sama dengan alpha yang ditentukan oleh peneliti, misalnya 0.05. Tetapi dalam suatu kejadian riset tertentu, pengujian hipotesis berkali-kali akan meningkatkan familywise error rate.
            ‘Rumus’ dasar yang dipaparkan oleh penulis merupakan rumus sederhana yang tidak aplikatif dalam kondisi tertentu. Contoh sederhana, jika saya hendak menggunakan alpha sebesar 0.05, maka dengan tiga puluh kali melakukan pengujian, yang penulis sebut sebagai cumulative…  akan sama dengan 1.5, yang mana tidak mungkin karena probabilitas tidak mungkin lebih dari satu. Rumus yang sebenarnya adalah

Di sini, p adalah besarnya alpha yang ditentukan dan k adalah banyaknya pengujian yang dilakukan. Dengan rumus ini, maka familywise error rate dengan tiga puluh kali pengujian akan sama dengan 0.7853.

Sin 5: Underutilized of ANCOVA, multivariate regression, nonlinear regression, and logistic regression


Ide penulis mengenai ancova terlalu sempit, hanya menekankan fungsi kontrol terhadap confounding variables, sementara fungsi ancova lain, misalnya untuk meningkatkan power dari analisis tidak dibahas.
            Penulis secara keliru menyebutkan jenis variabel kontinum (tanpa menyebut kriterion atau prediktor) sebagai batasan analisis multivariate regression, dan dalam contoh yang diberikan, melakukan generalisisasi berlebihan pada variabel-variabel prediktornya, padahal analisis regresi multivariate dapat mengakomodasi penggunaan variabel-variabel prediktor yang tidak kontinum, misalnya dengan menggunakan dummy coding.
            Penulis juga secara keliru menyebutkan bahwa regresi logistik dapat digunakan ketika variabel independen kategorik dimasukkan dalam analisis. Regresi logistic digunakan hanya ketika variabel dependen yang memiliki sifat kategorik bukan variabel independennya.

 Sin 6: Reporting standard error instead of standard deviation


Pertama, penulis menunjukkan ketidakpahamannya dengan standard error, meskipun definisi teknis yang diberikannya benar. Standard error adalah ‘standard deviasi’ dari statistik di populasi: rata-rata penyimpangan statistik dari parameternya. Definisi non-teknis ini sudah cukup untuk menjelaskan pentingnya melaporkan standard error dalam sebuah penelitian. Jika standard error besar maka hasil analisis yang kita peroleh memiliki tingkat kepercayaan yang lebih rendah (misalnya ketika membuat 95% CI yang lebar karena standard errornya besar).
            Meskipun standard deviasi juga merupakan informasi penting untuk disajikan karena memberitahu pembaca mengenai sebaran data di sampel, standard error memberikan informasi yang sama sekali berbeda yang juga dibutuhkan untuk menjustifikasi hasil analisis. Penulis gagal menunjukkan pentingnya kedua informasi ini untuk disajikan karena hanya menekankan pada kemudahan interpretasi dari standard deviasi. Maka sebenarnya ia juga melakukan dosa karena melaporkan SD hanya karena ‘mudah diinterpretasi’.


Referensi


[1] Kuzon, W.M.,Urbanchek, M.G., & McCabe, S. (1996). The seven deadly sins of statistical analysis. Annals of Plastic Surgery. Vol 37(3) : 265 - 272.