Rabu, Desember 07, 2016

Nilai-p Dan Istilah-Istilah Terkait (Bagian 1: Nilai p)

Nilai p mungkin merupakan salah satu hasil analisis statistik yang  paling sering dilaporkan baik dalam laporan-laporan penelitian seperti skripsi, tesis dan disertasi atau artikel jurnal ilmiah. Popularitas nilai p ini sepertinya tidak diiringi oleh pemahaman yang benar mengenai makna nilai p dan kesimpulan yang dapat diambil darinya. Kesalahan pemahaman mengenai nilai p ini juga dialami oleh para pengajar statistik dan metode penelitian (baca di sini).  

Tulisan ini hendak memaparkan pemahaman mengenai nilai p dan beberapa istilah yang dekat dengannya. Pembahasan lebih detil mengenai nilai p  dan beberapa misinterpretasinya dapat dibaca dalam tulisan saya yang terbit di Jurnal Manasa dalam tautan sebelumnya. 


Nilai p

Secara ringkas nilai-p merupakan probabilitas memperoleh nilai statistik yang sama dengan atau lebih ekstrim daripada yang diperoleh dari sampel jika hipotesis nul benar. Nilai statistik yang dimaksud dalam kalimat di atas misalnya besarnya perbedaan mean, nilai koefisien korelasi, dll.  Pernyataan "sama dengan atau lebih ekstrim" dapat berarti "sama atau lebih besar", yaitu jika uji statistik ada di 'ekor kanan' (right tail) dari distribusi statistik, misalnya dalam distribusi normal standard ini ini berarti nilai Z positif. Pernyataan tersebut juga dapat berarti "sama atau lebih kecil" jika uji statistik ada di 'ekor kiri' (left tail) dari distribusi statistik (atau Z bernilai negatif dalam distribusi normal standard).

Bagian terakhir dari definisi nilai-p tersebut, "...jika hipotesis nul benar", merupakan bagian yang sangat penting dari definisi tersebut. Ini dikarenakan nilai p selalu dihasilkan dari distribusi statistik dengan 'syarat' atau kondisi hipotesis nul benar. Bagian ini menjadi penting karena dua hal: 

  1. Jika distribusi statistik yang diuji tidak sama dengan distribusi statistik ketika hipotesis nul benar, maka nilai-p yang diperoleh dari analisis akan keliru. Misalnya dalam kondisi heteroskedastik, nilai p yang diperoleh menggunakan uji-t (yang tidak dimodifikasi) akan cenderung terlalu kecil karena distribusi yang dihasilkan dari analisis perbedaan mean tersebut sebenarnya tidak mengikuti distribusi t. 
  2. Kita tidak dapat menggunakan nilai-p sebagai ukuran probabilitas hipotesis nul benar (berdasarkan data) dan tidak dapat juga menggunakan nilai (1 - p) sebagai ukuran probabilitas hipotesis penelitian kita benar (berdasarkan data). Hal ini dikarenakan nilai p sebenarnya merupakan probabilitas kondisional (conditional probability), dalam hal ini, kondisi yang disyaratkan adalah hipotesis nul benar. Probabilitas kondisional ini dapat diekspresikan sebagai berikut: 

Dalam persamaan tersebut T mewakili nilai statistik yang manapun (bisa korelasi, uji t, dll). ekspresi tersebut juga dapat diringkas 




Sementara probabilitas hipotesis nul benar berdasarkan data penelitian dinyatakan sebagai berikut: 


Dan pernyataan "probabilitas hipotesis penelitian / alternatif benar berdasarkan data " dapat dinyatakan sebagai berikut: 



Kita dapat melihat bahwa ekspresi probabilitas yang ketiga tidak sama dengan ekspresi probabilitas kedua dan keduanya dapat memiliki nilai yang berbeda juga. 

Dengan meminjam Teorema Bayes, kita dapat melihat keterkaitan antara keduanya: 





Teorema tersebut menunjukkan bahwa besarnya probabilitas hipotesis nul benar berdasarkan data penelitian, ditentukan oleh besarnya probabilitas hipotesis nul benar (tanpa pengetahuan mengenai data kita), nilai p dan probabilitas memperoleh data seperti yang kita miliki ketika hipotesis nul salah atau sering disebut sebagai power dari uji statistik. Hubungan antara nilai p dan probabilitas H0 benar berdasarkan data dapat dilihat sebagai berikut: 

Hubungan antara nilai p dengan probabilitas H0 benar berdasarkan data


Dalam gambar tersebut dapat kita lihat bahwa meskipun hubungan keduanya bersifat monotonik, namun demikian nilai keduanya dapat berbeda. Misalnya ketika analisis memiliki power sebesar 0.3, ketika nilai p sebesar 0.05, maka nilai P(H0 benar | D) mendekati 0.15. Bahkan ketika power sebesar 0.8 sekalipun, besarnya P(H0 benar |D) lebih besar daripada nilai p. Ini artinya besarnya nilai p tidak dapat diinterpretasi sebagai probabilitas H0 benar di populasi berdasarkan data yang kita miliki. 

Hubungan antara besarnya (1 - p) dengan probabilitas H0 salah (atau Ha benar) berdasarkan data dapat dilihat dalam gambar berikut: 



Dalam gambar di atas, kita dapat melihat bahwa besarnya nilai (1 - p) cenderung lebih besar daripada probabilitas H0 salah berdasarkan data. Misalnya dengan power dari analisis sebesar 0.3, ketika besarnya (1 - p) = 0.95, probabilitas H0 salah berdasarkan data hanya kurang lebih 0.85, dan menjadi 0.9 ketika analisis memiliki power sebesar 0.5. 

Jadi dapat kita lihat melalui ilustrasi tersebut bahwa nilai p tidak menunjukkan besarnya probabilitas H0 benar berdasarkan data penelitian kita, dan nilai (1 - p) tidak menunjukkan besarnya probabilitas H0 salah berdasarkan data. Nilai p hanya dapat dimaknai sebagai probabilitas memperoleh statistik seperti yang kita temukan dalam data kita atau lebih ekstrim, jika H0 benar di populasi. 









Selasa, Agustus 16, 2016

Kritis Membaca Riset (Berita tentang suatu Riset):”Religious Kids Are More Selfish Than Non-Religious Kids, Study Says” (bag 2).

Pada bagian 2 ini saya akan membahas sedikit seperti apa riset yang diacu oleh berita di atas.    Baiklah mari kita mulai dengan melalui 3 tahapan mengkritisi berita tentang hasil riset terlebih dulu: 

  1. Apakah ada penelitiannya? Ya. Berita itu didasarkan pada penelitian yang benar-benar ada dan dapat diakses serta dibaca. Terbit di jurnal Current Biology, tahun 2015, dengan no doi sebagai berikut:  http://dx.doi.org/10.1016/j.cub.201...  (DOI: digital object identifier). 
  2. Siapa penerbitnya dan apakah ini peer-reviewed journal? Jurnal ini diterbitkan pertama kali oleh kelompok Current Science pada tahun 1991, kemudian diambil alih oleh Elsevier di tahun 1998 dan menjadi bagian dari Cell Press sejak tahun 2001 (sumber: wikipedia, link:https://en.wikipedia.org/wiki/Curre...). Jurnal ini merupakan jurnal yang peer-reviewed. Impact factor-nya tergolong lumayan besar (9.571 di tahun 2014). Jadi bisa dibilang jurnal ini merupakan terbitan yang lumayan bergengsi. Apakah ini berarti kita bisa percaya sepenuhnya isi dari artikel ini? Tidak juga. Kita perlu baca isinya lebih detil. 
Nah saya sudah membacanya beberapa waktu lalu dan sempat mendiskusikannya dengan beberapa teman. Ada beberapa poin catatan yang saya peroleh dari bacaan ini:
  • Artikel ini masih in press, jadi yang dapat diakses baru bagian hasil penelitian dan diskusi dan kesimpulannya. Oleh karena itu cukup banyak hal yang belum jelas terkait dengan prosedur lengkap dalam penelitian ini. 
  • Metode yang digunakan semi-survey (meskipun dalam artikel dituliskan ada prosedur eksperimen. Namun demikian sebenarnya tidak ada manipulasi VI dan tidak ada random assignment). Rasanya memang tidak memungkinkan riset ini dijalankan dengan metode eksperimen. Oleh karena itu, seharusnya hubungan kausal antara variabel independen (VI) dan variabel dependen (VD) tidak dapat ditegakkan secara meyakinkan.  Namun demikian si penulis agak gegabah menggunakan kata affect atau bahkan influence yang mengindikasikan sebab-akibat. Meskipun tidak sepenuhnya salah, tetapi karena tidak adanya manipulasi VI, pembaca seharusnya diberi peringatan mengenai hal ini: validitas internal penelitian ini tidak terlalu meyakinkan.
  • Definisi dari VI yang menurut saya tidak konsisten: Variabel Independen dalam penelitian ini apakah religion atau religious rearing environment? Ketidak-konsisten-an ini bisa berdampak pada validitas pengukuran-> anak ditanya tentang ia dibesarkan dalam keluarga apa atau apa agamamu? Saya pribadi belum bisa melihat bahwa pembedaan ini akan berdampak besar terhadap hasil penelitian. Tapi ini satu hal yang perlu dicatat juga rasanya. Altruisme juga sepertinya diukur hanya dengan menggunakan perilaku berbagi , yang mungkin akan menimbulkan pertanyaan tentang validitas konstruknya. ‘Meanness’ (semacam sifat kejam) tidak terlalu gamblang dijelaskan pengukuran seperti apa yang dilakukan dan bagaimana skor diperoleh.
  • Peneliti melakukan beberapa analisis dalam penelitian ini. Mari kita lihat satu demi satu. Analisis yang pertama adalah uji-t sampel independen dari mean sharing (altruisme) antara mereka yang dibesarkan dalam lingkungan agama tertentu dengan yang ‘tidak beragama’. Hasil pengujiannya sangat signifikan dengan p lebih kecil dari 0.001. Namun demikian ada dua hal yang perlu dicatat: (1). Selisih mean antara yang religius (3.25) dan non-religius (4.11) sebesar 0.86. Dengan SD sebesar 2.46 (religius) dan 2.48 (non-religius), perbedaan mean sebesar itu dianggap masuk dalam kategori besaran efek yang kecil hingga medium (0.86/2.46=0.35, untuk kategori medium=0.4, kecil = 0.2). (2). Standard deviasinya cenderung besar untuk kedua kelompok. Ini menggambarkan tingkat variasi tergolong besar (Coefficient of Variation (CV)=2.46^2/3.25 = 1.86 untuk religius, jauh lebih besar dari .1 yang dianggap ‘wajar’). Ilustrasi dapat dilihat dalam gambar 1 (overlap antar dua kelompok cenderung besar). Dampak dari kondisi seperti ini (ukuran efek kecil dan besarnya SD) adalah masalah replikasi: pada penelitian replikasi bisa terjadi efek berbalik atau tidak ada efek.
  • Permasalahan lain terkait dengan uji-t ini adalah pengecekan apakah data memenuhi asumsi baik distribusi maupun homogenitas varian. Untuk asumsi kedua, sekilas sepertinya tidak ada masalah karena perbedaan SD yang tidak terlalu besar. Namun demikian informasi mengenai bentuk distribusi ini penting karena jika bentuk distribusi kedua kelompok berkebalikan, maka sangat mungkin hasil yang diperoleh ‘menipu’ (seharusnya tidak signifikan tapi terlaporkan signifikan).
  • Analisis berikutnya adalah regresi dengan model: Sharing = usia+negara asal+SES+religion identification (dummy coded). Sekali lagi religion identification memiliki koefisien yang signifikan (b=-.132 (standardized), p<.001). Dalam hal ini lagi-lagi tidak dicantumkan apakah ada pengecekan asumsi regresi. Ada sedikit masalah teknis dalam pelaporan penelitian ini: nilai b yang dilaporkan adalah standardized, disertai nilai p, padahal nilai b yang standardized belum ada cara untuk menguji-nya (sudah sih tapi belum populer). Nah tidak cukup jelas apakah memang peneliti menggunakan cara yang masih baru ini atau tidak. Jika tidak maka nilai yang dilaporkan keliru.
  • Selain itu, nilai r kuadrat untuk keseluruhan model = 0.184. Ini berarti kemampuan model yang diajukan untuk menjelaskan variasi dari sharing (mengapa anak satu share lebih banyak dari yang lain) tergolong kecil: hanya 18.4% variasi saja yang dapat dijelaskan. Ini berarti religion identification akan memiliki kemampuan yang lebih kecil lagi. Selain itu, dapat dilihat bahwa age memiliki b = 0.39 yang berarti lebih besar daripada religion identification. Ini berarti usia memiliki peran lebih besar dibandingkan identifikasi keagamaan untuk menjelaskan variasi sharing pada anak.
  • Analisis berikutnya adalah korelasi product moment antara altruism dengan frekuensi melakukan praktek religius (r=-0.161), spiritualitas dalam keluarga (r=-0.179), dan religiousness secara umum (r=-0.173). Ketiganya memperoleh nilai p < 0.001. Namun demikian, dapat dilihat juga bahwa angka korelasi antara ketiga variabel ini dengan altruisme tergolong kecil (|r|
  • Analisis berikutnya kurang lebih memiliki masalah yang sama dengan yang sebelumnya: pengecekan asumsi yang kurang dipaparkan apakah telah dilakukan dan effect size yang kecil.

Nah saya sudah membacanya beberapa waktu lalu dan sempat mendiskusikannya dengan beberapa teman. Ada beberapa poin catatan yang saya peroleh dari bacaan ini:
Jadi? Ada beberapa hal yang perlu diperjelas dalam artikel tersebut untuk membuat hasil penelitian ini menjadi lebih meyakinkan. Agak terlalu dini untuk menyatakan penelitian ini salah atau benar. Namun demikian, terlepas dari indecisiveness saya, kiranya ada sikap-sikap yang lebih bijak dalam menyikapi hasil riset ini. Saya pribadi menyukai salah satu komentar dari teman yang menyatakan bahwa kita perlu introspeksi juga terkait hasil ini. Jangan-jangan kita memang mengajarkan / mensosialisasikan agama dengan cara yang keliru sehingga mungkin saja anak-anak kita justru jadi kurang altruis (Terima kasih, Mas David Agus Widarto atas komentarnya).
That’s all guys! Butuh waktu lama untuk berpikir dan menulis segini banyak. Buat saya pribadi, ini berarti memang tidak mudah menyusun argumen yang kokoh yang didasarkan pada temuan ilmiah yang dapat dipertanggungjawabkan. Tapi tentunya mudah sekali bikin argumen yang diramu dengan cucoklogi plus imajinasi nan liar tanpa kaidah logika yang memadai. Semoga tulisan ini bisa membantu negara dalam rangka mencerdaskan kehidupan bangsa... Amin.

Kritis Membaca Riset (Berita tentang suatu Riset):”Religious Kids Are More Selfish Than Non-Religious Kids, Study Says” (bag 1).

Beberapa waktu lalu saya sempat upload link berita mengenai hasil riset di atas. Tujuan saya yang utama adalah ... iseng... mohon maaf ... Saya ingin melihat reaksi teman-teman ketika membaca berita tersebut. Sayangnya memang tidak banyak yang memberikan respon. Entah karena timing nya kurang pas atau memang tidak terlalu menarik atau terlalu ‘menantang’.  Keinginan atau keisengan ini muncul karena cukup sering saya membaca teman-teman share tentang berita mengenai suatu riset begitu saja tanpa mengkritisi-nya dengan baik, termasuk mengevaluasi apakah memang berita mengenai riset tersebut pantas dikonsumsi / dipercayai.  Dan komentar-komentar yang muncul biasanya juga ramai sekali, tetapi nyaris tidak satupun yang didasarkan pada hasil evaluasi memadai dari metode yang digunakan dalam riset itu sendiri. Yang biasa saya temukan, para ‘ahli’ ini berteori ini dan itu, berdebat ini dan itu tanpa pernah sekalipun membaca risetnya itu sendiri. Jadi yang diperdebatkan apa? eng.... tanya sama para ‘ahli’ itu saja ya... 

Nah, dari pengalaman tersebut dan pengalaman mengupload berita ini, saya ingin menyarankan, jika diperkenankan, apa yang sebaiknya dilakukan ketika membaca atau mendengar ‘berita tentang hasil riset mengatakan ...’. 

  • Tanyakan atau cari terlebih dulu artikel asli yang merupakan laporan riset tersebut. Kalau ada orang berkata riset ini menunjukkan ini dan itu, harusnya dia juga baca dong risetnya. Jadi tanya saja, mana risetnya? Apa judulnya? Terbit di mana? Bisa minta copynya nggak? Atau kalau terbit di berita seperti ini, gunakan google scholar untuk mencari artikelnya.
  • Kalau sudah diberikan artikel nya, coba cek dulu artikel ini yang nerbitin siapa atau lembaga apa? Apakah artikel ini terbit di jurnal yang proses publikasinya melalui peer review (artikel direview terlebih dulu oleh sejawat baik secara terbuka atau tertutup sebelum diputuskan untuk diterbitkan)? Mengapa ini penting? Karena review sejawat inilah yang menjadi salah satu kontrol baik isi maupun metode dari penelitian yang dijalankan. Meskipun tidak selalu artikel yang terbit di jurnal yang peer-reviewed pasti baik dan sebaliknya artikel yang terbit di jurnal yang tidak peer-reviewed pasti tidak baik. Namun demikian, dalam hal tingkat kepercayaan subjektif, jurnal dengan peer review memiliki tingkat ‘dapat dipercaya’ yang lebih tinggi daripada yang tanpa peer review.
  • Nah, kalau sudah dicek dan ternyata artikel ini terbit di jurnal yang peer-reviewed, lalu? Ya dibaca. Ada kecenderungan yang saya amati, kalau mahasiswa (akademisi juga mungkin ya? hehe...) membaca jurnal, biasanya baca introduction terus loncat ke discussion atau conclusion, melewatkan bagian paling nyebahi : metode penelitian (apalagi baca bagian analisis statistik... No Way!). Padahal bagian ini merupakan bagian yang sama penting (jika tidak bisa dibilang paling penting) dari suatu laporan penelitian. Bagian ini yang seringkali menjadi dasar untuk menentukan seberapa besar kita bisa mempercayai hasil penelitian. Tanpa membaca bagian ini, kita tidak akan mendapatkan informasi memadai untuk, misalnya, menilai validitas internal dan eksternal penelitian ini, menilai apakah kesimpulan hasil analisisnya dapat dipercaya, termasuk kekuatan dan keterbatasan penelitian ini. Informasi di bagian ini juga-lah yang dapat dijadikan dasar untuk menilai apakah kesimpulan hasil riset dapat dipertanggunjawabkan dan pada akhirnya apakah klaim yang dinyatakan dalam riset ini atau berita yang memuat riset ini dapat dipercaya sebagai ‘benar’.
Saya pikir tiga langkah itu merupakan langkah-langkah minimal yang seharusnya dilakukan sebelum mensharing-kan atau mengomentari suatu artikel hasil penelitian, apalagi hanya beritanya saja.
Karena judul notes nya seperti itu, nanti di bagian kedua akan saya bahas seperti apa riset yang diacu oleh berita yang pernah saya share dulu.

Senin, Agustus 15, 2016

Bermain Kartu Belajar Bayesian

Salah satu kesalah-pahaman terbesar dari para peneliti atau penulis artikel ilmiah adalah menginterpretasi nilai p sebagai probabilitas dari kebenaran / kesalahan suatu hipotesis berdasarkan kondisi data penelitian kita. Nilai p sebenarnya berbicara tentang probabilitas memperoleh hasil penelitian seperti yang kita temukan atau lebih ekstrim jika hipotesis nul benar di populasi, atau dapat diekspresikan sebagai berikut:


                                                                (1)

D dalam ekspresi tersebut adalah data penelitian yang kita peroleh, sementara H0 adalah Hipotesis Nul. Jadi nilai p sebenarnya adalah probabilitas kondisional (Conditional Probability).  Dengan kata lain, nilai p berarti besarnya probabilitas memperoleh hasil penelitian seperti yang kita peroleh atau lebih ekstrim dalam kondisi H0 benar.  Ini berarti H0 merupakan kondisi yang ditetapkan atau diketahui terlebih dulu, baru mencari probabilitas memperoleh D. 


Jadi misalnya dalam sebuah penelitian korelasional, ditemukan nilai korelasi sebesar 0.3 dengan nilai p = 0.025, ini berarti besarnya probabilitas memperoleh koefisien korelasi sebesar 0.3 atau lebih besar jika koefisien korelasi di populasi adalah nol, sebesar 0.025 atau 2.5%. Apakah ini berarti probabilitas koefisien korelasi di populasi sama dengan nol berdasarkan hasil temuan penelitian kita adalah 0.025? Tidak. Probabilitas koefisien korelasi di populasi sama dengan nol jika didasarkan pada hasil penelitian diekspresikan sebagai berikut:



                                                                   (2)

Kita ilustrasikan dengan bermain kartu remi yang berisi 52 kartu dengan 13 angka (As, 2, 3, hingga Raja) dan 4 jenis (Hati, Keriting, Sekop dan Wajik).  Anggaplah jenis kartu adalah hipotesis-hipotesis (H), dengan kartu jenis Hati sebagai H0,  sementara angka kartu adalah Data (D). 

Jika saya mengambil satu kartu dari setumpuk kartu remi yang telah dikocok. Saya menyebutkan bahwa kartu yang saya pegang adalah kartu Hati (H0). Berapa besar probabilitas kartu tersebut memiliki angka 5 (D=5)? Ini berarti pertanyaan saya terkait dengan ekspresi probabilitas yang pertama (1). Dalam kelompok kartu berjenis Hati, probabilitas memperoleh angka sebesar 5 adalah 1/13. 


Ekspresi probabilitas kedua (2) melakukan dengan cara yang terbalik dari yang saya lakukan sebelumnya. Setelah saya mengambil kartu, saya menyebutkan angkanya (D-nya) terlebih dulu, baru bertanya berapa besar probabilitas karti ini berjenis Hati (H0)? Atau dalam kelompok kartu berangka 5 (D=5), besarnya probabilitas memperoleh kartu berjenis Hati (H0) adalah 0.25. 


Dapat kita lihat bahwa besarnya  tidak sama dengan : yang pertama bernilai 1/13 yang kedua 0.25.  Nah, pertanyaannya sekarang jadi begini: jika ketertarikan peneliti sebenarnya adalah no 2 (probabilitas benar/tidak nya H0 berdasarkan data), sementara yang bisa kita peroleh adalah no 1 (probabilitas memperoleh suatu data (D) jika H0 benar), mungkinkah kita memperoleh no 2 dengan menggunakan informasi dari no 1?



Teorema Bayes

Jawabannya: Bisa dengan menggunakan teorema Bayes:

                                              (3)


Mari kita amati persamaan (3). Persamaan (3) dapat kita tulis ulang menjadi

                                              (4)

Dalam contoh kartu remi di atas ini Pr(H0|D) adalah probabilitas memperoleh kartu berjenis hati jika kita mengetahui bahwa kartu tersebut berangka lima, yaitu sebesar 0.25. Pr(D) adalah besarnya probabilitas memperoleh kartu 5 dari keseluruhan kartu remi, yaitu 4 / 52 = 1/13 (4 kartu berangka 5 dari 52 total kartu remi). Jika kita kalikan keduanya, kita memperoleh angka 1/52 (1/4 dikalikan 1/13).  Ternyata besarnya hasil perkalian ini sama dengan hasil perkalian antara Pr(D|H0) dan Pr(H0). Pr(D|H0) adalah probabilitas memperoleh kartu berangka 5 jika kita tahu bahwa kartu tersebut berjenis hati (besarnya 1/13). Sementara Pr(H0) adalah besarnya probabilitas memperoleh kartu berjenis hati dari keseluruhan kartu remi (besarnya = 13 kartu berjenis hati / 52 total kartu remi=1/4). Hasil perkaliannya sama dengan 1/52. 

Baik Pr(H0|D)Pr(D) maupun Pr(D|H0)Pr(H0) menghasilkan nilai yang menggambarkan probabilitas gabungan (Joint Probability), atau dalam contoh kartu remi di atas probabilitas kartu yang saya pegang adalah kartu berjenis Hati dan berangka 5, yaitu sebesar 1/52 (hanya ada satu kartu berjenis Hati dan berangka 5 dibagi 52 kartu remi). Keterkaitan ekspresi probabilitas no 1 dan no 2 inilah yang memungkinkan kita memperoleh Pr(H0|D) dari Pr(D|H0) atau sebaliknya. 


Informasi yang Dibutuhkan

Meskipun kita bisa memperoleh informasi mengenai Pr(H0|D) dari Pr(D|H0) atau nilai p, ada beberapa informasi tambahan yang dibutuhkan yaitu Pr(H0) dan Pr(D). Pr(H0) disebut juga sebagai Probabilitas Prior (Prior Probability atau Prior Distribution).  Tanpa mengetahui Pr(H0) ini, kita tidak dapat memperoleh apa yang kita inginkan. Informasi mengenai Probabilitas Prior ini cukup penting karena informasi keliru mengenai Probabilitas Prior ini bisa berdampak pada kesalahan perhitungan Pr(H0|D). 

Informasi kedua yang dibutuhkan adalah Pr(D). Dalam kondisi tertentu, peneliti dapat berasumsi bahwa Pr(D) bersifat menetap sehingga kita dapat berasumsi  bahwa Pr(H0|D) proporsional terhadap Pr(D|H0)*Pr(H0)


Demikian sekilas mengenai ide awal analisis menggunakan paradigma Bayesian. Dengan pendekatan Bayesian inilah muncul teknik Markov Chain Monte Carlo (MCMC) yang seringkali digunakan untuk memecahkan persamaan yang tidak memiliki closed form. 

Sabtu, Juli 30, 2016

Fun Facts Koefisien Regresi (Terstandardisasi), Korelasi Parsial dan Semi-Parsial

Ketika berbicara tentang regresi, ada dua statistik lain yang memiliki hubungan sangat dekat dengan koefisien yang dihasilkannya, khususnya slope baik yang tidak terstandardisasi (unstandardized) maupuan yang terstandardisasi (standardized). Pembahasan kali ini dilakukan dengan tujuan menunjukkan kedekatan makna statistik-statistik tersebut, kesamaan dan perbedaannya dengan harapan dapat membantu pemahaman pembaca tentang empat statistik tersebut. 


Notasi

Sebelum pembahasan dimulai, ada baiknya saya memaparkan dulu lambang-lambang yang akan saya gunakan dalam artikel ini untuk mempermudah pembaca. 
  1. Huruf kecil b digunakan untuk melambangkan koefisien regresi yang tidak terstandardisasi, mengikuti lambang yang digunakan oleh SPSS yang kiranya banyak digunakan di Indonesia. 
  2. Huruf latin  digunakan untuk melambangkan koefisien regresi yang terstandardisasi, mengikuti lambang yang digunakan oleh SPSS. 
  3. Lambang  digunakan untuk melambangkan koefisien korelasi parsial antara y dan variabel prediktor pertama (X1) dengan mengendalikan variabel prediktor kedua (X2). 
  4. Lambang  digunakan untuk melambangkan koefisien korelasi semi-parsial antara y dan X1 dengan mengendalikan X2. 
  5. Lambang  digunakan untuk melambangkan koefisien korelasi antara y dan X1. 
  6. Lambang  digunakan untuk melambangkan koefisien korelasi antara X1 dan X2

Fun Facts No 1: Memiliki Pembilang yang Sama

Baiklah ini saatnya kita membandingkan keempat rumus koefisien-koefisien tersebut. Anggaplah kita saat ini berhadapan dengan kasus analisis yang melibatkan satu variabel kriterion (Y) dan dua variabel prediktor (X1 dan X2). Ilustrasi ini dilakukan untuk membuat perbandingan antar koefisien menjadi cukup jelas. Melibatkan terlalu banyak variabel prediktor akan membuat rumus menjadi terlalu kompleks sehingga justru akan mempersulit pemahaman pembaca. 

Rumus Koefisien b
Rumus Koefisien
Rumus Koefisien
Rumus Koefisien


Kita dapat melihat bahwa pembilang dari rumus-rumus tersebut sama persis satu dengan yang lain, yang membedakan hanyalah penyebutnya saja. Penyebutnya pun tidak jauh berbeda satu dengan yang lain. Jadi sebenarnya keempat rumus tersebut dapat dikatakan menceritakan kisah yang mirip tentang hubungan antara X1 dengan Y dengan mengendalikan X2. 

Misalnya, koefisien slope dari regresi, baik yang terstandardisasi maupun yang tidak, bercerita tentang seberapa banyak Y akan berubah ketika X1 memiliki nilai 1 point lebih tinggi, dengan mengendalikan X2. Atau dengan kata lain berapa banyak Y akan berubah ketika X1 memiliki nilai 1 point lebih tinggi, pada nilai X2 yang sama. 

Fun Facts 2: Memiliki Nilai yang Berbeda, tetapi Memberikan Hasil Uji Signifikansi yang Sama. 

Karena keempat statistik tersebut memiliki penyebut yang berbeda, maka wajar kiranya jika keempatnya memberikan hasil yang berbeda. Namun demikian, meskipun nilai yang dihasilkan berbeda, tetapi uji signifikansi dari keempatnya selalu memberikan hasil yang sama. 

Untuk membuktikannya, saya akan menunjukkan suatu ilustrasi menggunakan program R (Tips: anda bisa meng-copy-paste baris-baris perintah tersebut di bawah langsung ke dalam console R dan menekan "Enter" untuk menjalankannya. Perintah dari program R saya cetak tebal dan diberi warna biru). 

1. Pertama-tama saya perlu membuat terlebih dulu data simulasi dengan cara berikut:
set.seed(8888)
x1=rnorm(100)
x2=0.4*x1+sqrt(1-0.4^2)*rnorm(100)
y=0.1*x1+0.15*x2+sqrt(1-0.02)*rnorm(100)

2. Saya menghitung semua nilai yang saya butuhkan untuk menghitung keempat statistik menggunakan rumus di atas, seperti standard deviasi, korelasi antar variabel, dll, dengan perintah berikut ini: 
s1=sd(x1)
s2=sd(x2)
sy=sd(y)
ry1=cor(x1,y)
ry2=cor(x2,y)
r12=cor(x1,x2)
z1=(x1-mean(x1))/sd(x1)
z2=(x2-mean(x2))/sd(x2)
zy=(y-mean(y))/sd(y)

3.  Rumus dari keempat statistik di atas saya aplikasikan sebagai berikut:
b=(ry1-ry2*r12)/(1-r12^2)*(sy/s1)
beta=(ry1-ry2*r12)/(1-r12^2)
par.r=(ry1-ry2*r12)/sqrt((1-r12^2)*(1-ry2^2))
semi.par.r=(ry1-ry2*r12)/sqrt((1-r12^2))

4. Hasil perhitungan keempat rumus tersebut saya bandingkan dengan hasil dari program R (lambang > menunjukkan saya mengetik perintah ini langsung di console R):
     a. Untuk nilai koefisien yang tidak terstandardisasi
>b
[1] 0.1868164
>lm(y~x1+x2)

Call:
lm(formula = y ~ x1 + x2)

Coefficients:
(Intercept)       x1       x2
-0.01433     0.18682  0.26569
   
     b. Untuk nilai koefisien yang terstandardisasi
>beta
[1] 0.1740606
>lm(zy~z1+z2)

Call:
lm(formula = zy ~ z1 + z2)

Coefficients:
(Intercept)       z1        z2
-5.449e-17 1.741e-01 2.226e-01
    
   c. Untuk nilai korelasi parsial dan semi parsial (saya menggunakan paket program R bernama ppcor. Pembaca perlu menginstal paket ini terlebih dulu sebelum menjalankan baris perintah berikut ini):
>library(ppcor)
>par.r #korelasi parsial. Bagian setelah tanda pagar adalah komentar
[1] 0.1742675
>pcor(cbind(x1,x2,y))$estimate[3,1]
[1] 0.1742675
>semi.par.r #korelasi semi-parsial. Bagian setelah tanda pagar adalah komentar
[1] 0.1678641
>spcor(cbind(x1,x2,y))$estimate[3,1]
[1] 0.1678641
    
    d. Untuk uji signifikansi, kita bandingkan dari hasil analisis menggunakan program R:
>summary(lm(y~x1+x2))$coeff[2,1:4]
    Estimate  Std. Error     t value    Pr(>|t|)
  0.18681637  0.10718053  1.74300648    0.08450135
> summary(lm(zy~z1+z2))$coeff[2,1:4]
    Estimate  Std. Error     t value    Pr(>|t|)
  0.17406065  0.09986231  1.74300648    0.08450135
> c(pcor(cbind(x1,x2,y))$statistic[3,1],c(pcor(cbind(x1,x2,y))$p.value[3,1])
[1] 1.74300648 0.08133248
> c(spcor(cbind(x1,x2,y))$statistic[3,1],c(spcor(cbind(x1,x2,y))$p.value[3,1])
[1] 1.67706738 0.09352931
Dapat kita lihat, khususnya untuk no d. bahwa meskipun nilai yang dihasilkan keempat rumus tersebut berbeda, uji signifikansi memberikan kesimpulan yang sama, bahkan juga nilai t yang sama, kecuali untuk korelasi semi-parsial. 

Fun Facts 3: Kuadrat Korelasi Semi-Parsial Sama Dengan Besarnya Perubahan R Kuadrat. 

Jika kita mengkuadratkan nilai korelasi semi-parsial, maka hasilnya akan sama dengan besarnya perubahan nilai R kuadrat dari nilai yang diperoleh dengan hanya melibatkan X2 ke nilai yang diperoleh ketika memasukkan X1 ke dalam persamaan regresi. 

Ilustrasi dapat dilihat berikut ini: 
>summary(lm(y~x1+x2))$r.squared
[1] 0.1003169
>summary(lm(y~x2))$r.squared
[1] 0.07213849
>0.1003169-0.07213849
[1] 0.02817841
>semi.par.r^2
[1] 0.02817837


Fun Facts 4: Cara Lain Memperoleh Keempat Koefisien Di Atas

1. Proses memperoleh koefisien regresi tak terstandardisasi
  • Lakukan regresi dengan X1 sebagai kriterion dan X2 sebagai prediktor, simpan residualnya (sebut saja X1*)
  • Lakukan regresi dengan Y sebagai kriterion dan X2 sebagai prediktor, simpan residualnya (sebut saja YX2*)
  • Lakukan regresi dengan YX2* sebagai kriterion dan X1* sebagai prediktor
  • Ilustrasi:
>x1.star=lm(x1~x2)$residual
>yx2.star=lm(y~x2)$residual
>lm(yx2.star~x1.star)$coeff
    (Intercept)      x1.star
 -1.421335e-17  1.868164e-01

>lm(y~x1+x2)$coeff
   (Intercept)            x1          x2 

   -0.01433446    0.18681637  0.26569439 

  • Berdasarkan proses tersebut, kita dapat melihat bahwa koefisien regresi menggambarkan efek1  dari sebagian X1 yang tidak dapat dijelaskan X2 (residu dari hasil regresi X1 pada X2) pada bagian dari Y yang tidak dapat dijelaskan oleh X2 (yaitu residu dari hasil regresi Y pada X2). 
2. Proses memperoleh koefisien regresi terstandardisasi

  • Prosesnya sama dengan no 1, hanya saja sebelum dilakukan analisis, semua variabel diubah dalam skor standard. 
3. Proses memperoleh koefisien korelasi parsial
  • Lakukan regresi dengan X1 sebagai kriterion dan X2 sebagai prediktor, simpan residualnya (sebut saja X1*)
  • Lakukan regresi dengan Y sebagai kriterion dan X2 sebagai prediktor, simpan residualnya (sebut saja YX2*)
  • Lakukan korelasi antara YX2* dan X1*
  • Ilustrasi:
>x1.star=lm(x1~x2)$residual
>yx2.star=lm(y~x2)$residual
>cor(yx2.star,x1.star)
[1] 0.1742675

>pcor(cbind(x1,x2,y))$estimate[3,1]
[1] 0.1742675

  • Berdasarkan proses tersebut kita dapat melihat keterkaitan antara korelasi parsial dengan koefisien regresi. Korelasi parsial oleh karenanya berbicara tentang korelasi antara bagian X1 yang tidak dapat dijelaskan X2 dengan bagian Y yang tidak dapat dijelaskan X2. 
  • Kuadrat dari korelasi parsial memberikan gambaran besarnya proporsi variasi Y yang tidak dapat dijelaskan X2 yang secara unik dapat dijelaskan oleh X1. 

4.Proses memperoleh koefisien korelasi semi-parsial

  • Lakukan regresi dengan X1 sebagai kriterion dan X2 sebagai prediktor, simpan residualnya (sebut saja X1*)
  • Lakukan korelasi antara Y dengan X1* 
  • Ilustrasi:
>x1.star=lm(x1~x2)$residual
>cor(x1.star,y)$coeff
[1] 0.1678641 

>spcor(cbind(x1,x2,y))$estimate[3,1]
[1] 0.1678641

  • Berdasarkan proses tersebut kita dapat melihat bahwa korelasi semi parsial merupakan korelasi antara X1 dengan bagian dari Y yang tidak dapat dijelaskan oleh X2. 
Semoga penjelasan di atas dapat memberikan gambaran tentang keterkaitan keempat koefisien tersebut maupun gambaran tambahan mengenai apa yang dapat di'kisah'kan oleh tiap koefisien tersebut. 

Kode R di atas juga dapat dilihat (di-copy dan pastedari sini




1 Penulis menggunakan kata efek; hanya untuk kemudahan interpretasi. Kata 'efek' di sini tidak dimaksudkan untuk menunjukkan kemampuan regresi dalam memberikan bukti megenai hubungan sebab-akibat atau adanya pengaruh.

Rabu, Juli 27, 2016

Validitas Kesimpulan Penelitian (Bagian 2)

Tulisan ini merupakan lanjutan dari tulisan sebelumnya Validitas Kesimpulan Penelitian (Bagian 1). Dalam bagian ini, saya akan membahas dua tipe validitas yang berikutnya setelah dua lainnya dijelaskan di bagian pertama. 


3. Validitas Konstruk

Tipe validitas kesimpulan penelitian ini terkait dengan pertanyaan: "Apakah intervensi / tritmen dan / atau pengukuran yang dilakukan dalam suatu penelitian mewakili secara tepat konstruk yang hendak diwakili?". Misalnya jika seorang peneliti memilih melakukan perlakuan dalam bentuk berbicara di depan umum untuk mewakili konstruk situasi mencemaskan, maka apakah intervensi tersebut telah benar-benar mewakili konstruk 'situasi mencemaskan' tersebut. Validitas konstruk di sini berkenaan baik dengan intervensi maupun instrumen pengukuran. 

Ancaman terbesar terhadap validitas konstruk ini adalah "tindakan yang dimaksudkan untuk menggambarkan suatu konstruk mengenai sebab [variabel independen] atau akibat [variabel dependen] dapat ditafsirkan sebagai perwakilan dari lebih dari satu konstruk, yang masing-masing dinyatakan pada tingkatan reduksi yang sama"[1,hal 59]. Atau dengan kata lain, konstruk yang berbeda dapat memiliki operasionalisasi yang sama baik dalam bentuk intervensi maupun instrumen pengukuran. 

Beberapa ancaman lain terhadap validitas konstruk misalnya:
  1. Bias peneliti, khususnya dalam penelitian eksperimental ketika peneliti tidak melakukan blind atau double blind sehingga muncul perlakuan eksperimenter yang berbeda terhadap kelompok kontrol di luar perlakuan yang menjadi tujuan penelitian.
  2. Treatment diffusion, atau perlakuan yang 'bocor' akibat adanya komunikasi antara kelompok eksperimen dengan kelompok kontrol. 
  3. Resentful demoralization, atau menurunnya semangat kelompok kontrol karena mereka tidak 'terpilih' sebagai kelompok yang memperoleh perlakuan. 
  4. Compensatory rivalry, atau meningkatnya semangat kelompok kontrol sebagai usaha untuk menunjukkan bahwa mereka tetap memberikan hasil yang baik meskipun tidak menerima perlakuan. 
  5. Eksplikasi konstruk preoperasional yang tidak tepat terjadi ketika peneliti kurang berhati-hati dalam menentukan komponen utama dari konstruk yang hendak dijadikan dasar penyusunan intervensi atau pengukuran. Eksplikasi konstruk ini tidak hanya meliputi usaha mendefinisikan konstruk dengan komprehensif tetapi juga memberikan batasan yang jelas dari konstuk-konstruk lainnya, khususnya konstruk yang berdekatan maknanya. 
  6. Mono-operation bias, atau penggunaan hanya satu set perlakuan atau pengukuran untuk mewakili suatu konstruk, sementara ada beberapa kemungkinan set lain yang seharusnya dipertimbangkan. 

4. Validitas Eksternal

Validitas eksternal terkait dengan generalisasi hasil penelitian pada seluruh populasi atau lintas waktu dan keadaan. Kemampuan sampel untuk merepresentasikan populasi merupakan isu utama dalam validitas eksternal ini. Validitas eksternal dapat ditingkatkan dengan meningkatkan heterogenitas sampel, baik sampel subjek penelitian maupun sampel waktu dan keadaan.  


Pustaka

[1] Cook, T.D., & Campbell, D.T.(1979).Quasi-experimentation: Design and analysis issues for field settings. Chicago: Rand McNally.

Selasa, Juli 26, 2016

Validitas Kesimpulan Penelitian (Bagian 1)

Validitas kesimpulan penelitian dalam tulisan ini didasarkan pada dua buku [1,2] yang menurut saya sangat lengkap membahas validitas kesimpulan penelitian. Dalam beberapa 'ajaran' di kelas metodologi yang saya ingat, biasanya istilah yang sering digunakan untuk menggambarkan validitas pengambilan kesimpulan ini adalah validitas penelitian. Istilah ini sepertinya dipilih untuk memilahnya dari validitas pengukuran. Saya pribadi lebih sreg dengan istilah validitas kesimpulan (inferensi) penelitian, karena yang dinilai valid adalah kesimpulan penelitiannya bukan penelitiannya itu sendiri. 

Valid berarti benar atau tepat. Kesimpulan penelitian dianggap valid jika kesimpulan tersebut dengan benar atau tepat menggambarkan fenomena yang diteliti. Misalnya: ketika peneliti menyimpulkan dari hasil penelitiannya bahwa ada pengaruh A terhadap B, maka kesimpulan ini dianggap valid bila realitasnya memang ada pengaruh A terhadap B. 

Validitas kesimpulan penelitian ini tentu saja tidak bersifat dikotomis (valid-tidak valid) dan tidak dapat diketahui dengan pasti. Namun demikian, peneliti dapat merencanakan dan menjalankan desain penelitian yang dianggap dapat memberikan bukti-bukti kuat (compelling evidence) yang mendukung kesimpulan penelitian. Dengan demikian, pembaca penelitian tersebut akan semakin diyakinkan bahwa kesimpulan penelitian memang dengan tepat menggambarkan fenomena yang diteliti. 

Ada 4 tipe validitas kesimpulan penelitian, yaitu [1,2]:
  1. Validitas Kesimpulan Statistik
  2. Validitas Internal
  3. Validitas Konstruk
  4. Validitas Eksternal
Ke-empat tipe validitas ini akan dibahas dalam tulisan kali termasuk ancaman-ancaman terhadap validitas kesimpulan penelitian dalam tipe tertentu. Penjelasan mendalam dapat diperoleh melalui dua pustaka yang saya sertakan di bawah. 

1. Validitas Kesimpulan Statistik

Validitas kesimpulan statistik terkait dengan pertanyaan: "apakah kesimpulan hasil analisis statistik sudah tepat?" Salah satu kesimpulan hasil analisis statistik yang sering diambil adalah apakah kita menolak atau gagal menolak hipotesis nol (H0: H nol). Ini berarti validitas kesimpulan statistik terkait dengan:

  1. Jika kita menolak H0, apakah besarnya tipe kesalahan 1 (alpha:menolak H0 yang benar) sesuai dengan yang kita tetapkan di awal. Misalnya, jika kita telah menetapkan bahwa kita hanya mengijinkan alpha sebesar 0.05, apakah hasil analisis statistik yang kita peroleh benar-benar memiliki alpha sebesar 0.05. Ini terkait dengan isu mengenai pengujian yang terlalu liberal: pengujian statistik mengakibatkan alpha lebih besar daripada yang diharapkan. Misalnya, meskipun program analisis statistik p < 0.05, sebenarnya p memiliki nilai yang lebih besar dari alpha = 0.05. Kesalahan ini dapat mengakibatkan kita menganggap adanya efek atau korelasi atau perbedaan mean, yang sebenarnya tidak ada di populasi. 
  2. Jika kita gagal menolak H0, apakah besarnya tipe kesalahan 2 (beta: gagal menolak H0 yang salah) tergolong kecil. Misalnya jika hasil analisis statistik menunjukkan tidak adanya perbedaan mean, maka apakah hasil ini memang diakibatkan tidak adanya perbedaan mean di populasi, atau hanya diakibatkan lemahnya sensitivitas analisis atau disebut juga power.  Pengujian statistik seperti ini disebut pengujian statistik yang terlalu konservatif. 
Ada beberapa ancaman yang dapat menyebabkan pengujian statistik menjadi terlalu liberal atau terlalu konservatif.

Pengujian statistik yang terlalu liberal, dapat diakibatkan oleh beberapa hal (catt: daftar di bawah ini tidak mencatat semua kemungkinan penyebab, oleh karena itu peneliti perlu memikirkan kemungkinan lainnya):
  1.  Melakukan pengujian lebih dari satu kali untuk membuktikan satu hipotesis umum yang sama. Beberapa penulis menyebutnya sebagai familywise error rate  atau experimentwise error rate. Ancaman ini dapat diatasi dengan melakukan misalnya penyesuaian alpha yang dikehendaki dengan teknik-teknik seperti Bonferroni, Tukey, Scheffe, dan lain-lain. 
  2. Pelanggaran asumsi oleh data penelitian. Pelanggaran asumsi dapat mengakibatkan baik uji statistik menjadi terlalu liberal atau konservatif. Ancaman ini dapat dikurangi dengan memilih analisis statistik yang robust terhadap pelanggaran asumsi oleh data. 
  3. Estimasi efek yang bias karena didasarkan pada sampel. Misalnya estimasi R kuadrat merupakan estimasi yang bias terhadap kondisi R kuadrat di populasi. Oleh karena itu ada beberapa teknik yang ditawarkan untuk mengoreksi estimasi ini agar lebih mendekati nilai di populasi. 
  4. Adanya researcher degrees of freedom [3,4], yaitu pilihan-pilihan peneliti yang terkait dengan desain penelitian yang dilakukan secara sembarangan, seperti pemilihan besarnya sampel, pemilihan variabel, dll. Misalnya peneliti mengumpulkan data mengenai banyak variabel kemudian 'memancing' variabel-variabel mana yang sekiranya berkorelasi satu dengan lain. Praktek ini akan meningkatkan probabilitas munculnya false positive  atau probabilitas kesalahan pengambilan kesimpulan mengenai parameter populasi ketika penelitian menunjukkan hasil yang signifikan.
  5. Kesalahan spesifikasi model dalam analisis. Kesalahan ini akan menyebabkan bias estimasi parameter yang dapat berakibat pada hasil analisis yang terlalu liberal. Kesalahan ini dapat terjadi ketika peneliti mengabaikan variabel yang penting atau relevan di dalam analisisnya. Peneliti dapat menghindari kesalahan ini dengan melakukan studi literatur yang sekomprehensif mungkin dan memasukkan selengkap mungkin variabel-variabel yang penting dalam analisis. 
Pengujian statistik yang terlalu konservatif, atau dapat dipandang juga sebagai lemahnya power dari analisis yang dilakukan.  Lemahnya power ini merupakan kendala yang dialami banyak penelitian di Psikologi [5]. Ancaman ini dapat muncul karena beberapa hal: 
  1. Ukuran sampel terlalu kecil. Cara yang paling sederhana untuk mengatasi ancaman ini adalah dengan merencanakan ukuran sampel sebelum penelitian. Ini dapat dilakukan dengan menggunakan power analysis [5]. 
  2. Reliabilitas pengukuran yang terlalu rendah. Reliabilitas yang rendah akan berdampak pada melebarnya standard error dan bias estimasi parameter. Ini akan membuat analisis cenderung memberikan hasil yang tidak signifikan dibandingkan yang seharusnya. 
  3. Variasi yang sangat besar pada subjek penelitian sehingga mengakibatkan besarnya standard error dari estimasi parameter. Ancaman ini dapat diatasi dengan mengendalikan variasi individu ini, misalnya dengan menggunakan statistik dengan memperlakukan variabel dengan variasi yang besar sebagai kovariat atau dengan memilih desain penelitian yang dapat mengurangi variasi ini seperti penggunaan desain penelitian amatan ulang atau penggunaan matched-pairs
  4. Pelanggaran asumsi oleh data juga dapat menyebabkan lemahnya power dari analisis, oleh karena itu transformasi data atau penggunaan analisis statistik yang robust dapat dijalankan untuk mengatasi ancaman ini. 

2. Validitas Internal

Validitas internal merupakan validitas terkait dengan pengambilan kesimpulan mengenai hubungan kausal / adanya pengaruh antara variabel independen dan variabel dependen. Validitas internal akan makin tinggi ketika penelitian dapat menyajikan dukungan yang meyakinkan akan adanya hubungan kausal ini. Ada beberapa ancaman yang dapat membuat keyakinan akan hubungan kausal ini melemah: 
  1. Bias seleksi; yaitu ketika karakteristik partisipan yang dikenai intervensi dan yang tidak memiliki perbedaan mencolok yang juga dapat mempengaruhi variabel dependen. Jika dalam penelitian tersebut diperoleh adanya perbedaan efek yang signifikan, maka akan muncul keraguan apakah efek ini dapat berasal dari intervensi yang diberikan atau akibat perbedaan karakteristik partisipan tadi. 
  2. Subjek gugur / mortalitas; yaitu ketika partisipan dengan karakteristik tertentu tidak lagi dapat diambil datanya atau memutuskan tidak mau lagi terlibat dengan penelitian. Karakteristik partisipan ini berkaitan dengan variabel dependen, sehingga keluarnya partisipan ini akan mempengaruhi hasil analisis. Keraguan akan muncul mengenai efek yang terlihat atau tidak terlihat, apakah ini diakibatkan intervensi atau karena berkurangnya partisipan yang memiliki karakteristik penting. 
  3. Pengetesan; yaitu perubahan skor tes dari subjek penelitian yang tidak diakibatkan oleh intervensi melainkan karena terbawanya efek saat pengetesan pertama. Ancaman ini relevan ketika peneliti merancang desain yang melibatkan amatan ulang. 
  4. Regresi; yaitu perubahan skor seseorang pada variabel dependen, khususnya ketika orang tersebut memiliki skor yang ekstrim, yang diakibatkan oleh fenomena statistik bukan karena intervensi. 
  5. Kematangan; yaitu perubahan skor tes yang tidak diakibatkan oleh intervensi, melainkan oleh kematangan subjek penelitian secara alami. 
  6. Sejarah; yaitu perubahan skor tes yang tidak diakibatkan oleh intervensi, melainkan oleh peristiwa yang terjadi bersamaan dengan dilakukannya intervensi. 



Pustaka
[1]  Shadish, W., Cook. T. D., & Campbell, D. T.(2002). Experimental and quasi-experimental designs for generalized causal inference. Boston: Houghton Mifflin Company.

[2] Maxwell, S. & Delaney, H. (2004). Designing experiments and analyzing data : A model comparison perspective. New York, NY.: Psychology Press.

[3] Simmons, J., Nielson, L., and Simonsohn, U., (2011), False-positive psychology: Undisclosed flexibility in data collection an analysis allows presenting anything as significant. Psychological Science. 22(11): 1359 - 1366.

[4] John, L.K., Loewenstein, G., & Prelec, D. (2012). Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychological Science 23(5):524 to 532.

[5] Cohen, J.(1998) Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum Associates.