Iklan 1

Selasa, November 20, 2007

Validitas Pengukuran

Ada sebuah pertanyaan dalam komentar yang saya pikir ada baiknya dibahas secara mendalam dalam satu posting sendiri. Terima kasih buat vensi_arg yang sudah kirim pertanyaan. Pertanyaannya seperti ini:

pak, mohon bantuannya
saya jadi bingung bagaimana mengukur validitas yang benar...
karena setau saya menggunakan korelasi item-total, namun ternyata korelasi tersebut bukan merupakan validitas yang sebenarnya hanya gambaran. lalu pengukuran validitas manakah yang akurat?
ada yang mengatakan dengan melihat coreccted aitem-total corelation pada uji realibilitas alpha crobach

mohon bantuannya pak
terima kasih..

Mengenai korelasi item total baik yang dikoreksi (corrected item total correlation) atau tidak bisa dilihat dalam pembahasan mengenai hal ini dalam posting terdahulu : Korelasi Item Total = Validitas Item?

Baiklah sekarang kita menginjak tema satu ini: (drum role please) Validitas Pengukuran

Pada intinya validitas pengukuran memberikan gambaran mengenai seberapa jauh pengukuran yang kita lakukan itu memang mengukur sesuai yang ingin diukur. Maksudnya apakah pengukuran telah memenuhi tujuannya. Misalnya kita ingin mengukur inteligensi, maka apakah alat yang kita pakai untuk mengukur inteligensi itu memang benar-benar mengukur inteligensi bukan yang lain misalnya seperti yang dicurigai orang selama ini : kemampuan akademik. Atau jika kita ingin mengukur kecemasan, apakah alat yang kita pakai memang mengukur kecemasan bukan depresi misalnya.

Nah untuk validitas ini bisa diestimasi dengan berbagai cara. Saya akan menggunakan pengklasifikasian yang biasa dipakai di kelas yang mengacu buku-buku Saifuddin Azwar dengan sedikit modifikasi:

  1. Validitas tampang; pendekatan ini menggunakan penilaian subjektif dari subjek atau testee mengenai keabsahan tes. Tentunya metode ini hanya dapat digunakan jika tujuan alat ukur memang secara jelas dapat diketahui oleh testee. Misal tes yang digunakan di kelas untuk mengukur hasil belajar.Validitas tampang yang tinggi dapat diperoleh jika testee setuju kalau tes yang mereka kerjakan memang mengukur apa yang ingin diukur. Validitas tampang yang tinggi dapat berarti buruk pada tes atau skala yang tujuan pengetesannya sebaiknya tidak diketahui oleh subjek. Misalnya skala sikap. Jika subjek dapat mengetahui tujuan pengukuran dari melihat tes, maka kita akan meragukan hasil pengukurannya. Karena subjek memiliki kemungkinan untuk memberikan respon yang bias (tidak sesuai dengan apa yang dia alami tapi lebih pada respon yang seharusnya diberikan).
  2. Validitas Isi; pendekatan ini menggunakan kriteria berupa tabel spesifikasi yang berisi domain dari tes. Domain ini dapat berasal dari (1) teori yang mendukung konstruk yang diukur (lihat post Stop Press: Aspek, Indikator, Dimensi dan Faktor),(2) kurikulum, jika pengukuran dilakukan pada hasil prestasi belajar (3) kebutuhan yang menjadi persyaratan, ini khususnya jika pengukuran dimaksudkan sebagai alat seleksi. Dalam hal ini estimasi validitas dilakukan dengan membandingkan teori dengan tabel spesifikasi dan item yang disusun, apakah tabel spesifikasi selaras dengan teori yang mendasarinya, dan apakah item memang mengungkap aspek yang ingin diukur. Penilaian mengenai hal ini dapat dilakukan oleh penilai profesional (professional judgement). Beberapa buku menyebutnya sebagai Validitas Isi Logis .
  3. Validitas Kriteria; pendekatan ini dapat dilakukan dengan mengkorelasikan hasil tes (berupa skor) yang ingin diestimasi validitasnya dengan kriteria berupa hasil tes lain atau perilaku prediksi yang diharapkan. Misalnya kita ingin mengestimasi validitas tes inteligensi yang sudah kita susun. Kita dapat melakukannya dengan mengkorelasikan hasil tes inteligensi kita dengan hasil tes inteligensi lain yang sudah baku. Jika korelasi antara hasil tes inteligensi kita dengan yang sudah baku itu positif dan tinggi, maka dapat dikatakan tes inteligensi kita memiliki validitas yang baik. Metode ini disebut juga concurrent criterion-related validity. Atau kita juga dapat mengestimasi dengan mengkorelasikan hasil tes inteligensi kita dengan perilaku prediksi yang diharapkan, misalnya prestasi belajar siswa di sekolah. Jika hasil korelasi bernilai positif dan tinggi, maka dapat dikatakan tes inteligensi kita memiliki validitas prediktif yang baik terhadap prestasi di sekolah. Ada beberapa syarat yang perlu dipenuhi kriteria yang akan digunakan yaitu: relevan, reliabel, tidak bias, dan dapat diperoleh.
  4. Validitas Konstruk; estimasi validitas konstruk dilakukan dengan membandingkan 'perilaku' skor tes dengan teori yang mendasari tesnya. Misalnya dalam teori dikatakan inteligensi itu memiliki korelasi positif dengan bakat kognitif tapi tidak memiliki korelasi dengan bakat musik. Maka tes inteligensi yang kita buat dapat dikatakan memiliki validitas konstruk jika skor tesnya memiliki korelasi yang positif dengan hasil skor tes bakat kognitif dan tidak memiliki korelasi yang signifikan dengan bakat musik. Ada cukup banyak teknik yang dapat digunakan untuk mengestimasi validitas konstruk ini, misalnya dengan menggunakan Analisis Faktor atau metode Multi-Trait Multi-Method.
Estimasi validitas no 1 dan 2 dapat dilakukan tanpa menggunakan skor tes yang bersangkutan. Sementara no 3 dan 4 kita harus melakukan pengetesan untuk memperoleh skor tes untuk dikorelasikan atau dibandingkan dengan skor tes lain.

Dalam penelitian di jenjang S-1 biasanya mahasiswa tidak dituntut untuk melakukan estimasi validitas menggunakan Validitas Kriteria apalagi Validitas Konstruk. Biasanya hanya dituntut untuk melakukan estimasi dengan menggunakan pendekatan validitas tampang dan isi logis saja.

OK semoga bisa menjawab kegundahan hati vensi_arg mengenai validitas pengukurannya.


Measurement and Evaluation in Psychology and Education (8th Edition)     Educational Measurement Fourth Edition (American Council on Education/Oryx Press Series on Higher Education)      Reliability and Validity Assessment (Quantitative Applications in the Social Sciences)

17 komentar:

Arya mengatakan...

kalo dari penjelasannya, mengenai validitas terkesan teoritis. Ada nggak pak suatu metode pengukuran validitas? Maksudnya, ada nggak rumus untuk hitung/ukur validitas ?

Lalu, cara terbaik untuk menguji validitas gimana pak? (untuk semua jenis validitas).

Makasi....

Agung Santoso mengatakan...

Terima kasih Arya atas komentarnya.
Begini, Validitas itu tidak selalu ada rumusnya. Bahkan tidak ada yang namanya rumus mencari Validitas.

Validitas itu konsep mengenai keabsahan hasil ukur. Nah untuk mengukur keabsahan itu kita bisa menggunakan beberapa cara seperti yang sudah dijelaskan.

Dengan bertanya pada para ahli (Validitas Isi Logis), bertanya pada subjek (Validitas Tampang), mengkorelasikan dengan hasil tes lain yang mengukur konstruk yang sama (Validitas Konkuren), korelasi dengan perilaku prediktifnya (Validitas Prediktif), dll.

Validitas Konkuren dan Prediktif seringkali memanfaatkan teknik korelasi Product Moment dari Pearson untuk mendapatkan koefisien validitasnya. Tapi bisa juga menggunakan beta dari analisis regresi hanya jarang yang melakukan.

Validitas faktorial biasanya menggunakan analisis faktor dalam prakteknya. Tapi juga bisa menggunakan teknik yang lebih advance seperti Structural Equation Modelling. Dan seterusnya. Tinggal gimana mempraktekkan konsep validitas ini pada data yang kita dapatkan.

Semoga bisa menjawab.

vensi_arg mengatakan...

Terima Kasih atas tanggapannya pak..
saya ingin tanya lagi
apakah validitas tampang itu harus ditanyakan ke subjek?
kemudian saya pernah membaca kalau face validity itu seperti melihat tampilan alat ukur sudah baik atau tidak, seperti kesesuaian bahasa dengan konteks subjek dan informasi tertulis yang jelas dan relavan.
Terima Kasih

Agung Santoso mengatakan...

Begini vensi,
Sebenarnya nggak ada patokan mati bahwa ini harus begini atau begitu. Semua didasarkan pada penalaran saja. Misalnya validitas tampang. validitas mengenai apakah tes terlihat atau 'bertampang' mengukur konstruk tertentu. Nah siapa yang bisa memberikan informasi ini? menurut saya yang paling tepat adalah subjek. Karena mungkin saja menurut kita tampangnya sudah oke, tapi menurut subjek nggak begitu. Ini berarti validitas tampangnya nggak terjamin to? Kan yang nanti mengerjakan tes ya subjeknya bukan kita. Jadi yang akan memberikan penilaian bahwa tes memang mengukur konstruk tertentu itu ya subjek.
Itu argumentasi saya, penalaran saya. Kalo kamu punya argumentasi sendiri coba disampaikan, kita diskusikan. OK?
btw boleh tahu nama aslimu?

Anonim mengatakan...

Bagaimana cara dalam pengukuran penelitian psikologi?
Saya adalah seorang mahasisiwi kesehatan masyarakat semester akhir, dan saya tertarik untuk melakukan penelitian (dalam rangka tugas akhir)tentang kondisi emosional ibu pasca melahirkan (yang lebih dikenal dengan baby blues).
Apakah saya cukup menilai gejala baby blues dengan skala nominal (ada gejala atau tidak ada gejala) atau ordinal (misal: sangat cemas, cemas cukup cemas, tidak cemas, dan sangat tidak cemas dengan melakukan skoring pada kuesionair)dan dengan metode wawancara.
Apakah hal ini cukup valid?
Adakah rujukan pengklasifikasian gejala emosional ibu pasca melahirkan?
Buku atau alamat website manakan yang dapat saya jadikan rujukan?
Atas bantuannya saya ucapkan terima kasih.
Saya sangat berterima kasih jika ada yang memberi informasi melalui email saya di: ana_aljembery@yahoo.com

Agung Santoso mengatakan...

untuk ana_aljembery@yahoo.com,

yang pertama perlu dilakukan adalah memperjelas konstruk yang hendak diukur. dalam hal ini perlu diperjelas apa yang dimaksud kondisi emosional ibu pasca melahirkan atau baby blues.apa definisinya, seperti apa ibu yang mengalami gejala ini, dst.

Setelah memiliki dasar yang kuat, baru kemudian bisa ditentukan cara mengukurnya. Misalnya kalau yang ingin dilihat adalah tingkat keseriusan gejala, maka pengukuran harus menghasilkan skor interval.dst.

baru kemudian disusun item berdasarkan teori yang mendasarinya.

Mengenai cara administrasinya itu juga bisa ditentukan sesuai situasi. kalau yang ingin diukur adalah perilaku tampaknya, maka sebaiknya menggunakan observasi, tapi kalau yang ingin diukur itu sifatnya laten, maka bisa menggunakan self report.

Mengenai baby blues sendiri, saya kurang banyak tahu. Yang pernah saya dengar adalah istilah post partum depression. Saya sendiri kurang tahu apakah keduanya sama. Mungkin ada teman yang bisa membantu?

Arya mengatakan...

mau nimbrung nih...

baby blues & post partum depression setahu saya sama. Keduanya mengacu ke pengertian di mana seorang ibu mengalami semacam beban mental (depresi) pasca kelahiran bayinya (umumnya yg bayi/anak pertama). Depresi yang dirasakan antara lain krn merasa gagal sebagai ibu dalam merawat anak (misalnya krn melihat sang suami tampak lebih telaten), merasa kehilangan perhatian dari suami (krn suami lbh memperhatikan sang anak), dsb.
Contoh kasusnya adalah yang dialami aktris Brooke Shield (pernah dibahas di Oprah Winfrey show).

Maaf, saya nggak bisa kasi sumbernya. Ini sejauh yang bisa saya ingat...

Ohya, untuk Pak Agung, mau kasi saran nih pak. Kalo mau tulis "untuk xxx" (xxx = orang yang dituju), mungkin sebaiknya lebih disamarkan jika menulis identitas orang yang dituju, khususnya jika yang ditulis alamat email. Jadi, misalnya pak_agung@XXX.com (XXX = yang disamarkan). Agak sepele sih tapi orang yang alamat email-nya ditulis lengkap begitu beresiko dapat kiriman SPAM, trojan, atau virus... Tapi, lain kasusnya kalo orang itu yang menulis alamat email-nya sendiri dgn lengkap (tanggungan sendiri).

thank u
:-)

ps: happy valentine's day... :-)

Agung Santoso mengatakan...

terima kasih Arya untuk 'peringatan'nya. Ya saya akan lebih berhati-hati menggunakan alamat email di posting. saya sebenarnya lebih suka menggunakan nama pengirim, tapi terkadang yang mengirim tidak memberikan nama, hanya alamat email. Ya mau tidak mau jadi pake alamat email deh untuk identitasnya (supaya pembaca tahu, jawaban saya ditujukan pada siapa).

ummu_abdisSalaam Rumaisya mengatakan...

terima kasih atas informasinya
Tapi yang sebenarnya saya ingin lebih tau adalaH:
Apakah ada skala pengukuran yang sudah tersedia sekaligus bersama validitasnya,realbilitasnya,
misalnya skala depresi Hamilton, atau yang lebih khusus skala postpartum blues.
Oh ya, postpartum blues adalah gejala kelainan emosional ibu pasca melahirkan, pada beberapa hari setelah melahirkan. sedangkan jika hal itu berlangsung berlarut-larut (berminggu-minggu), maka bisa menjadi depresi postpartum, jika hingga bertahun-tahun, maka ini bisa menjadi gangguan jiwa yang serius namanya Psikosis.

Jadi siapa saja yang tau tentang skala pengukuran depresi Hamilton, atau saya harus merujuk kemana untuk mendapat skala ini secara lengkap, silahkan mengirimkan email ke ana, asal jangan kirim virus.
Terima kasih,
jika anda muslim, semoga Alloh membalas kebaikan anda dengan kebaikan yang berlipat.

arenews mengatakan...

Pak, mengenai pertanyaan Arya soal "rumus hitung validitas",
boleh gak kalo kita mengukur face validity dan validitas isi dengan mengkuantifikasikannya? Mungkin bisa dengan bikin semacam "rating sheet" untuk peserta (untuk face validity) dan untuk para ahli (untuk Validitas isi)? Lalu score relatif-nya ini jd angka estimasi validitas. Bagaimana? Begini boleh?

Trims,
Arie

Agung Santoso mengatakan...

Terima Kasih Arie untuk pertanyaan dan komentarnya.

Idemu untuk mengkuantifikasi validitas tampang dan isi itu cukup menarik. Tentu saja cara apapun dapat dilakukan termasuk penggunaan rating scale. Hanya saja mungkin nanti akan ada masalah terkait dengan berapa angka yang dianggap valid? Misalnya seseorang memberi rating 3 dari 5 kategori. Dapatkah ini dikatakan valid? Bagaimana dasar pemikirannya?

Selain itu, khususnya validitas isi, tujuan utamanya memang untuk mengecek apakah item-item yang telah dibuat itu terkait dengan konstruk yang hendak diukur. Misalnya jika yang ingin diukur adalah hasil belajar matematika kelas 1, maka kita perlu memastikan apakah item-item yang kita susun itu memang sesuai dengan kurikulum matematika kelas 1. Mana item yang kurang sesuai, dan mana yang perlu diperbaiki. Serta mengapa. Nah tentunya informasi ini tidak sepenuhnya dapat diungkap menggunakan rating.

Rimsyah mengatakan...

pak....
sekarang saya sedang bikin skripsi...
untuk jenis data nominal yang saya peroleh dari angket, cara menguji
realibilitasnya pake apa ya pak....pake alpha cronbach kok hasilnya kecil,
ada yg bilang tidak usah dicek...
untuk diketahui angket nya ada 7 pertanyaan, semua menghasilkan data
nominal...
contohnya kapolsek yang anda anggap baik dari etnis
mana?jawa/sunda/batak/sama saja

Agung Santoso mengatakan...

Hai Rimsyah,

Wah kasusnya Rimsyah cukup unik. Ada beberapa pertanyaan yang perlu dijawab dulu sebelumnya: apakah ketujuh item itu mengungkap variabel (konstruk) yang sama? Kemudian apakah respon pada item yang satu bisa memberi konfirmasi kebenaran respon pada item lain?

Jika dua pertanyaan itu jawabannya tidak, ini dapat dikatakan kasus single item. Nah satu-satunya cara untuk mengestimasi reliabilitas adalah dengan pendekatan test-retest. Perhitungannya juga tidak menggunakan korelasi biasa tapi menggunakan prosentase respon yang sama antara kedua waktu pengetesan.

Usaha ini memang bisa dibilang kerja keras, karena ini berarti Rimsyah harus ambil data try out dua kali.

Patrick mengatakan...

Mau tanya Pak, kalo sample untuk validitas prediktif harus besar ya? Saya baca di satu buku bgitu, cuma kalo emang populasi di situ yang mau diukur, katakanlah, cuma 40 orang bagaimana? (itu dah populasi semuany bukan sample representatif). Boleh ga tetap pake validitas prediktif-nya?

Agung Santoso mengatakan...

Hmm, Patrick terima kasih ya untuk pertanyaannya ya.

Jawaban terhadap pertanyaan Patrick sangat tergantung pada generalisasi hasil skalanya. Jika hasil skala hanya akan digeneralisasi pada 40 subjek itu saja, maka 40 subjek tersebut sudah memadai.

Biasanya,validitas prediktif diestimasi untuk kepentingan pengukuran yang lebih besar. Oleh karena itu dalam kasus seperti ini, dibutuhkan subjek yang besar juga.

Anonim mengatakan...

permisi pak,
saya ingin bertanya
saya sekarang sedang menusun alat ukur kepribadian yang konstruknya dikotomi
misal ekstrovert-introvert
jika tidak ekstrovert, pasti introvert

begitu konstruknya
nah, saya berencana menggunakan criterion-related validity
saya sudah menyiapkan alat ukur saya dan alat ukur yang mengukur hal yang sama

hasil datanya nominal
Ekstrovert = 1
introvert = 2

kedua alat ukur menghasilkan hal yang sama,

nah, bagaimana cara menghitung criterion related validity nya pak?
saya kesulitan

ani mengatakan...

bapak Agung,
saya ingin menanyakan,jika suatu questioner uji validitas isi dengan meminta masukan dari ahli (judgment expert).apakah sudah layak, questioner tersebut di gunakan untuk penelitian?
mohon balasannya