Kamis, Juni 07, 2007

Reliabel Haruskah Ajeg? Pengertian Reliabilitas Pengukuran

Sering kita dengar baik dalam kuliah atau dalam ruang ujian, jawaban mahasiswa terhadap pertanyaan "Apa yang dimaksud reliabilitas?" seperti ini :
"Taraf Kepercayaan, yaitu seberapa besar tes dapat dipercaya. Tes yang reliabel akan menghasilkan skor yang relatif sama jika diteskan beberapa kali pada subjek yang sama . Dengan kata lain seberapa ajeg sebuah tes jika diteskan beberapa kali pada subjek yang sama di waktu yang berbeda."

Jika demikian adanya, maka secara logis, satu-satunya cara untuk mengestimasi reliabilitas adalah dengan melakukan pengetesan paling tidak dua kali pada sekelompok subjek yang sama. Tapi benarkah begitu?

Pada prakteknya kita mengenal paling tidak ada 3 pendekatan terhadap estimasi reliabilitas. Dan orang yang memberikan jawaban seperti di atas juga memilih metode estimasi reliabilitas yang hanya melakukan 1 kali administrasi tes. Jadi mana tingkat keajegannya?

Well, mungkin beberapa orang tidak terlalu peduli dengan hal ini. Yang penting ada angka reliabilitasnya, habis perkara. Tapi ijinkan saya mencoba berbagi pemikiran mengenai hal ini.

ReliabilitasKita mulai dari konsep reliabilitas dulu. Reliabilitas seperti yang sering diucapkan atau ditulis di buku, memiliki arti tingkat kepercayaan. Kita coba pilah kata ini menjadi Rely dan Ability atau dapat dipercaya. Tapi apa maksud dari dapat dipercaya ini? Yang dimaksud dapat dipercaya disini adalah seberapa besar kita bisa mempercayai hasil tes yang kita dapatkan, atau juga seberapa besar tingkat kesalahan yang muncul ketika seseorang mengerjakan suatu tes. Semakin besar tingkat kesalahan yang muncul ketika seseorang mengerjakan suatu tes, hasil yang diperoleh dari tes tersebut makin tidak dapat dipercaya, makin tidak reliabel.

Misalnya: seseorang dites (tes apa saja, karena reliabilitas tidak terlalu peduli dengan isu materi yang diteskan) kemudian memperoleh hasil sebesar 100. Nah jika tes tersebut reliabel, maka kita bisa yakin bahwa kapasitas orang tersebut memang 100. Atau dengan kata lain, angka 100 itu diperoleh bukan karena faktor lain selain kapasitas orang tersebut. Jika angka 100 ini diperoleh lebih banyak karena faktor lain (faktor lain ini yang disebut error), maka kita akan berkata bahwa tes tersebut tidak reliabel.

Konsep reliabilitas didasarkan pada asumsi bahwa dalam tiap pengetesan selalu ada
  • X, skor yang kita peroleh dari hasil pengetesan (skor Tampak)
  • T, skor yang menggambarkan kapasitas seseorang yang sesungguhnya (skor Murni)
  • e, faktor lain selain kapasitas yang juga menyumbang terhadap perolehan X yang disebut juga error
dan ketiganya terkait satu sama lain dalam persamaan seperti ini :
X = T + e
Ini dapat dibaca seperti berikut : dalam setiap pengetesan, hasil tes yang kita peroleh merupakan fungsi penjumlahan dari skor Murni dan error. Tes dapat dikatakan reliabel jika Tes menghasilkan error yang kecil, sehingga hasil tes makin mencerminkan kapasitas yang sebenarnya (atau X = T ).

Nah lalu dari mana ide "keajegan" muncul?

Diasumsikan bahwa nilai T memiliki sifat ajeg dalam beberapa kali pengukuran pada subjek yang sama. Tapi keajegan ini hanya ada dalam abstraksi teoretik saja, karena keajegan yang dimaksud di sini adalah keajegan T jika memenuhi syarat tertentu :
  • tiap pengetesan bersifat saling independen, pengukuran pertama tidak mempengaruhi pengukuran berikutnya. Jadi anggaplah seseorang dites lalu dihipnotis untuk membuatnya lupa dengan jawaban dan soal yang telah diberikan.
  • Kapasitas orang itu sendiri belum berubah. Jadi keajegan ini hanya mungkin jika setelah dites, orang ini dimasukkan dalam mesin waktu dan dikembalikan ke keadaannya saat dites pertama kali.
Mustahil? Ya jelas! maka dari itu ide mengenai keajegan ini hanya ada dalam abstraksi teoretik.

Namun demikian tentu saja kita tetap dapat mengestimasi reliabilitas dengan cara melakukan tes berulang lalu mengkorelasikan hasil tes pertama dengan tes kedua. Dengan mempertimbangkan beberapa kelemahan dan persyaratannya.

Pendekatan-Pendekatan Estimasi ReliabilitasDari beberapa asumsi yang mendasari pemikiran mengenai reliabilitas, kemudian diturunkanlah beberapa pendekatan untuk mengestimasi reliabilitas.
  • Pendekatan Tes-Retes. pendekatan ini mengestimasi reliabilitas tes dengan melakukan tes ulang, kemudian mengkorelasikan hasil tes pertama dengan hasil tes kedua. Hasil korelasi ini yang merupakan estimasi reliabilitasnya, sering juga disebut sebagai koefisien stabilitas atau keajegan. Jadi definisi reliabilitas =keajegan hanya berlaku untuk pendekatan ini. Tapi tentu saja karena tidak mungkin memenuhi persyaratan di atas, pendekatan ini memiliki beberapa kelemahan
    • hanya dapat diterapkan pada tes yang mengukur konstruk yang bersifat cenderung ajeg, misalnya kepribadian.
    • estimasi reliabilitas akan dipengaruhi oleh adanya carry over effect. Maksudnya, jika jarak pengetesan pertama dan kedua sangat dekat, maka subyek akan cenderung mengingat jawaban yang diberikan pada pengetesan pertama. Ini membuat makin besarnya kemungkinan subyek akan memberikan jawaban pada pengetesan kedua yang cenderung sama dengan jawaban yang diberikan pada pengetesan pertama.Hal ini akan menyebabkan overestimasi reliabilitas, tes terkesan/ terlihat lebih reliabel daripada yang sebenarnya.
    • estimasi reliabilitas juga dipengaruhi adanya practice effect. Ini terjadi ketika subyek, dalam rentang waktu antara tes pertama dan kedua, belajar atau berlatih untuk meningkatkan kapasitasnya, ini terjadi khususnya dalam estimasi reliabilitas tes performansi maksimal seperti tes prestasi. Practice effect akan menyebabkan underestimasi reliabilitas, tes terkesan tidak ajeg karena adanya pembelajaran, sehingga hasil tes kedua akan cenderung lebih baik dari hasil tes pertama.
  • Pendekatan Tes Paralel, pendekatan ini mengestimasi reliabilitas dengan menggunakan dua tes paralel, dua tes yang mengukur hal /konstruk yang sama, kemudian mengkorelasikan hasil pengetesan dari tes pertama dengan hasil tes paralelnya. Koefisien korelasi yang didapatkan disebut juga koefisien ekuivalensi. Namun demikian pendekatan ini sangat jarang (kalaupun ada) dilakukan karena sulitnya menghasilkan dua tes yang benar-benar paralel.
  • Pendekatan Konsistensi Internal, pendekatan ini mengestimasi reliabilitas dengan membelah tes menjadi beberapa bagian, lalu "mengkorelasikan" bagian-bagian tersebut. "Korelasi" di sini sebenarnya tidak benar-benar mengkorelasikan bagian-bagian secara harafiah, tapi menggunakan formula-formula yang dikembangkan untuk mengestimasi reliabilitasnya. Koefisien yang diperoleh dinamai juga koefisien konsistensi internal. Pendekatan inilah yang paling sering digunakan selama ini karena lebih praktis dan ekonomis. Meskipun demikian pendekatan ini tidak dapat mengestimasi error yang diakibatkan oleh keadaan temporer karena hanya dilakukan satu kali. Jadi pendekatan ini memang bukan "jawaban terhadap segala masalah" dalam hal mengestimasi reliabilitas.
Kesimpulan
Jadi, reliabilitas apakah sama dengan keajegan?
Jika kita melihat permasalahan ini dari kacamata asumsi yang mendasari pemikiran reliabilitas di atas, maka reliabel = ajeg. tentu saja dengan persyaratan yang mustahil untuk dipenuhi tadi.
Tapi jika dilihat dalam konteks aplikasinya, reliabilitas tidak selalu sama dengan keajegan, tergantung dari pendekatan mana yang digunakan untuk mengestimasinya.

Mungkin akan lebih aman jika kita menyebut reliabilitas sebagai "tingkat kepercayaan, seberapa jauh error yang dihasilkan dari tes, dan seberapa jauh hasil tes dapat dipercaya".

Well that's it for now. We will continue later.

8 komentar :

Anonim mengatakan...

Pak mau nanya sekitar validitas dan reliabilitas (boleh donk Pak):

1. Mana yang perlu diuji terlebih dahulu Pak, validitas atau reliabilitas? Menurut saya sih validitas, baru dilanjutkan ke reliabilitas. Alasannya, jika suatu instrumen diuji validitasnya dan ternyata ada item yang tidak valid, maka item yg tidak valid tersebut dibuang, baru kemudian dilanjutkan dengan uji reliabilitas. Jadi pengujian reliabilitas bebas dari item yang tidak valid. Tetapi kalau yang diuji reliabilitasnya terlebih dahulu dan menghasilkan kesimpulan bahwa data dari instrumen tsb adalah reliabel (dapat dipercaya), bisa saja terjadi kemungkinan, ada item yang tidak valid namun diikutkan dalam pengujian reliabilitasnya. Atau dengan kata lain data dari instrumen adalah reliabel (dapat dipercaya) namun di dalamnya ada data dari item yang tidak tepat (tidak valid) untuk mengukur konstruk variabelnya. Bagaimana logika ini bisa terjadi? Itukan sama saja dengan seseorang yang dikenal terpercaya oleh banyak orang, tetapi dia masih memiliki perilaku yang salah.

2. Teknik apa yang harus kita gunakan untuk menguji reliabilitas suatu instrumen yang menggunakan skala likert, apakah split half, cronbach alpha, Kruder Richardson, atau hoyt?

Terima kasih Pak. Saya mohon pencerahannya.

Anonim mengatakan...

1.a.Sepertinya ucok perlu membaca posting saya dengan judul korelasi item-total = validitas item?

b.Jika yang dimaksud ucok adalah korelasi item-total, maka sebenarnya bisa dengan urutan yang manapun. Kita bisa mulai dengan reliabilitas lalu menghitung korelasi item-total atau sebaliknya.
Hanya saja, memang biasanya orang cenderung menghitung korelasi item total dulu, dengan demikian bisa tahu mana item yang perlu dipertahankan dan mana yang perlu dibuang. Baru kemudian setelah item diseleksi dihitung reliabilitasnya.

c.Nah terkait dengan hubungan validitas dan reliabilitas, sangat mungkin sebuah tes itu reliabel tapi tidak valid. Jadi meskipun hasil tes nya dapat dipercaya (dalam arti error yang dihasilkan kecil), tapi tes tersebut mengukur konstruk yang tidak sesuai dengan tujuan tes dibuat (tidak valid).Jadi misalnya sebuah tes benar-benar memberikan nilai 100 untuk jika kapasitas sesuatu (anggap saja kecerdasan) itu 100. Jadi tes ini reliabel. Tapi sesuatunya itu (kecerdasan) tidak sesuai dengan tujuan tes dibuat (misal sebenarnya pembuat tes ingin mengukur motivasi belajar).

d. Terkait dengan korelasi item-total dan reliabilitas, sangat mungkin juga tes itu reliabilitasnya tinggi meskipun ada beberapa item (tidak banyak) yang korelasi item-totalnya rendah. Ini diakibatkan reliabilitas tes sudah cukup besar sehingga kehadiran beberapa item yang tidak terlalu baik tidak banyak berpengaruh secara umum terhadap tes.

2. Teknik manapun bisa dilakukan kecuali Kuder-Richardson. Karena Kuder hanya menerima input data berupa skor 0 dan 1. Beberapa memilih alpha karena dianggap lebih stabil dan praktis dibanding yang lain.

Anonim mengatakan...

pak, mohon bantuannya
saya jadi bingung bagaimana mengukur validitas yang benar...
karena setau saya menggunakan korelasi item-total, namun ternyata korelasi tersebut bukan merupakan validitas yang sebenarnya hanya gmabaran. lalu pengukuran validitas manakah yang akurat?
ada yang mengatakan dengan melihat coreccted aitem-total corelation pada uji realibilitas alpha crobach

mohon bantuannya pak
terima kasih..

Daunlontar Books Pane mengatakan...

Pak, boleh tanya ya?
1. Masalah efek belajar pada tes-retes reliability. Kalau misalnya sekelompok orang sama2 mengalami peningkatan atau sama2 mengalami penurunan selama interval antar pelaksanaan 2 tes (dalam tes-retes), apakah efek belajar jd tidak berpengaruh terhadap angka tes-retes yg diperoleh?
2. Bisa tolong dijelaskan gak, bagaimana pengaruh jumlah item terhadap angka reliabilitas? Dan bagaimana memperoleh angka reliabilitas yang tinggi jika soalnya cuma sedikit? (10 misalnya)

Makasih ya pak.

Unknown mengatakan...

Hai Arenews,
Jawaban saya kira-kira begini:

1.Jika semua orang mengalami efek kenaikan atau penurunan dalam jumlah setara dan seragam (maksudnya semua naik atau semua turun dalam jumlah yang tepat sama atau konstan), tentunya efek belajar jadi tidak berpengaruh terhadap estimasi reliabilitas test retest. Permasalahannya adalah bagaimana memastikan bahwa kenaikan dan penurunan ini memiliki jumlah konstan untuk semua orang? Pertama kesulitan pada pengukurannya, bagaimana mengukur adanya efek belajar. Kita tidak dapat menggunakan observed score tentunya. karena kita tidak tahu berapa banyak error yang terjadi akibat belajar. kenaikan yang sama pada observed score tidak menggambarkan kenaikan yang sama true scorenya. Kedua, efek belajar sangat mungkin bervariasi antar individu. Individu yang satu bisa mendapat manfaat besar dari efek belajar, sementara yang lain tidak.

2. Sebenarnya pengaruh jumlah item terhadap reliabilitas ini sifatnya teoretik. mengasumsikan kita menggunakan item yang memiliki kualitas psikometrik yang sama antara item2 awal dan item2 yang ditambahkan. Idenya begini, semakin banyak item yang digunakan, maka reliabilitas akan meningkat. Ini dikarenakan makin banyak item, true score makin terukur dengan baik. Ada rumus dari spearman-brown untuk ini (tapi saya lupa, mungkin bisa dibaca di buku2 psikometri). Nah permasalahannya tidak sesederhana ini dalam tataran praktis. Seringkali item yang kita masukkan itu memiliki kualitas yang lebih baik atau lebih buruk. Jika lebih baik maka peningkatan reliabilitas tentunya melebihi yang diperkirakan menggunakan rumus spearman brown. dan sebaliknya.

Lalu bagaimana meningkatkan reliabilitas tes jika itemnya hanya sedikit? Menurut saya cara terbaik adalah dengan membuat item2 sebaik mungkin, tidak ambigu, sesuai konstruk yang ingin diukur, memiliki daya diskriminasi yang baik.

Cara-cara lain lebih terkait dengan membuat estimasi dari reliabilitas terlihat baik, misalnya dengan menggunakan kelompok subjek yang heterogen, membuat pengukuran sehomogen mungkin (berusaha mengukur satu konstruk yang sangat spesifik dengan beberapa item misalnya), dst. Tapi menurut saya ini hanya cara membuat estimasi reliabilitas terlihat baik, tidak sepenuhnya terkait dengan membuat tes yang memang reliabel.

Lukman mengatakan...

pak Agung, jika suatu alat tes reliabel, maksudnya skor yang dihasilkan cenderung sama jika dilakukan ulang pada orang yang sama, maka berapa lama waktu skor hasil tes tersebut tetap konsisten jika dilakukan ulang (dalam rentang waktu tertentu)
apakah ada ukuran waktu tertentu agar suatu hasil tes dinyatakan tidak reliabel lagi?
terima kasih pak.

Unknown mengatakan...

Hai Lukman,
Sebenarnya pengertian reliabilitas sendiri tidak harus selalu terkait dengan 'keajegan' seperti tulisan di artikel ini. Saya sendiri lebih sreg dengan definisi reliabilitas sebagai tingkat kepercayaan.

Untuk beberapa konstruk yang bersifat menetap (stabil), maka kita bisa melihat tingkat kepercayaan skor dari alat ukur kita dengan melakukan pengambilan data 2 kali pada subjek yang sama lalu melakukan estimasi reliabilitas dengan pendekatan tes-retest. Dengan cara ini kita bisa melihat seberapa stabil skor alat ukur kita. Misalnya setelah 5 bulan, korelasi antara skor tes ini dengan 5 bulan yang lalu hanya 0.3. Ini berarti kestabilan alat ukur hanya sampai 5 bulan.

Ini juga terkait dengan teori dari konstruknya sendiri. Menurut teori seberapa stabilkah konstruk yang diukur. Misalnya konstruknya adalah kepribadian, maka berdasarkan teori, kepribadian termasuk konstruk yang cenderung stabil.

Olah_Data_Semarang mengatakan...

Video Tutorial Uji Validitas dan Reliabilitas STATA 16 Lengkap
(Dilengkapi File Materi Dan Software STATA 16)
Merupakan Panduan Yang Lengkap Dan Detail
Klik Link Dibawah Untuk Mendapatkannya
https://bit.ly/UjiSTATA