Penelitian merupakan salah satu kegiatan krusial dalam dunia pendidikan. Melalui penelitian, pengetahuan baru bermunculan, rentetan teknologi baru mulai dikembangkan, dan bahkan kendala dan persoalan dalam bidang pendidikan yang dihadapi oleh umat manusia dapat diatasi dengan penelitian. Di Indonesia, jumlah peneliti atau pun bukan peneliti yang melakukan penelitian guna memenuhi tugas ataupun sebagai pembuktian, maupun prasyarat sebuah fungsi atau jabatan meningkat secara signifikan. SCImago mencatat bahwa jumlah penelitian di Indonesia di tahun 2016 meningkat 46,41% dibanding tahun sebelumnya, walaupun kita masih menempati urutan ke 45 secara internasional, ke 22 di Asia, dan keempat di Asia Tenggara (www.tirto.id). 

Dalam penelitian, kegiatan pengumpulan data merupakan satu tahapan penting. Pada penelitian pendidikan adanya data yang konsisten merupakan suatu keharusan dalam rangka untuk menarik kesimpulan yang tepat. Oleh karena itu, ketika seorang peneliti pendidikan ingin mengumpulkan data dengan mengembangkan suatu instrumen seperti tes, angket, observasi dan lain sebagainya, maka insrumen yang digunakan itu harus memenuhi syarat sebagai alat yang sesuai (valid) untuk mengukur konsistensi (reliabilitas) data sehingga hasilnya tidak diragukan dan dapat dipertanggungjawabkan (Khumaedi, 2012).

Dalam penelitian pendidikan, peneliti sering meneliti pembawaan yang belum kelihatan (latent trait), sehingga perlu diberikan stimulus berupa instrumen penelitian baik berupa tes, angket, atau alat pengukur yang lain. Respon dari pengukuran tersebut biasanya berupa skor perolehan/tampak yang menggambarkan pendekatan dari atribut latent yang diukur (Khumaedi, 2012). Hopkins (1997) menyatakan bahwa skor tampak adalah gabungan dari skor sesungguhnya dan kesalahan pengukuran. Mengingat bahwa skor perolehan hanya merupakan pendekatan dari atribut hasil yang diukur, maka untuk menjaga konsistensi data, reliabilitas alat ukur sangat perlu dilakukan.

Konsep Reliabilitas

Ketika validitas diartikan sebagai evaluasi terhadap ketepatan interpretasi dan penggunaan hasil asesmen, reliabilitas mempunyai makna sejauh mana konsistensi ketepatan dan kecermatan alat ukur tersebut mampu melakukan fungsi ukurnya (Sugiharto, n.d). Sudah banyak definisi reliabilitas yang dikemukan oleh para ahli, salah satunya adalah Wiersma (dalam Khumaedi, 2012) yang menyebutkan reliabilitas sebagai konsistensi suatu instrumen untuk mengukur sesuatu yang hendak diukur. Gronlund juga menyatakan bahwa reliabilitas adalah konsistensi skor instrumen, yaitu seberapa jauh konsistensi tersebut dari pengukuran yang satu ke pengukuran yang lain (dalam Khumaedi, 2012). Oleh karena itu, alat ukur yang baik adalah alat ukur yang valid dan reliabel. Hubungan antara validitas dan reliabilitas dapat diilustrasikan dengan sasaran tembakan sebagai berikut.

Gambar di atas menunjukan bahwa semua titik tepat berada di lingkaran kecil yang berada di tengah. Jika dikaitkan dengan sebuah instrumen, maka instrumen tersebut tepat dan cermat dalam melaksanakan fungsi ukurnya sekaligus memberikan hasil yang ajeg dari satu pengukuran ke pengukuran yang lain. Sedangkan gambar b menggambarkan instrumen yang tidak tepat menyasar target yang hendak diukur dan tidak memberikan hasil yang konsisten. Begitu juga gambar c yang memberikan ilustrasi sebuah instrumen yang memberikan hasil pengukuran yang ajeg, namun tidak tepat mengukur kemampuan yang disasar.           

Instrumen yang reliabel adalah instrumen yang dapat mengukur secara konsisten sesuatu yang diukur dari waktu ke waktu (Sunarti & Rahmawati dalam Istiyono, 2020: 382). Anderson dkk. (dalam Istiyono, 2020) menyatakan bahwa reliabilitas tes berhubungan dengan masalah ketetapan hasil tes dan sejauh mana hasil tersebut dapat dipercaya (Azwar dalam Istiyono, 2020). Pada suatu instrumen yang digunakan untuk mengumpulkan data, reliabilitas skor hasil tes merupakan informasi yang diperlukan dalam pengembangan tes karena reliabilitas adalah derajat konsistensi di antara dua skor hasil pengukuran pada obyek yang sama, meskipun menggunakan alat pengukur yang berbeda dan skala yang berbeda (Retnawati, 2017: 84).

Dalam kaitannya dengan penilaian pendidikan, prestasi atau kemampuan seorang siswa dapat dikatakan reliabel jika ketika dilakukan pengukuran, hasil pengukuran akan sama informasinya, walaupun pengujinya berbeda, korektornya berbeda, atau butir soalnya berbeda tetapi memiliki karakteristik yang sama (Retnawati, 2017: 85). Allen dan Yen (dalam Retnawati, 2017) menyatakan bahwa tes dikatakan reliabel jika skor amatan mempunyai korelasi yang tinggi dengan skor yang sebenarnya. Selanjutnya dinyatakan bahwa reliabilitas merupakan koefisien korelasi antara dua skor amatan yang diperoleh dari hasil pengukuran menggunakan tes yang paralel. Dengan demikian, suatu tes dapat dikatakan reliabel jika hasil pengukuran mendekati keadaan peserta tes yang sebenarnya.

Dalam pendidikan, pengukuran tidak dapat langsung dilakukan pada ciri atau karakter yang akan diukur. Ciri atau karakter ini bersifat abstrak yang berdampak pada sulitnya mendapatkan alat ukur yang stabil untuk mengukur karakteristik seseorang. Kestabilan ini perlu untuk mendapatkan reliabilitas. Untuk melihat reliabilitas alat ukur yang berupa suatu nilai, dapat dilakukan perhitungan statistik. Nilai ini disebut koefisien reliabilitas (reliability coefficient) (Retnawati, 2017). Koefisien reliabilitas dapat diartikan sebagai koefisien keajegan/kestabilan hasil pengukuran.

Reliabilitas yang ditandai dengan (Þ) suatu tes umumnya diekspresikan secara numerik dalam bentuk koefisien yang besarnya -1,00 ≤ Þ ≤ +1,00. Koefisien tinggi menunjukkan reliabilitas tinggi, dan sebaliknya koefisien skor tes yang rendah menunjukkan bahwa reliabilitas tes tersebut rendah. Jika reliabilitas sempurna, maka koefisiennya adalah +1,00. Reliabilitas juga terkait dengan kesalahan pengukuran. Reliabilitas tinggi menunjukkan kesalahan yang kecil dalam hasil pengukuran. Menurut Mehrens dan Lehmann (dalam Retnawati, 2017: 86), meskipun tidak ada perjanjian, namun terdapat kesepakatan secara umum bahwa tes yang digunakan untuk membuat keputusan pada siswa perorangan harus memiliki koefisien reliabilitas minimal 0,85.

Proses penghitungan reliabilitas disebut estimasi. Estimasi reliabilitas tes dapat dilakukan berdasarkan teori tes klasik maupun teori tes modern. Ada berbagai macam cara, untuk menguji reliabilitas eksternal, reliabilitas internal, reliabilitas komposit, reliabilitas konstruk, reliabilitas interrater, dan juga estimasi reliabilitas dengan menggunakan teori generalisabilitas (Generalizability Theory). Dalam makalah ini, kami hanya akan fokus membahas jenis-jenis estimasi reliabilitas berikut ini.

  1. Metode dalam Tes Teori Klasik (Classical Test Theory):
    1. Metode tes ulang (test-retest method)
    1. Metode bentuk parallel (parallel-form method atau alternate-form method
    1. Metode estimasi konsistensi internal dengan metode belah dua (split-half method)
  2. Rumus Flanagan
  3. Rumus Rulon
    1. Metode estimasi konsistensi komposit dengan rumus Kuder-Richardson 20
  4. Metode Respon Butir (Item Response Theory) dalam Tes Teori Modern
    1. Fungsi Informasi Butir
    1. Fungsi Informasi Tes
    1. Fungsi Informasi dalam Model Logistik

DAFTAR PUSTAKA

Hopkins, K.D. (1997). Educational and psychological measurement and evaluation (8th edition). Englewood Cliffs: Prentice Hall.

Istiyono, E. (2020). Pengembangan instrumen penilaian dan analisis hasil belajar Fisika dengan teori tes klasik dan modern. Yogyakarta: UNY Press.

Khumaedi, M. (Juni, 2012). Reliabilitas instrumen penelitian Pendidikan. Jurnal Pendidikan Teknik Mesin vol. 12 no. 1. Diakses dari http://journal.unnes.ac.id.

Mardapi, D. (2017). Pengukuran, penilaian, dan evaluasi pendidikan. Yogyakarta: Parama Publishing.

Retnawati, H. (2017). Validitas, reliabilitas, dan karakteristik butir. Yogyakarta: Parama Publishing.

Sudaryono. (2017). Metodologi penelitian. Jakarta: PT Raja Grafindo.

Sugiharto, B. (n.d.). Validitas dan reliabilitas. Diakses dari https://publikasiilmiah.ums.ac.id/handle/11617/6403?show=full.

By Editor