Situs Dosen STKIP Siliwangi Bandung - Yusep Ridwan, S.Si, M.Pd

Artikel Umum

THE INFLUENCE OF TEST LENGTH TOWARDS RELIABILITY COEFFICIENT BETWEEN PROBABILITY OF GUESSING

Dipublikasikan pada : 16 Juli 2014. Kategori : .

THE INFLUENCE OF TEST LENGTH  TOWARDS RELIABILITY COEFFICIENT BETWEEN PROBABILITY OF GUESSING

 

 

Yusep Ridwan1, Gaguk Margono2, dan Wardani Rahayu3

1Mahasiswa Pascasarjana Universitas Negeri Jakarta,

2Directur Reasearch and Evaluation in Education PPsUniversitas Negeri Jakarta,

3Secretaris Reasearch and Evaluation in Education PPs Universitas Negeri Jakarta,

 

Email: yusepridwan@gmail.com, ridwan@stkipsiliwangi.ac.id, g_margono@yahoo.com, wardani9164@yahoo.com

 

Abstract

 

The objective of this research was to look at the influence of test length and probability of guessing towards reliability coefficient. Test length includes test length 30 items and test length 40 items. Probability of guessing includes probability of guessing 0.33 and probability of guessing 0.25. The method used is an experimental method. While the design used is the design factorial of 2 x 2. Research hypotheses were tested using analysis of variance (ANAVA) two way. The study concluded that: (1) means of reliability coefficient in probability of guessing 0.33 is lower than the means of reliability coefficient in probability of guessing 0.25, (2) There is the influence interaction of probability of guessing and test length, (3) special for test length 30 items, reliability coefficient in probability of guessing 0.33 is lower than the means of reliability coefficient in probability of guessing 0.25, and (4) special for test length 40 items, reliability coefficient in probability of guessing 0.33 is lower than the means of reliability coefficient in probability of guessing 0.25.    

 

 

Keywords: test length, probability of guessing, reliability coefficient

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

PENGARUH PANJANG TES TERHADAP KOEFISIEN RELIABILITAS DITINJAU DARI PROBABILITAS GUESSING

 

 

Yusep Ridwan

Mahasiswa Pascasarjana Universitas Negeri Jakarta,

Email: yusepridwan@gmail.com

 

Abstrak

 

Penelitian ini bertujuan untuk melihat pengaruh panjang tes dan probabilitas guessing terhadap koefisien reliabilitas. Panjang tes mencakup panjang tes 30 dan panjang tes 40. Probabilitas guessing mencakup probabilitas guessing 0.33 dan probabilitas guessing 0.25. Metode yang digunakan adalah metode eksperimen. Sedangkan desain yang digunakan adalah desain faktorial 2×2. Hipotesis penelitian diuji dengan menggunakan analisis varian (ANAVA) dua jalan. Hasil penelitian menyimpulkan bahwa: (1) Rata-rata koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari probabilitas guessing 0.25, (2) Terdapat pengaruh interaksi antara panjang tes dan probabilitas guessing terhadap koefisien reliabilitas tes, (3) Khusus untuk panjang tes 30, koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari probabilitas guessing 0.25, dan (4) Khusus untuk panjang tes 40, koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari probabilitas guessing 0.25.

 

 

Kata kunci: panjang tes, probabilitas guessing, koefisien reliabilitas

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  1. Pendahuluan

Evaluasi merupakan hal yang sangat penting dalam proses pembelajaran, karena dengan dilaksanakannya evaluasi akan diketahui sampai sejauh mana tingkat kemampuan dan keberhasilan peserta didik dalam pencapaian standar kompetensi. Sebagaimana Nitko (2009: 7). yang memberikan pengertian evaluasi sebagai sebuah proses untuk membuat keputusan penting mengenai sejauh mana hasil belajar yang dicapai oleh peserta didik telah tercapai. Keputusan yang diambil adalah untuk mengukur sejauhmana peningkatan mutu peserta didik setelah dilakukan proses belajar. Proses evaluasi ini tidak lepas dari proses pengukuran, dan penilaian, karena evaluasi adalah hasil dari kegiatan pengukuran dan penilaian.

Proses pengukuran merupakan proses pemberian angka atau bilangan kepada para peserta tes atas karakteristik-karakteristik yang melekatinya menurut aturan yang telah ditentukan (Silverius, 1991: 6). Proses pengukuran ini akan menghasilkan angka-angka yang kemudian akan dianalisis untuk keperluan evaluasi. Dalam pengukuran tidak membuahkan nilai baik atau buruknya sesuatu, tetapi hasil pengukuran dapat dipakai untuk membuat penilaian atau mengambil keputusan.

Dalam bidang pendidikan, pengukuran memegang peranan yang sangat penting. Sebab data hasil pengukuran dalam bidang pendidikan memiliki arti penting baik bagi lembaga pendidikan, guru, peserta didik, orang tua, maupun masyarakat. Bagi guru pengukuran bermanfaat untuk membandingkan tingkat kemampuan peserta didik dengan peserta didik yang lain dalam kelompok yang diajarnya. Di sekolah pengukuran dilakukan guru untuk menaksir kemampuan atau prestasi peserta didik.

Banyak prosedur evaluasi yang dapat dilakukan untuk mengukur informasi pembelajaran dan kemampuan peserta didik, salah satu diantaranya adalah tes, karena pengukuran dan tes saling berkaitan. Tes merupakan suatu alat atau prosedur yang dipergunakan untuk mengukur pengetahuan atau penguasaan peserta didik terhadap seperangkat materi atau konten. Senada dengan Anastasi (2007: 523) yang memberikan pendapatnya bahwa tes hasil belajar adalah suatu tes yang dirancang untuk mengukur hasil dari suatu program pengajaran atau pelatihan. Dengan demikian alat yang digunakan untuk evaluasi harus dibuat sedemikian rupa sehingga alat tersebut mampu mengungkapkan informasi seakurat mungkin, supaya keputusan yang diambil tidak keliru, karena dapat merugikan peserta tes.

Membuat perangkat tes tidak mudah, sebab tes merupakan alat untuk melihat perubahan kemampuan dan tingkah laku peserta didik setelah ia menerima pengajaran dari guru di sekolah. Alat evaluasi yang salah akan menggambarkan kemampuan dan tingkah laku yang salah pula. Oleh karena itu teknik penyusunan alat evaluasi penting dipertimbangkan agar memperoleh hasil yang obyektif.

Menurut Sudjana (2009: 35) tes adalah pertanyaan-pertanyaan yang diberikan kepada peserta didik untuk mendapat jawaban dari peserta didik dalam bentuk lisan (tes lisan), Dalam bentuk tulisan (tes tertulis), atau dalam bentuk perbuatan (tes tindakan). Banyak cara yang bisa dilakukan untuk tes, namun cara yang sering dilakukan adalah tes tertulis. Pengertian tes tertulis menurut Surapranata (2005: 9) adalah alat penilaian berbasis kelas yang penyajiannya maupun penggunaannya dalam bentuk tertulis. Peserta didik memberikan jawaban atas pertanyaan maupun pernyataan yang diberikan. Tes tertulis dapat diberikan pada ulangan harian dan ulangan umum. Adapaun bentuk tes tertulis dapat berupa pilihan ganda, menjodohkan (matching), jawaban singkat, isian singkat dan uraian.

Tes pilihan ganda (PG) merupakan salah satu bentuk dari tes tertulis yang pada saat ini mendapat perhatian dan sering digunakan dalam evaluasi pendidikan. Tes ini dapat mengukur pengetahuan yang luas dan bervariasi. Item tes pilihan ganda mempunyai semua persyaratan sebagai tes yang baik, yakni dilihat dari segi obyektifitas, reliabilitas dan daya beda antara peserta didik yang memiliki kemampuan tinggi dan rendah.

Soal tes bentuk pilihan ganda dapat dipakai untuk mengukur hasil belajar yang lebih kompleks berkenaan dengan aspek ingatan, pemahaman, aplikasi, sintesis, analisis, evaluasi. Bentuk tes ini dapat mengukur berbagai macam kemampuan, mulai dari yang paling rendah sampai dengan yang tinggi. Soal pilihan ganda juga dapat digunakan untuk mengukur kemampuan yang secara umum tidak dapat diukur oleh bentuk soal lainnya.

Akan tetapi soal bentuk pilihan ganda memiliki beberapa kelemahan yaitu mempunyai peluang terhadap perilaku spekulasi atau menebak (guessing). Karena peserta tes harus memilih jawaban dari beberapa alternatif jawaban. Mengenai berapa banyak alternatif jawaban pada model tes ini, belum ada aturan baku yang menentukan jumlah alternatif jawabannya. Pengurangan faktor penebak akan meningkatkan reliabilitas dan validitas, sepanjang alternatif jawaban itu bagus dan soalnya dibuat dengan baik.

Pada format tes objektif dengan beberapa pilihan jawaban, sering timbul pertanyaan mengenai perlu tidaknya menerapkan cara pemberian sekor dengan hukuman (penalty) bagi peserta didik yang menjawab salah. Dasar pemikirannya adalah bahwa pada tes bentuk pilihan ganda terdapat peluang menjawab benar sekalipun jawaban itu dipilih hanya dengan cara menebak. Padahal seharusnya mereka yang memang tidak tahu jawaban yang benar tidaklah berhak untuk mendapatkan angka. Jika peserta yang tidak tahu kemudian mendapatkan angka dan hasilnya sama dengan peserta yang tahu, maka hasil yang diperoleh bersifat tidak adil.

Pada pelaksanaan tes, ketidakadilan ini sering muncul, Padahal menurut Azwar (1996: 14) hasil tes yang diperoleh dengan cara yang tidak adil, tidak dapat memberikan informasi untuk mengetahui prestasi peserta didik yang sebenarnya, dan hasil tes seperti itu dapat memberikan informasi yang keliru mengenai keberhasilan belajar peserta didik. Oleh karena itu, seorang pendidik harus mempersiapkan perangkat tes yang andal (reliabel), serta berlaku adil dalam mengevaluasi keberhasilan belajar para peserta didik. Adil disini mempunyai arti tidak terjadi kesalahan pengukuran kemampuan peserta didik yang diakibatkan oleh kesalahan alat ukur yang digunakan serta cara penyelenggaraannya.

Untuk mendapatkan informasi yang adil bagi setiap peserta didik maka diperlukan alat ukur yang adil pula, sehingga peserta didik yang mempunyai kompetensi yang sama akan memperoleh sekor tes yang sama, pada skala ukur yang sama. Peserta didik yang pandai akan mempunyai sekor yang lebih tinggi daripada peserta didik yang kurang pandai. Dengan demikian variasi sekor yang diperoleh menggambarkan variasi kemampuan peserta didik dalam menguasai materi yang telah diajarkan.

Salah satu penyebab peserta tes melakukan tebakkan dalam menjawab soal bentuk pilihan ganda karena soal tersebut tidak sesuai dengan kemampuan mereka, artinya soal terlalu sulit untuk level kemampuan mereka. padahal, perilaku menebak/guessing merupakan salah satu sumber kesalahan pengukuran dalam tes, khususnya bagi tes pencapaian.

Kusaeri (2010: 209) menyatakan bahwa salah satu faktor yang harus dipertimbangkan dalam pengukuran maximum performance adalah pengaruh perilaku guessing, karena guessing akan berkontribusi terhadap varians kesalahan pengukuran dan mengurangi reliabilitas tes. Jelas bahwa perilaku guessing mempengaruhi koefisien reliabilitas, dengan demikian perlu dilakukan upaya untuk meminimalisir perilaku guessing supaya didapat instrumen tes yang handal sehingga tujuan evaluasi dapat tercapai.

Model pensekoran tes pilihan ganda yang cenderung digunakan dewasa ini adalah menjumlahkan skor jawaban yang benar saja (correct score)  sebagai skor peserta tes. Akan tetapi model ini memberi peluang peserta tes untuk berspekulasi atau berperilaku menebak dalam menjawab tes, sehingga memunculkan alternatif model pensekoran untuk mengurangi perilaku menebak yang dilakukan peserta tes, yaitu  model pensekoran hukuman atau penalti. Model penalti ini merupakan model pensekoran yang memperhitungkan jawaban salah yang direspon oleh peserta tes dengan jalan memeberi hukuman dalam bentuk mengurangi skor dengan menggunakan rumus tertentu.

Selain perilaku guessing, faktor yang mempengaruhi koefisien reliabilitas adalah panjang tes, pada umumnya semakin banyak jumlah butir soal tes samakin tinggi pula reliabilitasnya. Hal ini terjadi karena semakin panjang tes (semakin banyak butir soal) sehingga semakin banyak perilaku atau informasi yang terukur dengan lebih tepat.

Pada saat ini, lembaga pendidikan menggunakan 3 alternatif jawaban untuk sekolah dasar, 4 alternatif jawaban untuk sekolah menengah pertama dan 5 alternatif jawaban untuk sekolah menengah atas, pada penenilitan ini akan dilakukan di sekolah menengah pertama (SMP), dimana panjang tes untuk soal matematika yaitu 40 butir dengan jumlah alternatif jawaban 4. Prosedur ini sudah lama dilaksanakan, namun belum banyak penelitian mengenai tingkat perilaku guessingnya, khususnya untuk mata pelajaran matematika, dengan demikian diperlukan suatu penelitian untuk mengetahui ”pengaruh panjang tes terhadap koefisien reliabilitas ditinjau dari probabilitas guesssing”.

Metode Penelitian

Metode penelitian ini termasuk dalam penelitian eksperimen, yang terdiri dari dua variabel, yaitu variabel bebas dan variabel terikat, pada penelitian ini, yang menjadi variabel bebas adalah panjang tes dan probabilitas guessing. Sedangkan variabel terikatnya adalah koefisien reliabilitas.

Bentuk tes yang digunakan adalah tes pilihan ganda dengan panjang tes yang berbeda yaitu panjang tes 30 butir dan panjang tes 40 butir, masing-masing menggunakan bentuk tes pilihan ganda tiga alternatif jawaban (probabilitas guessing 0,33) dan empat alternatif jawaban (probabilitas guessing 0,25), pada mata pelajaran Matematika. Sebagai ilustrasi rancangan dari penelitian ini adalah sebagai berikut:

Tabel 1. Rancangan Penelitian

PANJANG TES

(B)

PROBABILITAS GUESSING
0,33 (A1) 0,25 (A2)
30 (B1) A1B1 A2B1
40 (B2) A1B2 A2B2

Karena objek penelitian adalah instrumen, yaitu membandingkan dua tes dengan panjang tes 30 butir dan 40 butir, dimana masing-masing diberi tes pilihan ganda namun alternatif jawabannya berbeda (probabilitas guessing 0,25 dan probabilitas guessing 0,33), maka populasi penelitian disini adalah peserta tes yaitu siswa SMPN di kabupaten Tasikmalaya. Pemilihan sampel dilakukan dengan teknik Multistage Random Sampling, sampel yang diambil berjumlah 1037 peserta tes.

Tabel 2. Distribusi Sampel Berdasarkan Rancangan Penelitian

PANJANG TES (B) PROBABILITAS GUESSING (A) JUMLAH SISWA
0,33 (A1) 0,25 (A2)
30 (B1) 242 280 522
40 (B2) 243 272 515
JUMLAH SISWA 485 552 1037

Sampel penelitian mengambil 1037 orang siswa, dengan rincian untuk sampel dengan menggunakan panjang tes 30 sebanyak 522 siswa, dan panjang tes 40 sebanyak 515 siswa, dimana seluruh sampel mendapat mata pelajaran Matematika dan masing-masing sampel akan diambil dengan teknik random sampling sebanyak 75 responden dengan teknik pengembalian (replace randomized), pengembalian ini akan dilakukan sebanyak sepuluh kali.

Perangkat tes yang berfungsi sebagai instrumen penelitian disusun oleh peneliti (tes buatan peneliti). Prosedur pengumpulan data melalui tahap-tahap sebagai berikut: (1) Perangkat tes yang dibuat adalah panjang tes 30 dan 40 yang diberi kode PT30, dan PT40. perangkat tes dengan menggunakan probabilitas guessing 0,33 dan 0,25 diberi kode PG0,33, dan PG0,25; (2) Responden menjawab pada lembar jawaban yang telah disediakan. Dari delapan sekolah, 1037 responden sebagai sampel. Pengambilan sampel diambil dengan menggunakan teknik acak (random sampling); (3) Sampel responden di atas terdiri dari 4 kelompok masing-masing 242 responden yang menggunakan panjang tes 30 dengan probabilitas guessing 0,33 (PT30 PG0,33), 280 responden yang menggunakan (PT30 PG0,25), 243 responden yang menggunakan (PT40 PG0,33),  dan 272 responden yang menggunakan (PT40 PG0,25); (4) Setelah diketahui nilainya pada setiap responden, maka dilakukan acak pada nomor urut responden pada masing-masing panjang tes, dimana diambil 75 responden dari setiap kelompok responden, kemudian dihitung kembali reliabilitasnya. Hal ini dilakukan sebanyak 10 kali dan didapat 10 koefisien reliabilitas; (5) Dari masing-masing instrument yang diteskan kepada siswa, maka terbentuk 4 kelompok data koefisien reliabilitas, 10 koefisien reliabilitas untuk PT30, PG0,33, 10 koefisien reliabilitas untuk PT30, PG0,25, 10 koefisien reliabilitas untuk PT40, PG0,33, 10 koefisien reliabilitas untuk PT30, PG0,25; dan (6) Setelah didapat koefisien reliabilitas untuk masing-masing kelompok, kemudian dianalisis untuk melihat adakah perbedaan tingkat reliabilitas dari keempat kelompok data tersebut.

Teknik analisis data melalui beberapa tahap, yaitu (1) melakukan uji persyaratan analisis, dimana uji persyaratan analisis meliputi uji normalitas dengan menggunakan uji Lilliefors dan uji homogenitas varian menggunakan uji Bartlett. Uji normalitas dan homogenitas ini dilakukan pada reliabilitas tes, karena nilai-nilai reliabilitas tes yang digunakan diperoleh dari pengambilan berulang kali secara acak terhadap responden penelitian; (2) menghitung koefisien reliabilitas tes, dalam hal ini adalah suatu nilai yang mampu menggambarkan sejauh mana konsistensi hasil ukur bila dilakukan pengukuran berulang-ulang terhadap responden yang memiliki gejala sama dengan menggunakan alat ukur yang sama pula. Rumus yang digunakan untuk menentukan koefisien reliabilitas pada masing-masing instrumen diperoleh dari analisis butir soal yakni dengan menggunakan rumus:

Dimana:

ρxx        = Koefisien reliabilitas

p          = Probabilitas Guessing

σ2K         = Varian Skor K

μK        = Mean dari K

N         = Jumlah item

K         = Banyaknya item yang diketahui;

(3) Selain melihat perbedaan reliabilitas tes, dalam penelitian ini juga dilakukan analisis perbedaan rerata kelompok koefisien reliabilitas pada panjang tes dan rerata kelompok koefisien reliabilitas pada probabilitas guessing, serta interaksi anatara keduanya. Jika terdapat interaksi maka dilanjutkan dengan uji lanjut yaitu uji tukey, karena jumlah sampelnya sama. Uji perbedaan ini dengan menggunakan Analisis Varian Dua Jalan (Anava Dua Jalan).

Hasil Penelitian

Koefisien reliabilitas tes matematika terdiri dari empat kelompok yaitu probabilitas guessing 0.33 dengan panjang tes 30 , probabilitas guessing 0.33 dengan panjang tes 40 , probabilitas guessing 0.25 dengan panjang tes 30  dan probabilitas guessing 0.25 dengan panjang tes 40  dimana deskripsi sebaran datanya sebagai berikut:

 

 

 

Tabel 3. Deskripsi Sebaran Data Koefisien Reliabilitas pada Kelompok

SEBARAN DATA
Sampel 10 10 10 10
Jumlah 8.1387 7.4700 8.4377 8.2201
Mean 0.8139 0.7470 0.8438 0.8220
Median 0.8126 0.7490 0.8377 0.8158
Standard Dev 0.0131 0.0271 0.0233 0.0145
Variance 0.00017 0.00074 0.00054 0.00021
Min 0.7970 0.7016 0.8138 0.8067
Max 0.8387 0.7792 0.8806 0.8523

Secara teoritik, Koefisien reliabilitas tes matematika berada pada rentang terendah 0.00 dan sekor tertinggi 1.00. Harga rata-rata hitung (mean) tertinggi sebesar 0.8438 yaitu pada kelompok probabilitas guessing 0.25 dengan panjang tes 30  sementara harga rata-rata hitung (mean) terendah sebesar 0.7470 yaitu pada kelompok probabilitas guessing 0.33 dengan panjang tes 40 , kelompok ini juga memiliki varians tertinggi sebesar 0.00074, sedangkan variansi terendah sebesar 0.00017 pada probabilitas guessing 0.33 dengan panjang tes 30 . Hasil empirik koefisien reliabilitas pada keempat kelompok data diperoleh koefisien reliabilitas tertinggi (Max) sebesar 0.8806 yaitu pada kelompok probabilitas guessing 0.25 dengan panjang tes 30  dan koefisien reliabilitas terendah (Min) sebesar 0.7016 yaitu pada kelompok probabilitas guessing 0.33 dengan panjang tes 40 .

Keempat kelompok data di atas, dapat juga dijelaskan dengan diagram kotak garis atau boxplot, dimana terlihat bahwa distribusi kemiringan (skewnes) pada probabilitas guessing 0.33 dengan panjang tes 30 adalah miring positif, dimana koefisien kemiringannya sebesar 0.30 berarti distribusi datanya miring positif atau landai kanan karena ekor kanan lebih panjang dari ekor kiri artinya data banyak mengumpul di nilai-nilai yang kecil. Sementara koefisien kemiringan pada probabilitas guessing 0.33 dengan panjang tes 40  sebesar -0.22 berarti miring negatif, atau landai kiri karena ekor kiri lebih panjang dari ekor kanan artinya data banyak mengumpul di nilai-nilai yang besar.

Distribusi kemiringan (skewnes) pada probabilitas guessing 0.25 dengan panjang tes 30 adalah miring positif, dimana koefisien kemiringannya sebesar 0.78 berarti distribusi datanya miring positif atau landai kanan karena ekor kanan lebih panjang dari ekor kiri artinya data banyak mengumpul di nilai-nilai yang kecil. Distribusi kemiringan (skewnes) pada probabilitas guessing 0.25 dengan panjang tes 40 adalah miring positif atau landai kanan karena ekor kanan lebih panjang dari ekor kiri artinya data banyak mengumpul di nilai-nilai yang kecil.

Gambar 1. Boxplot sebaran sekor tes matematika pada siswa yang diberikan probabilitas guessing.

Posisi boxplot probabilitas guessing 0.25 dengan panjang tes 30 berada di atas boxplot ,  dan , ini menunjukkan bahwa rata-rata koefisien reliabilitas pada probabilitas guessing 0.25 dengan panjang tes 30  lebih tinggi dari rata-rata koefisien reliabilitas ,  dan , sebagaimana yang tertera pada tabel 4 dimana rata-rata koefisien reliabilitas pada probabilitas guessing 0.25 dengan panjang tes 30 sebesar 0.8438.

Koefisien reliabilitas pada pada probabilitas guessing 0.33 dengan panjang tes 30 penyebaran datanya lebih homogin dibanding koefisien reliabilitas pada , ,  ini ditunjukkan dengan panjang kotak  lebih pendek dari kotak , ,  atau dengan kata lain, varians koefisien reliabilitas pada probabilitas guessing 0.33 dengan panjang tes 40  (0.00074) lebih besar dari varians koefisien reliabilitas pada  sebesar (0.00017), sebesar (0.00054) dan sebesar (0.00021).

Hipotesis yang diuji dalam penelitian ini adalah pengaruh faktor utama (main effect) dan pengaruh interaksi (interaction effect), yang diuji pada pengaruh faktor utama yaitu perbedaan koefisien reliabilitas antara probabilitas guessing 0,33 dengan probabilitas guessing 0,25  dan perbedaan koefisien reliabilitas antara panjang tes 30 dengan panjang tes 40 .

Sedangkan pengaruh interaksi (interaction effect) yaitu pengaruh interaksi antara probabilitas guessing dan panjang tes, kemudian jika terjadi interaksi antara probabilitas guessing dan panjang tes, maka dilanjutkan dengan uji simple effect, yaitu: (1) perbedaan koefisien reliabilitas antara probabilitas guessing 0,33 dan probabilitas guessing 0,25 pada panjang tes 30, (2) perbedaan koefisien reliabilitas antara probabilitas guessing 0,33 dan probabilitas guessing 0,25 pada panjang tes 40, (3) perbedaan koefisien reliabilitas antara panjang tes 30 butir dengan panjang tes 40 butir, pada probabilitas guessing 0,33 dan (4) perbedaan koefisien reliabilitas antara panjang tes 30 butir dengan panjang tes 40 butir pada probabilitas guessing 0,25.

Pengujian hipotesis dalam penelitian ini menggunakan analisis varian (ANAVA) dua jalan yang dilanjutkan dengan uji F. Ringkasan hasil perhitungan analisis data Uji ANAVA dua jalan dapat dilihat pada tabel 4.5 berikut:

Tabel 4. Hasil Perhitungan Analisi Varian (ANAVA) Dua Jalan

Sumber Variance JK db RJK Fhit Ftabel
α=0.05 α=0.01
Antar A 0.0275 1 0.0275 66.1741** 4.1132 7.3956
Antar B 0.0196 1 0.0196 47.2302**    
Interaksi AB 0.0051 1 0.0051 12.2389**    
Dalam 0.0150 36 0.0004      
Total 0.0672 39        

Berdasarkan hasil perhitungan ANAVA dua jalan pada tabel 4.5 di atas, maka dapat dilakukan pengujian hipotesis sebagai berikut:

Hasil pengujian hipotesis pertama dengan menggunakan ANAVA dua jalan pada taraf signifikansi , didapat nilai  = 66.1741 lebih besar dari  = 7.3956, maka Ho ditolak, sebagai konsekuensinya maka H1 diterima, artinya terdapat perbedaan rata-rata koefisien reliabilitas antara probabilitas guessing 0,33 dengan probabilitas guessing 0,25 . Nilai rata-rata koefisien reliabilitas pada probabilitas guessing 0.333 sebesar 0.7804 lebih rendah dari nilai rata-rata koefisien reliabilitas pada probabilitas guessing 0.25 sebesar 0.8329. Dengan demikian dapat disimpulkan bahwa koefisien reliabilitas pada probabilitas guessing 0.25 lebih tinggi dari koefisien reliabilitas pada probabilitas guessing 0.333.

Pengujian hipotesis kedua, berdasarkan analisis varians (ANAVA) di atas, didapat nilai  = 47.2302 lebih besar dari  = 7.3956, pada taraf signifikansi  maka Ho ditolak, sebagai konsekuensinya maka H1 diterima, artinya terdapat perbedaan rata-rata koefisien reliabilitas antara panjang tes 30 dengan panjang tes 40 . Nilai rata-rata koefisien reliabilitas pada panjang tes 30 sebesar 0.8288 lebih tinggi dari nilai rata-rata koefisien reliabilitas pada panjang tes 40 sebesar 0.7845. Dengan demikian dapat disimpulkan bahwa koefisien reliabilitas pada panjang tes 30 lebih tinggi dari koefisien reliabilitas pada panjang tes 40.

Berdasarkan hasil analisis varians (ANAVA) di atas diperoleh efek interaksi A*B = 12.2389 lebih besar dari  = 7.3956, pada taraf signifikansi , maka H0 ditolak. Dengan demikian dapat dikatakan bahwa hipotesis ketiga, terdapat pengaruh interaksi antara probabilitas guessing dengan panjang tes terhadap koefisien reliabilitas tes matematika. Dengan adanya interaksi antara probabilitas guessing dengan panjang tes, maka dilanjutkan dengan uji ANAVA satu jalan untuk melihat simple effect, yaitu untuk menguji (1) perbedaan koefisien reliabilitas antara probabilitas guessing 0,33 dan probabilitas guessing 0,25 pada panjang tes 30, (2) perbedaan koefisien reliabilitas antara probabilitas guessing 0,33 dan probabilitas guessing 0,25 pada panjang tes 40, (3) perbedaan koefisien reliabilitas antara panjang tes 30 butir dengan panjang tes 40 butir, pada probabilitas guessing 0,33 dan (4) perbedaan koefisien reliabilitas antara panjang tes 30 butir dengan panjang tes 40 butir pada probabilitas guessing 0,25, uji perbedaan akan menggunakan uji tukey, karena penelitian ini dilakukan untuk membandingkan data dua kelompok yang memiliki jumlah sampel sama.

Pengujian hipotesis keempat, dengan menggunakan uji-Tukey, didapatkan harga = 4.9918 lebih besar dari  dengan α = 0,01 sebesar 4,48, maka Ho ditolak, atau H1 diterima. artinya terdapat perbedaan rata-rata koefisien reliabilitas antara probabilitas guessing 0,33 dan probabilitas guessing 0,25 pada panjang tes 30. Dilihat dari rata-rata kedua kelompok menunjukan, bahwa rata-rata koefisien reliabilitas guessing 0,33 pada panjang tes 30 yaitu = 0.8139 lebih rendah dari rata-rata koefisien reliabilitas guessing 0,25 pada panjang tes 30 yaitu = 0.8438. Dengan demikian dapat disimpulkan bahwa khusus untuk panjang tes 30, rata-rata koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari koefisien reliabilitas pada probabilitas guessing 0.25.

Pengujian hipotesis kelima, dengan menggunakan uji-Tukey, didapatkan harga = 10.9080 lebih besar dari   dengan α = 0,01 sebesar 4,48, maka Ho ditolak, atau H1 diterima, artinya terdapat perbedaan rata-rata koefisien reliabilitas antara probabilitas guessing 0,3333 dan probabilitas guessing 0,25 pada panjang tes 40. Dilihat dari rata-rata kedua kelompok menunjukan, bahwa rata-rata koefisien reliabilitas guessing 0,33 pada panjang tes 40 yaitu = 0.7470 lebih rendah dari rata-rata koefisien reliabilitas guessing 0,25 pada panjang tes 40 yaitu = 0.8220, dengan demikian untuk panjang tes 40, rata-rata koefisien reliabilitas pada probabilitas guessing 0,333 lebih rendah dari koefisien reliabilitas pada probabilitas guessing 0,25.

Pengujian hipotesis keenam, dengan menggunakan uji-Tukey, didapatkan harga = 9.9171 lebih besar dari  dengan α = 0,01 sebesar 4,48, maka Ho ditolak, atau H1 diterima, artinya terdapat perbedaan rata-rata koefisien reliabilitas antara panjang tes 30 dan panjang tes 40 pada probabilitas guessing 0,3333. Dilihat dari rata-rata kedua kelompok menunjukan, bahwa rata-rata koefisien reliabilitas pada panjang tes 30 pada probabilitas guessing 0.3333 yaitu = 0.8139 lebih rendah dari rata-rata koefisien panjang tes 40 pada probabilitas guessing 0,3333 yaitu = 0.7470, dengan demikian untuk probabilitas guessing 0.33, rata-rata koefisien reliabilitas pada panjang tes 30 butir lebih tinggi dari panjang tes 40 butir, berarti hipotesis ini tidak teruji.

Pengujian Hipotesis ketujuh, dengan menggunakan uji-Tukey, didapatkan harga = 3.5439 lebih kecil dari  dengan α = 0,01 sebesar 4,48, dan lebih besar dari  dengan α = 0,05 sebesar 3.15, maka Ho ditolak, atau H1 diterima, artinya terdapat perbedaan rata-rata koefisien reliabilitas antara panjang tes 30 dan panjang tes 40 pada probabilitas guessing 0,25. Dilihat dari rata-rata kedua kelompok menunjukan, bahwa rata-rata koefisien reliabilitas pada panjang tes 30 untuk probabilitas guessing 0.25 yaitu = 0.8438 lebih tinggi dari rata-rata koefisien reliabilitas pada panjang tes 40 untuk probabilitas guessing 0,25 yaitu = 0.8220, dengan demikian untuk probabilitas guessing 0.25, rata-rata koefisien reliabilitas pada panjang tes 30 butir lebih tinggi dari panjang tes 40 butir.

Pembahasan Hasil Penelitian

Berdasarkan hasil analisis varian (ANAVA) dua jalan untuk sumber varians antar A sebagai hipotesis pertama ditemukan bahwa  = 66.1741 lebih besar dari  = 7.3956, ini menunjukkan bahwa probabilitas guessing 0.33 dengan probabilitas guessing 0,25  adalah berbeda, perbedaan ini didukung dengan nilai rata-rata koefisien reliabilitas pada probabilitas guessing 0.33  sebesar 0.7804 dan rata-rata koefisien reliabilitas pada probabilitas guessing 0.25  sebesar 0.8329, nampak dari deskripsi data pada kedua kelompok ini memiliki rerata yang berbeda. Hal ini mempunyai arti bahwa rata-rata koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari koefisien reliabilitas pada probabilitas guessing 0.25, dengan demikian uji hipotesis pertama ini teruji.

Menurut pendapat Zimmerman “When guessing is present, reliability is an increasing function of the number of items as well as the number of item choices”, jadi semakin banyak opsi yang digunakan, probabilitas guessing akan semakin kecil dan koefisien reliabilitaspun akan meningkat. Dengan kata lain, jika probabilitas guessingnya besar maka koefisien reliabilitas akan besar pula, dan jika dibandingkan probabilitas yang besar dengan probabilitas yang kecil maka koefisien reliabilitas akan lebih tinggi probabilitas guessing yang besar.

Berdasarkan hasil analisis varians antar B sebagai hipotesis kedua ditemukan bahwa  sebesar 47.2302 lebih besar dari sebesar 7.3956, ini menunjukkan bahwa koefisien reliabilitas pada panjang tes 30 dengan panjang tes 40  adalah berbeda, perbedaan ini didukung dengan nilai rata-rata koefisien reliabilitas pada panjang tes 30  sebesar 0.8288 dan rata-rata koefisien reliabilitas pada panjang tes 40  sebesar 0.7845, nampak dari deskripsi data pada kedua kelompok ini memiliki rerata yang berbeda. Hal ini mempunyai arti bahwa rata-rata koefisien reliabilitas pada panjang tes 30  lebih tinggi dari koefisien reliabilitas pada panjang tes 40 , dengan demikian uji hipotesis kedua ini ini tidak teruji, karena hipotesis yang di usulkan adalah koefisien reliabilitas pada panjang tes 30 lebih rendah dari panjang tes 40 butir.

Panjang tes adalah banyaknya butir tes yang mencerminkan banyaknya informasi atau pengetahuan yang akan diukur pada peserta tes. Banyaknya respon betul yang diperoleh peserta tes berarti kompetensi yang dimiliki peserta tes mendekati kompetensi yang sebenarnya. Peserta tes yang banyak menjawab betul, berarti kompetensi yang dimiliki peserta tes mendekati yang sebenarnya. Semakin banyak butir yang diukur, dan semakin banyak pula peserta tes menjawab betul, maka kompetensi yang dimiliki peserta mendekati sempurna atau mendekati yang sebenarnya. Hal ini akan berkontribusi terhadap keandalan suatu instrumen yang diukur. Karena menurut pendapat Zimmerman “When guessing is present, reliability is an increasing function of the number of items …”, semakin banyak butir yang digunakan maka reliabilitas akan meningkat maksudnya instrumen yang digunakan semakin handal. Dengan demikian akan menimbulkan perbedaan nilai koefisien reliabilitas.

Dari teori di atas seharusnya koefisien reliabilitas pada panjang tes 30  lebih rendah dari panjang tes 40  akan tetapi hipotesis dalam penelitian ini tidak teruji, hal ini dikarenakan: (1) varians dari sekor K (sekor tes matematika) antara panjang tes 30 dan panjang tes 40 setara, sementara menurut Zimmerman, standar deviasi dari sekor K setara dengan N/5 atau varians sekor K ( ) sebesar (N/5)2 (Zimmerman: 2003, 369), (2)  menurut Dali, untuk meningkatkan koefisien reliabilitas, maka perlu dilakukan perpanjangan alat ukur (instrument) sampai kelipatan L paruh (L=1,2,3 dan seterusnya), dalam hal ini L sama dengan N atau banyaknya butir/panjang tes (Naga: 1992). Dengan demikian, koefisien reliabilitas pada panjang tes 30 akan berbeda dengan panjang tes 30 x L (panjang tes 60, 90 dan seterusnya).

Berdasarkan hasil analisis varians untuk interaksi AB sebagai hipotesis ketiga, diperoleh sebesar 12.2389 lebih besar dari =7.3956, maka H0 ditolak, dengan demikian dapat dikatakan bahwa terdapat pengaruh interaksi antara probabilitas guessing dengan panjang tes terhadap koefisien reliabilitas tes matematika. Dengan adanya interaksi antara probabilitas guessing dengan panjang tes, maka harus dilanjutkan dengan uji ANAVA satu jalan, yaitu untuk menguji (1) perbedaan koefisien reliabilitas antara probabilitas guessing 0,33 dan probabilitas guessing 0,25 pada panjang tes 30, (2) perbedaan koefisien reliabilitas antara probabilitas guessing 0,33 dan probabilitas guessing 0,25 pada panjang tes 40, (3) perbedaan koefisien reliabilitas antara panjang tes 30 butir dengan panjang tes 40 butir, pada probabilitas guessing 0,33 dan (4) perbedaan koefisien reliabilitas antara panjang tes 30 butir dengan panjang tes 40 butir pada probabilitas guessing 0,25, uji perbedaan ini akan menggunakan uji tukey.

Berdasarkan hasil uji tukey, bahwa khusus untuk panjang tes 30, koefisien reliabilitas pada probabilitas guessing 0,33 dan probabilitas guessing 0,25 adalah berbeda, perbedaan ini didukung dengan nilai rata-rata koefisien reliabilitas probabilitas guessing 0.33  pada panjang tes 30 sebesar 0.8139 dan rata-rata koefisien reliabilitas probabilitas guessing 0.25  pada panjang tes 30 sebesar 0.8438, artinya uji hipotesis keempat ini teruji, karena hipotesis yang diusulkan adalah khusus untuk panjang tes 30, koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari probabilitas guessing 0.25.

Berdasarkan hasil uji tukey, bahwa khusus untuk panjang tes 40, koefisien reliabilitas pada probabilitas guessing 0,33 dan probabilitas guessing 0,25 adalah berbeda, perbedaan ini didukung dengan nilai rata-rata rata-rata koefisien reliabilitas probabilitas guessing 0.33  pada panjang tes 40 sebesar 0.7470 dan rata-rata koefisien reliabilitas probabilitas guessing 0.25 pada panjang tes 40 sebesar 0.8220, artinya khusus untuk panjang tes 40, rata-rata koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari probabilitas guessing 0.25, dengan demikian uji hipotesis kelima ini teruji.

Dengan panjang tes yang tetap atau konstan, namun jumlah opsi berbeda atau probabilitas guessingnya berbeda, maka koefisien reliabilitas yang tinggi akan dihasilkan oleh butir yang memiliki jumlah opsi yang banyak, karena peserta akan lebih sulit untuk melakukan tebakan, sehingga kompetensi yang diukur adalah kompetensi peserta tes yang sebenarnya, dengan demikian reliabilitas pun akan semakin tinggi.

Berdasarkan hasil uji tukey, bahwa khusus untuk probabilitas guessing 0.33, rata-rata koefisien reliabilitas antara panjang tes 30 dan panjang tes 40 adalah berbeda, perbedaan ini juga terlihat dari nilai rata-rata koefisien reliabilitas panjang tes 30 pada probabilitas guessing 0.33 sebesar 0.8139 dan rata-rata koefisien reliabilitas panjang tes 40 pada probabilitas guessing 0.33 sebesar 0.7470, dari deskripsi data pada kedua kelompok ini menunjukkan bahwa, khusus untuk probabilitas guessing 0,33, rata-rata koefisien reliabilitas pada panjang tes 30 lebih tinggi dari koefisien reliabilitas pada panjang tes 40, dengan demikian uji hipotesis keenam ini tidak teruji, karena hipotesis yang diusulkan adalah khusus untuk probabilitas guessing 0.33, koefisien reliabilitas pada panjang tes 30 butir lebih rendah dari panjang tes 40 butir.

Berdasarkan hasil uji tukey, bahwa khusus untuk probabilitas guessing 0,25, rata-rata koefisien reliabilitas antara panjang tes 30 dan panjang tes 40 adalah berbeda, perbedaan ini didukung dengan nilai rata-rata koefisien reliabilitas panjang tes 30 pada probabilitas guessing 0.25 sebesar 0.8438 dan rata-rata koefisien reliabilitas panjang tes 40 pada probabilitas guessing 0,25 sebesar 0.8220, nampak dari deskripsi data pada kedua kelompok ini memiliki rerata yang relatif sama. Dengan kata lain, khusus untuk probabilitas guessing 0,25, rata-rata koefisien reliabilitas pada panjang tes 30 dan koefisien reliabilitas pada panjang tes 40 sama saja, dengan demikian uji hipotesis ketujuh ini tidak teruji, karena hipotesis yang diusulkan adalah khusus untuk probabilitas guessing 0.25, koefisien reliabilitas pada panjang tes 30 butir lebih rendah dari panjang tes 40 butir.

Peserta tes yang tidak memiliki kemampuan untuk menjawab betul, akan berusaha menjawab dengan melakukan lokalisasi atau eliminasi terhadap opsi yang tersedia. Jika jumlah opsinya sedikit maka eliminasi opsi akan mudah dilakukan dan probabilitas untuk menebak benar adalah besar, akan tetapi jika jumlah opsinya bertambah banyak maka eliminasipun bertambah sulit sehingga probabilitas guessingnya kecil.

Hal ini akan tetap terjadi meskipun panjang tes yang tersedia berbeda. Karena peserta tes yang tidak memiliki kemampuan untuk menjawab betul tetap saja akan melakukan eliminasi terhadap jumlah opsi yang ada, artinya setiap butir akan selalu ditebak oleh peserta yang tidak memiliki kemampuan untuk menjawab. Akan tetapi jika dilihat dari kehandalan atau reliabilitas yang diperoleh, maka koefisien reliabilitas yang tinggi akan dihasilkan oleh butir yang banyak, karena peserta akan lebih sulit untuk melakukan tebakan. Namun kenyataannya dalam penelitian ini justru terjadi sebaliknya, koefisien reliabilitas yang dihasilkan oleh panjang tes 30 lebih tinggi dari panjang tes 40.

Hipotesis keenam dan ketujuh di atas tidak teruji, ini dikarenakan: (1) varians dari sekor K antara panjang tes 30 dan panjang tes 40 setara untuk masing-masing kelompok probabilitas guessing 0.33 dan 0.25 setara, (2) panjang tes seharusnya 30 x L atau panjang tes 60, 90.

Simpulan

Sesuai tujuan dan permasalahan yang telah dirumuskan bahwa tujuan dari penelitian ini adalah untuk mengetahui pengaruh probabilitas guessing dan panjang tes yang paling tepat digunakan dalam tes hasil belajar matematika agar diperoleh instrumen dengan tingkat koefisien reliabilitas yang baik. Berdasarkan hasil pengujian hipotesis, maka dikemukakan beberapa kesimpulan, sebagai berikut.

  1. Rata-rata koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari rata-rata koefisien reliabilitas pada probabilitas guessing 0.25.
  2. Terdapat pengaruh interaksi antara panjang tes dan probabilitas guessing terhadap koefisien reliabilitas.
  3. Khusus untuk panjang tes 30, rata-rata koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari rata-rata koefisien reliabilitas pada probabilitas guessing 0.25.
  4. Khusus untuk panjang tes 40, rata-rata koefisien reliabilitas pada probabilitas guessing 0.33 lebih rendah dari rata-rata koefisien reliabilitas pada probabilitas guessing 0.25.

 

 

 

DAFTAR PUSTAKA

 

Aiken, Lewis R, Psychological Testing Assessment, Massachusetts: Allyn and Bacon, 1994.

Anastasi, Anne dan Susana Urbina, Psychological Testing, terjemahan Robertus Hariono, Jakarta: Indeks, 2007.

Arikunto, Suharsimi, Dasar-Dasar Evaluasi Pendidikan, Jakarta: Bumi Aksara, 2007.

Azwar, Saifuddin, Tes Prestasi Fungsi dan Pengembangan Pengukuran Prestasi Belajar,  Yogyakarta: Pustaka Pelajar, 1996.

Cronbach, Lee J, Essential of Psychological Testing, New York: Harper & Row Publisher, 1984.

Djaali dan Pudji Mulyono, Pengukuran dalam Bidang Pendidikan, Jakarta: Grasindo, 2007.

Fray, Robert B, “The Effect of Misinformation, Partial Information, and Guessing on Expected Multiple Choice Test Item Scores,” Applied Psychological Measurement, no. 1 (1980); 79-90.

Gronlund, Norman E., and Robert L. Linn, Measurement and Evaluation in Teaching, New York: Macmillan Publishing Company, 1999.

Kusaeri, “Guessing dan Pengaruhnya Terhadap Reliabilitas Tes Pilihan Ganda,” http://jurnal.pdii.lipi.go.id, (diakses tanggal 17 Desember 2010).

McMillan, James H, Assesment Essential for Standards-Based Education, California: Carwin Press, 2008.

Mehrens, William A., dan Irvin J. Lehmann, Using Standardized Test in Education, New York: Longman Inc., 1987.

Naga, Dali S, Pengantar Teori Sekor pada Pengukuran Pendidikan, Jakarta: Universitas Gunadarma,1992.

Nitko, Anthony J, Educational Assessment of Student, New Jersey: Prentice Hall, Inc., 2009.

Plake, Barbara S., dan Gerald J. Melican, “Prediction of Item Performance by Expert Judges: A Methodology for Examining the Impact of Correction for Guessing Instructions on Test Taking Behavior,” Research Report, ED 298-171, National Institute of Education, US Departement of Education: Educational Resources Information Center (ERIC), 1985.

Purwanto, M. Ngalim, Prinsip-prinsip dan Teknik Evaluasi Pengajaran, Bandung: PT. Remaja Rosdakarya, 2000.

Reynolds, R. Cecil., Ronald B. Livingston and Victor Willson, Measurement and Assesment in Education, Boston: Meril is an Inprint of Pearson, 2009.

Rogers, H. J, Guessing in Multiple Choice Tests, Advances in Measurement in Educational Research and Assessment, Oxford: Elsevier Sciences, 1999.

Silverius, Suke, Evaluasi Hasil Belajar dan Umpan Balik, Jakarta: Grasindo, 1991.

Stamboel, Conny S, Prinsip dan Teknik Pengukuran dan Penilaian di Dalam Dunia Pendidikan, Jakarta: Mutiara Sumber Widya, 1991.

Sudjana, Nana, Penilaian Hasil Proses Belajar Mengajar, Bandung: PT Remaja Rosdakarya, 2009.

Sukardi, Evaluasi Pendidikan, Prinsip dan Operasionalnya, Jakarta: PT Bumi Aksara, 2009.

Surapranata, Sumarna, Panduan Penulisan Tes Tertulis, Implementasi Kurikulum 2004, Bandung: PT Remaja Rosdakarya, 2005.

Tobroni, Teori-Teori Mengukur Mutu Sekolah.

    http://tobroni.staff.umm.ac.id, (diakses 29 April 2011).

Wiersma, William dan Stephen G. Jurs, Educational Measurement and Testing, Massachusetts: A division of Simon & Schuster, inc., 2001.

Wilcox, Rand R, “Solving Measurement Problems With an Answer Until Correct Scoring Procedure,” Journal Applied Psychological Measurement, no. 3 (Summer 1981); 399-414.

Zimmerman, Donald W., and Richard H. Williams, “A New Look at the Influence of Guessing on the Reliability of Multiple-Choice Tests,” Journal Applied Psychological Measurement, no. 5 (2003); 357-371.