Tes tertulis dapat
dibedakan menjadi dua macam, yaitu tes uraian (essay test), dan test objektif (objective
test). Tes objektif banyak digunakan oleh dunia pendidikan, yang umumnya
disajikan dalam bentuk pilihan ganda (multiple
choice). Banyak orang beranggapan
bahwa tes pilihan ganda lebih mudah dari pada tes uraian (Wijaya, 2005).
Salah satu alasannya adalah karena jawaban tes pilihan ganda dapat diterka-terka atau dengan kata lain banyak memberikan kesempatan kepada peserta tes untuk berspekulasi, sedangkan tes uraian akan mengeksplor kemampuan peserta tes dalam menyusun jawaban, bernalar sesuai dengan jalan pikirannya dan gaya bahasanya sendiri. Hal inilah yang menjadi penyebab tes uraian lebih sulit.
Salah satu alasannya adalah karena jawaban tes pilihan ganda dapat diterka-terka atau dengan kata lain banyak memberikan kesempatan kepada peserta tes untuk berspekulasi, sedangkan tes uraian akan mengeksplor kemampuan peserta tes dalam menyusun jawaban, bernalar sesuai dengan jalan pikirannya dan gaya bahasanya sendiri. Hal inilah yang menjadi penyebab tes uraian lebih sulit.
Uraian di atas
menunjukkan bahwa tes bentuk pilihan ganda memiliki kelemahan terhadap perilaku
spekulasi atau menebak (guessing)
dibandingkan pertanyaan terbuka. Namun tes bentuk pilihan ganda memiliki bias
respons yang lebih kecil dibanding pertanyaan terbuka. Selain itu, bentuk
pilihan ganda dapat mempermudah penilaian dan meminimalisir bias subjektivitas
penilai dalam memberikan penilaian. Nunnally (1970) menyatakan bahwa peserta
tes seringkali guessing dengan
melakukan eliminasi terhadap pilihan jawaban yang mereka anggap tidak mungkin
benar. Oleh karena itu, alternatif pilihan sesungguhnya cenderung lebih kecil
dari alternatif pilihan yang diberikan sehingga estimasi efek guessing cenderung lebih kecil dari efek
sesungguhnya (underestimate).
Salah satu penyebab peserta tes melakukan
guessing dalam menjawab soal
jenis pilihan ganda karena soal tersebut
tidak sesuai dengan kemampuan mereka. Artinya,
soal terlalu sulit untuk level kemampuan mereka. Padahal, perilaku
menebak (guessing) merupakan salah satu sumber kesalahan
pengukuran dalam tes, khususnya bagi test pencapaian (achievement test). Hal ini sesuai dengan pendapat Nunnally (1970)
yang menyatakan bahwa salah satu faktor yang harus dipertimbangkan dalam
pengukuran maximum performance adalah
pengaruh perilaku guessing. Guessing akan berkonstribusi terhadap
varians kesalahan pengukuran dan mengurangi reliabilitas tes.
Mengeliminir Efek Guessing
dengan Model Penskoran Alternatif
Model penskoran tes pilihan ganda dewasa ini yang cenderung digunakan adalah menjumlahkan
skor jawaban yang benar saja (correct
score) sebagai skor peserta tes. Model penskoran seperti itu dan bila
diketahui secara terbuka oleh peserta tes akan menyebabkan peserta tes
berspekluasi dalam menjawab tes. Model penskoran tes pilihan ganda dengan correct score sebagai skor pencapaian
prestasi, selain memberi peluang melakukan guessing
menurut Shuford (dalam Individual and
social in Objective Testing, tt) juga berimplikasi pula pada kurang validnya tes tersebut serta
menurunnya tingkat indeks reliabilitas
tes. Hal senada juga diungkapkan oleh Hopkins & Antes (1985) bahwa guessing dalam tes pilihan ganda dapat
menurunkan nilai validitas butir dan reliabilitas tes.
Selain itu, skor pencapaian peserta tes yang diperoleh secara murni karena
peserta tes mengetahui pilihan jawaban yang benar dan peserta yang dipengaruhi
oleh guessing juga sulit dibedakan
bila penskorannya menggunakan model correct
score. Apabila dikaitkan dengan hasil penskoran hasil suatu tes pilihan
ganda dengan butir-butir soal yang dibiarkan tidak dijawab (omit) oleh peserta tes, tentu akan lain
pencapaian skornya. Demikian pula, bila penskoran tersebut dikaitkan dengan
banyaknya pilihan jawaban (option) yang diberikan.
Ada model lain penskoran untuk
menghindari sedikit mungkin guessing
yaitu dengan cara model penskoran hukuman (punishment
score) dan model penskoran hadiah (reward
score). Model punishment score merupakan model penskoran yang
memperhitungkan jawaban salah yang direspon oleh peserta tes dengan jalan
memberi hukuman dalam bentuk mengurangi skor dengan menggunakan rumus tertentu.
Brown (1983) menawarkan rumus umum untuk mengoreksi guessing melalui formula: Xc = R - dengan Xc
= skor pengoreksian guessing, R =
banyaknya respon yang benar, W = banyaknya respon yang salah dan A = banyaknya
pilihan jawaban per butir soal.
Rumus di atas memiliki asumsi bahwa peserta tes menjawab secara acak atau guessing ketika tak meyakini suatu
pilihan jawaban yang benar. Rumus penskoran yang ditawarkan Brown di atas digunakan untuk
mempertimbangkan unsur guessing dalam menjawab. Hal senada juga diajukan oleh
Guilford (1982) yang menawarkan rumusan penskoran apriori. Rumusan apriori yang paling
umum digunakan adalah sebagai berikut:
S = R -
Rumusan apriori Guilford ini sejalan dengan Hopkin &
Antes (1985) yang menyebutnya sebagai rumusan yang umum untuk mengoreksi faktor
guessing dalam jawaban peserta tes.
Rumus Hopkins & Antes didasari oleh pengoreksian terhadap faktor guessing dalam menjawab tes pilihan
ganda. Crocker & Algina (1986) juga
menyebutkan bahwa rumus model
yang diajukan oleh Brown & Guilford dengan nama right-minus wrong correction atau punishment score. Asumsi dasar dari penggunaan rumus punishment score adalah jawaban yang merupakan hasil guessing, sehingga jumlah jawaban salah
dibagi dengan A -1 merupakan hukuman bagi peserta tes yang menjawab dengan guessing.
Menurut Davis & Ebel (dalam
Brown, 1983) terjadi perdebatan antara model correct score dengan model punishment
score. Para pendukung correct score
berpendapat bahwa hasil skor relatif sama secara peringkat antara model correct score maupun model punishment score. Mereka berpendapat
bahwa kecil kemungkinan seorang peserta tes akan mendapatkan nilai tinggi
akibat hasil guessing. Sementara
pendukung model punishment score
berpendapat bahwa menskor dengan hukuman
akan menghasilkan skor yang lebih baik, serta dapat meningkatkan validitas
butir (Wijaya, 2005).
Di sisi lain, model reward score
merupakan model penskoran yang memperhitungkan jawaban yang tidak diisi atau
dikosongkan yang direspon oleh peserta tes dengan jalan memberi hadiah dalam
bentuk tambahan skor melalui penggunaan rumus tertentu. Rowley & Traub (dalam Crocker & Algina, 1986) mencatat bahwa
rumusan penskoran model reward
score didasarkan pada suatu model yang
mempertimbangkan tiga kemungkinan situasi: (1) peserta tes mengetahui pilihan
jawaban yang benar dan memilihnya, (2) peserta tes tidak memilih sama sekali
pilihan jawaban yang ada, dan (3) peserta tes menebak buta dan memilih salah satu dari pilihan
jawaban secara acak. Didasarkan pada model tebakan-acak ini, dibuat suatu
rumusan dasar yang mempertimbangkan pengaruh guessing untuk mengoreksi skor-skor mentah.
Xc = R +
dengan
Xc = skor koreksi, R = jumlah jawaban benar, O = jumlah butir yang
tidak dijawab (dikosongkan), dan A = jumlah alternative jawaban per butir (option).
Rumus di atas memberikan nilai tambah (skor dengan hadiah) atau reward score bagi peserta tes yang
tidak menjawab (mengosongkan) butir yang tidak diketahui, probabilitas dari
menyeleksi respon yang benar adalah 1/A. Secara ilustrasi, perbandingan kedua
model penskoran dapat dilihat pada Tabel 1.
Tabel 1
Ilustrasi Perhitungan Menggunakan Dua Model Penskoran
Peserta Tes
|
Jumlah
Benar
|
Tidak Diisi
|
Jumlah Salah
|
Xc = R +
|
Xc = R-
|
Dedi
|
14
|
0
|
6
|
14 +0/4 = 14
|
14-6/3 = 12
|
Rina
|
14
|
6
|
0
|
14 + 6/4 = 15,5
|
14 – 0/3 = 14
|
Taufik
|
14
|
3
|
3
|
14 + ¾ = 14,75
|
14 – 3/3 = 13
|
Berdasarkan Tabel 1
terlihat 3 orang peserta tes mengerjakan 20 butir dengan 4 pilihan jawaban (option) dan masing-masing peserta tes memiliki skor
jumlah benar yang sama yaitu 14. Jika digunakan rumus secara konvensional atau correct score maka ketiga peserta tersebut mendapatkan skor
yang sama yaitu 14. Bila menggunakan rumus punishment
score atau reward score maka ketiga peserta tes tersebut akan mendapatkan skor
yang berbeda.
Pada rumus reward score, rumus ini menerapkan
tambahan skor untuk butir-butir yang tidak dijawab oleh peserta sehingga skor
meningkat untuk peserta yang sedikit melakukan kesalahan, sedangkan rumus punishment score menerapkan hukuman
untuk peserta yang menjawab salah
sehingga makin banyak skor salah maka makin banyak pengurangan. Bila dicermati
rumus punishment score atau reward score keduanya
memberikan skor akhir dari ketiga peserta tersebut berbeda, namun peringkatnya
tidak berbeda. Kedua model penskoran menempatkan Rina sebagai peringkat
tertinggi, disusul secara berturut-turut oleh Taufik dan Dedi. Ini menunjukkan
bahwa kedua rumus punishment score atau reward score dapat diterapkan secara bersama-sama.
Mudah-mudahan model
alternatif penskoran ini dapat memberikan inspirasi bagi guru dalam melakukan proses
penskoran jawaban siswa. Dengan demikian akan terjadi keadilan (fairness) dalam proses penilaian.
Artinya, skor yang muncul/diberikan oleh guru dapat membedakan antara siswa
yang benar-benar serius dalam menjawab soal dan siswa yang berspekulasi. Amien…
Referensi
Angoff, W. H., 1989. Does guessing really help? Journal of Educational Measurement, 26 (3): 323-336.
Arianto, D. 2009. Estimasi kesalahan pengukuran soal-soal matematika kelas IX ulangan
akhir semester (UAS) I SMP di kota
Yogyakarta.Tesis tidak dipublikasikan. Yogyakarta: PPS Universitas negeri Yogyakarta .
Brown,
F.G. 1983. Principles of educational and
psychological testing. New York : CBS College
Publishing.
Crocker,
L. & Algina, J. 1986. Introduction to classical and modern test
theory. Tokyo : Harcourt Brace
Jovanovich College
Publisher.
Http://www.p-mmm.com/founders/emir/justice.htm
p.1. Diakses tanggal 17 Desember 2009.
Kumaidi, 2009. Analisis dan seleksi aitem. Materi
kuliah Konstruksi Instrumen tidak diterbitkan. Yogyakarta: PPs Universitas
Negeri Yogyakarta .
Nunnally, J.C.1970. Introduction to psychological measurement. New York : McGraw-Hill Book Company.
Nunnally, J.C.1983. Psychometric theory. New York : McGraw-Hill Book Inc.
Salehudin, I.
2009. Aplikasi
Certainty Based Marking (CBM) dalam
achievement test menggunakan bentuk pertanyaan benar-salah. Jakarta : Program Pascasarjana Terapan Psikometri Fakultas
Psikologi Universitas Indonesia .
Wijaya, Y. S. 2005. Perbandingan fungsi informasi butir model logistic dua parameter
ditinjau dari model penskoran tes pilihan ganda pada peserta tes SMAN DKI Jakarta tahun 2004. Disertasi tidak
dipublikasikan.Jakarta: PPs Universitas Negeri Jakarta.
Zimmerman, D.W &
Williams, S. 2003. A new
look at the influence of guessing on the
reliability of multiple choice test. Applied
Psychological Measurement, 27 (5): 357-371.
Zimmerman, D.W. 2009. The reliability of
difference score in population and sample. Journal
of Educational Measurement, 46(1):19-42.
Title Post: Mengeliminir Unsur Guessing (Menebak) pada Tes Bentuk Pilihan Ganda
Rating: 100% based on 99998 ratings. 5 user reviews.
Author: Unknown
Terimakasih sudah berkunjung di blog-kusaeri, Jika ada kritik dan saran silahkan tinggalkan komentar
Rating: 100% based on 99998 ratings. 5 user reviews.
Author: Unknown
Terimakasih sudah berkunjung di blog-kusaeri, Jika ada kritik dan saran silahkan tinggalkan komentar
0 komentar:
Posting Komentar