SELAMAT DATANG DI SULUH PENDIDIKAN

Cahaya untuk Dunia Pendidikan Indonesia yang Lebih Baik

Jumat, 05 Desember 2008

MENILAI KUALITAS TES

Baik buruknya suatu tes atau alat evaluasi dapat kita tinjau dari beberapa segi, yaitu:

1). Validitas.

2). Reliabilitas.

3). Tingkat kesukaran.

4). Daya beda.

Di bawah ini akan kami uraikan lebih lanjut tentang keempat faktor tersebut.


1. VALIDITAS SUATU TES

Suatu alat pengukur dapat dikatakan alat pengukur yang valid apabila alat pengukur tersebut dapat mengukur apa yang hendak diukur secara tepat. Misalnya barometer adalah suatu alat yang valid untuk mengukur tekanan udara. Tetapi alat ini tidak valid untuk mengukur suhu. Demikian pula dalam alat-alat evaluasi. Suatu tes hasil belajar dapat dikatakan tes yang valid apabila tes tersebut betul-betul dapat mengukur hasil belajar. Jadi, bukan sekedar mengukur daya ingatan atau kemampuan bahasa saja misalnya.

Validitas suatu tes dapat ditinjau dari beberapa segi, seperti yang akan kami uraikan di bawah ini.

a. Validitas ramalan (Predictive validity)

Validitas ramalan artinya ketetapan (kejituan) dari pada suatu alat pengukur ditinjau dari kemampuan tes tersebut untuk meramalkan prestasi yang dicapainya kemudian. Misalnya suatu tes hasil belajar dapat dikatakan mempunyai validitas ramalan yang tinggi, apabila hasil yang dicapai oleh anak dalam tes tersebut betul-betul dapat meramalkan sukses tidaknya anak-anak dalam pelajaran-pelajaran yang akan datang. Cara yang dipergunakan untuk menilai tinggi rendahnya validitas ramalan ini ialah dengan jalan mencari korelasi antara nilai-nilai yang dicapai oleh anak-anak dalam tes tersebut dengan nilai-nilai yang dicapainya kemudian.

Apabila koefisien korelasi yang diperoleh cukup tinggi, maka berarti validitas ramalan tersebut tinggi. Sebaliknya pula apabila koefisien korelasi yang dipergunakan rendah, maka berarti pula ramalan tes tersebut rendah.

b. Validitas bandingan (Concurent-validity)

Validitas bandingan artinya kejituan daripada suatu tes dilihat korelasinya terhadap kecakapan yang telah dimiliki saat kini secara riil. Perbedaan antara validitas ramalan dengan validitas bandingan ialah dilihat dari segi waktunya. Validitas ramalan melihat hubungannya dengan masa yang akan datang, sedangkan validitas bandingan melihat hubungannya dengan masa sekarang. Seperti juga dijelaskan oleh Wrightstone bahwa ”The difference between concurent validity and predictive validity is solely a matter of time. Predictive validity requires correspondence with a future criterion where as concurent validity requires correspondence with the criterion at the time of testing” (Wrightstone, 1961 hal.44).

Cara yang dipergunakan untuk menilai validitas bandingan ialah dengan jalan mengkorelasikan hasil-hasil yang dicapai dalam tes yang sejenis yang telah diketahui mempunyai validitas tinggi (misalnya tes standar). Tinggi rendahnya koefisien korelasi yang diperoleh menunjukkan tinggi rendahnya validitas tes yang akan kita nilai kualitasnya.

c. Validitas isi (Content validity)

Validitas isi artinya kejituan daripada suatu tes ditinjau dari isi tes tersebut. Suatu tes hasil belajar dapat dikatakan valid, apabila materi tes tersebut betul-betul merupakan bahan-bahan yang representatif terhadap bahan-bahan pelajaran yang diberikan. Misalnya apabila kita ingin memberikan tes bahas Inggris kepada anak-anak kelas II, maka item-itemnya harus diambila dari pelajaran kelas II. Kalau di dalamnya kita selipkan item-item yang diambil dari bahan-bahan pelajaran kelas III maka tes tersebut sudah tidak valid lagi.

Untuk menilai apakah suatu tes memiliki validitas isi atau tidak dapat kita lakukan dengan jaln membandingkan materi tes tersebut dengan analisa rasional yang kita lakukan terhadap bahan-bahan yang seharusnya dipergunakan dalam menyusun tes tersebut.

Apabila materi tes tersebut telah cocok dengan analisa rasional yang kita lakukan, berarti tes yang kita nilai itu mempunyai validitas isi. Sebaliknya apabila materi tes tersebut menyimpang dari analisa rasional kita, berarti tes tersebut tidak valid ditinjau dari validitas isinya.

d. Validitas susunan (Construct validity)

Validitas susunan artinya kejituan daripada suatu tes ditinjau dari susunan tes tersebut. Misalnya kalau kita ingin memberikan tes kecakapan ilmu pasti, kita harus membuat soal yang ringkas dan jelas yang benar-benar akan mengukur kecakapan ilmu pasti, bukan mengukur kemampuan bahasa karena soal itu ditulis secara berkepanjangan dengan bahasa yang sukar dimengerti.

Untuk mengetahui apakah suatu tes memenuhi syarat-syarat validitas susunan atau tidak maka kita harus membandingkan susunan tes tersebut dengan syarat-syarat penyusunan tes yang baik. Apabila susunan tes tersebut telah memenuhi syarat-syarat penyusunan tes maka berarti tes tersebut memenuhi syarat validitas susunan. Begitu pula sebaliknya, apabila tidak memenuhi syarat-syarat penyusunan tes berarti tidak memenuhi validitas susunan.

Validitas ramalan dan validitas bandingan disebut pula validitas empiris (empirical validity), sebab pengujian daripada validitas tersebut didasarkan atas perhitungan-perhitungan secara empiris. Sebaliknya validitas isi dan validitas susunan disebut pula validitas rasional (logical validity) sebab pengujian terhadap validitas tersebut didasarkan atas analisa rasional.

2. RELIABILITAS SUATU TES

Suatu tes dapat dikatakan tes yang reliable apabila tes tersebut menunjukkan hasil-hasil yang mantap. Ada beberapa cara yang dapat dipergunakan untuk mencari taraf reliabilitas daripada suatu tes.

a. Tehnik ulangan.

Mencari reliabilitas suatu tes dengan tehnik ulangan ialah dengan jalan memberikan tes tersebut kepada sekelompok anak-anak dalam dua kesempatan yang berlainan. Misalnya suatu tes diberikan kepada group A. Selang tiga hari atau seminggu kemudian tes tersebut diberikan lagi kepada group A dengan syarat-syarat tertentu. (misalnya soal-soal dalam tes tidak dibicarakan waktu antara itu, situasi tempat dibuat sama dan sebagainya). Skor yang diperoleh oleh anak-anak dalam periode pertama dikorelasikan dengan skor yang mereka peroleh dalam periode kedua. Besar kecilnya koefisien korelasi yang diperoleh menunjukkan reliabilitas dari tes tersebut.

b. Tehnik bentuk paralel.

Dalam tehnik ini dipergunakan dua buah tes yang sejenis (tetapi tidak identik), mengenai isinya, proses mental yang diukur, tingkat kesukaran jumlah item dan aspek-aspek yang lain.

Kedua tes ini diberikan kepada kelompok subyek tanpa adanya tenggang waktu. Skor yang diperoleh dari kedua tes tersebut dikorelasikan. Besar kecilnya koefisien korelasi yang diperoleh menunjukkan reliabilitas daripada tes tersebut.

Jika dibandingkan dengan tehnik ulangan, tehnik bentuk paralel ini lebih menguntungkan karena :

1). Item-item yang dipergunakan tidak sama maka pengaruh daripada hasil latihan dapat dihindarkan.

2). Tidak adanya tenggang waktu maka perbedaan faktor-faktor yang mempengaruhi pelaksanaan tes boleh dikatakan tidak ada. Misalnya faktor situasi tes, administrasi, pengawasan dan sebagainya.

Kelemahan daripada tehnik ini ialah adanya kesukaran untuk menyusun item-item yang betul-betul paralel.

c. Tehnik belah dua

Dalam tehnik ini, tes yang telah diberikan kepada sekelompok subyek dibelah menjadi dua bagian. Kemudian tiap-tiap bagian diberikan skor secara terpisah. Ada dua prosedure yang dapat dipergunakan untuk memebelah dua suatu tes yaitu :

1). Prosedure ganjil genap, artinya seluruh item yang bernomor ganjil dikumpulkan menjadi satu kelompok, dan seluruh item yang bernomor genap menjadi kelompok yang lain.

2). Prosedure secara random, misalnya dengan jalan lotre, atau dengan jalan mempergunakan tabel bilangan random.

Koefisien korelasi yang diperoleh dari kedua belahan itu menunjukkan reliabilitas dari setengah tes.

Untuk mencari reliabilitas seluruh tes dipergunakan rumus Spearman Brown sebagai berikut:

=

Keterangan:

=

Koefisien korelasi seluruh tes

N

=

Perbandingan antara panjang tes seluruhnya dengan panjang tes yang dikorelasikan.

=

Koefisien korelasi antara sebagian tes dengan bagian tes lainnya.

Contoh :

Suatu tes terdiri dari 50 item. Secara random diambil 25 item sebagai belahan pertama dan 25 item sebagai belahan kedua. Skor yang dicapai oleh pengikut tes pada kedua belahan tersebut dikorelasikan. Koefisien korelasi yang diperoleh antara kedua belahan tersebut adalah 0,627. Maka koefisien korelasi seluruh tes dapat dicari sebagai berikut :

=

=

=

=

= 0,771.

3. TINGKAT KESUKARAN DAN DAYA BEDA SUATU TES

Suatu tes tidak boleh terlalu mudah, dan juga tidak boleh terlalu sukar. Sebuah item yang terlalu mudah sehingga dapat dijawab dengan benar oleh semua anak bukanlah merupakan item yang yang baik. Begitu pula item yang terlalu sukar sehingga tidak dapat dijawab oleh semua anak juga bukan merupakan item yang baik. Jadi item yang baik adalah item yang mempunyai derajat kesukaran tertentu.

Disamping itu oleh karena suatu tes dimaksudkan untuk memisahkan antara murid-murid yang betul-betul mempelajari suatu pelajaran dengan murid-murid yang tidak mempelajari pelajaran itu, maka tes/item yang baik adalah tes/item yang betul-betul dapat memisahkan kedua golongan murid tadi. Jadi setiap item di samping harus mempunyai derajat kesukaran tertentu, juga harus mampu membedakan antara murid yang pandai dengan yang bodoh.

Untuk mencari Derajat Kesukaran (DK) dan Daya Beda (DB) suatu item dapat dilakukan dengan jalan mengadakan analisis item-item, (item analysis). Dalam analisis item di samping mencari DK dan DB nya, juga dapat dicari efektivitas setiap option yang digunakan dalam item tersebut. Ada bebarapa cara yang dapat dilakukan dalam analisis item tersebut. Salah satu cara yang dapat ditempuh adalah dengan prosedure sebagai berikut :

a. Susunlah lembar jawaban anak-anak. Lembar jawaban yang mendapat skor paling tinggi ditaruh paling atas, dibawahnya adalah lembar jawaban yang mendapat skor lebih rendah, demikian seterusnya sehingga lembar jawaban yang mendapat skor paling rendah diletakkan paling bawah.

b. Ambillah 27% lembar jawaban dari atas. 27% lembar jawaban yang diambil dari ats ini kita sebut kelompok atas. Dan ambil pula 27% lembar jawaban dari bawah. 27% lembar jawaban yang diambil dari bawah ini kita sebut kelompok bawah. Sisanya yang ditengah-tengah sebanyak 46% kita sisihkan, karena tidak diikutkan dalam analisis.

c. Buatlah tabel seperti di bawah ini :

No. item

WL

WH

WL + WH

WL - WH

1

2

3

4

5

6

dst

d. Isilah kolom-kolom tabel tersebut dengan data yang diperoleh. Misalnya untuk item no.1 dibawah kolom WL supaya diisi berapa orang dari kelompok bawah yang salah pada item no. 1 tersebut. Di bawah kolom WH supaya diisi berapa orang dari kelompok atas yang salah pada item no.1 tersebut. Selanjutnya kolom (WL + WH) dan kolom (WL - WH) dengan sendirinya bisa diisi.

e. Derajat Kesukaran (DK) atau Degree of Difficulty (DD) dapat dicari dengan rumus:

Keterangan :

DK

=

Derajat kesukaran

nL

=

Jumlah kelompok bawah

nH

=

Jumlah kelompok atas

f. Daya Beda (DB) atau Discriminating Power (DP) dapat dicari dengan rumus:

Keterangan :

DB

=

Daya beda

n

=

Jumlah kelompok atas atau kelompok bawah

Contoh :

Untuk mendapatkan gambaran yang lebih jelas mengenai langkah-langkah yang ditempuh dalam mencari derajat kesukaran dan daya beda suatu item di bawah ini akan dikemukakan sebuah contoh.

a. Kita misalkan murid yang mengikuti tes yang kita berikan adalah sebanyak 50 orang. Lembar jawaban murid-murid tersebut kita susun dari skor tertinggi paling atas sampai dengan skor terendah paling bawah.

b. Kita ambil 27% dari mereka yang mendapatkan skor tertinggi. Dalam hal ini 27% X 50 orang sama dengan 13,5 orang kita bulatkan menjadi 14 orang. Begitu pula kita ambil 27% dari mereka yang mendapatkan skor terendah. Jumlahnya tentu sama dengan kelompok atas, yaitu 14 orang juga.

c. Misalkan data yang diperoleh adalah sebagai berikut:

- Untuk item no.1, dari kelompok bawah salah 9 orang dan dari kelompok atas salah 2 orang.

- Untuk item no.2, dari kelompok bawah salah 8 orang dan dari kelompok atas salah 5 orang.

- Untuk item no.3, dari kelompok bawah salah 14 orang dan dari kelompok atas salah 8 orang.

- Untuk item no.4, dari kelompok bawah salah 8 orang dan dari kelompok atas tidak ada yang salah.

- Untuk item no.5, dari kelompok bawah salah 6 orang dan dari kelompok atas salah 11 orang.

- Untuk item no.6, dari kelompok bawah salah 8 orang dan dari kelompok atas salah 3 orang.

d. Berdasarkan data tersebut, maka dapat dibuat tabel seperti dibawah ini.

No. item

WL

WH

WL + WH

WL - WH

1

9

2

11

7

2

8

5

13

3

3

14

8

23

6

4

6

0

6

6

5

13

11

24

2

6

2

3

5

-1

dst

-

-

-

-

e. Berdasarkan tabel tersebut di atas, maka derajat kesukaran untuk masing-masing item dapat dicari sebagai berikut :

- Untuk item no.1.

- Untuk item no.2.

- Untuk item no.3.

- Untuk item no.4.

- Untuk item no.5.

- Untuk item no.6.

f. Berdasarkan tabel di atas pula, maka daya beda tiap item dapat dicari sebagi berikut :

- Untuk iten no.1.

- Untuk item no.2.

- Untuk item no.3.

- Untuk item no.4.

- Untuk item no.5.

- Untuk item no.6

Derajat kesukaran yang baik adalah derajat kesukaran yang bergerak antara 25% sampai 75%. Item yang mempunyai derajat kesukaran di bawah 25% berarti bahwa item tersebut terlalu mudah. Sebaliknya item yang mempunyai derajat kesukaran di atas 75%, berarti bahwa item tersebut terlalu sukar.

Daya beda yang ideal adalah daya beda 0,40 ke atas. Namun untuk ulangan-ulangan harian, masih dapat ditolerir daya beda sebesar 0,20.

Berdasarkan ketentuan tersebut, maka dapat kita seleksi, item-item mana yang memenuhi syarat dan item mana yang tidak memenuhi syarat. Item-item yang memenuhi syarat dapat kita simpan dan kita gunakan untuk keperluan evaluasi yang akan datang. Item-item yang tidak memenuhi syarat harus dibuang atau direvisi. Salah satu hal yang perlu diperhatikan dalam mengadakan revisi item ialah effektifitas daripada masing-masing option yang digunakan dalam item tersebut. Untuk mengetahui apakah suatu option berfungsi secara efektif atau tidak, ditempuh prosedure sebagai berikut:

a. Ambil 27% lembar jawaban yang mendapat skor tertinggi dan 27% lembar jawaban yang mendapat skor terendah (Jadi sama dengan prosedure mencari derajat kesukaran dan daya beda).

b. Buat tabel sejumlah item yang akan diuji efektifitas option-optionnya, sebagai berikut :

c. Isikan distribusi pilihan terhadap option yang disediakan baik untuk kelompok atas maupun untuk kelompok bawah.

d. Berdasarkan distribusi pilihan kelompok atas dan kelompok bawah, maka dapat dihitung option mana yang berfungsi secara efektif dan option mana yang tidak berfungsi secara efektif. Pedoman yang digunakan untuk menentukan efektifitas suatu option adalah sebagai berikut :

1). Untuk option kunci

- Jumlah pemilih kelompok atas dan kelompok bawah tidak kurang dari 25% tetapi tidak lebih dari 75%.

- Frekuensi pilihan kelompok atas harus lebih tinggi daripada frekuensi pilihan kelompok bawah.

2). Untuk option pengecoh (distractor)

- Jumlah pemilih kelompok atas dan kelompok bawah, minimal adalah 25% kali satu per dua kali jumlah option pengecoh kali jumlah kelompok atas ditambah kelompok bawah.(lihat contoh).

Contoh :

Untuk mendapatkan gambaran yang lebih jelas tentang prosedure yang ditempuh dalam menguji efektifitas option-option di bawah ini disajikan sebuah contoh :

a. Kita misalkan jumlah murid yang dites adalah 50 orang. Sehingga 27% nya setelah dibulatkan adalah 14 orang.

b. Misalkan pula bahwa item tersebut menggunakan lima buah option, yaitu : (a), (b), (c), (d), dan (e). Option kuncinya adalah (b), sehingga option pengecohnya adalah (a), (c), (d), dan (e).

c. Misalkan lagi bahwa kelompok atas yang memilih option (a) sebanyak satu orang, yang memilih option (b) sebanyak sembilan orang, yang memilih option (c) sebanyak empat orang, yang memilih option (d) tidak ada dan yang memilih option (e) juga tidak ada.

Kelompok bawah yang memilih option (a) sebanyak delapan orang, yang memilih option (b) dua orang, yang memilih option (c) tiga orang, yang memilih option (d) satu orang dan yang memilih option (e) tidak ada.

Dengan demikian maka isian tabelnya adalah sebagai berikut :

Option

a

b

c

d

e

Kelompok

Atas

1

9

4

0

0

bawah

8

2

3

1

0

d. Berdasarkan tabel tersebut maka dapat kita uji bagaimana efektifitas dari masing-masing option tersebut :

- Option (b), sebagai option kunci berfungsi cukup efektif, sebab jumlah pemilih kelompok atas dan kelompok bawah adalah

Jadi lebih besar dari 25% dan lebih kecil dari 75%. Di samping itu frekuensi pemilih kelompok atas (9 orang), lebih besar daripada frekuensi pemilih kelompok bawah.

- Option (a) sebagai option pengecoh berfungsi sangat efektif sebab jumlah pemilihnya 9 orang. Jadi tidak kurang dari . Disamping itu frekuensi pemilih kelompok bawah (8 orang) lebih tinggi daripada frekuensi pemilih kelompok atas (1 orang).

- Option (c) sebagai option pengecoh tidak berfungsi secara efektif, sebab frekuensi pemilih kelompok atas (4 orang) lebih tinggi daripada frekuensi pemilih kelompok bawah (3 orang).

- Option (d) sebagai option pengecoh agak efektif, karena jumlah pemilih kelompok atas dan kelompok bawah (1 orang) tidak kurang dari orang. Serta frekuensi pemilih kelompok bawah lebih besar daripada frekuensi pemilih kelompok atas.

- Option (e) sebagai option pengecoh tidak berfungsi secara efektif, sebab jumlah pemilih kelompok atas dan kelompok bawah kurang dari 0,875 orang. (kurang dari orang).

Tingkat kesukaran maupun daya beda suatu item dapat berbeda-beda dari satu kelompok murid dengan kelompok murid lainnya. Oleh karena itu tidaklah bijaksana menentukan secara mutlak daya beda minimum suatu item. Yang penting untuk diingat adalah : apakah item itu memiliki daya beda positif atau tidak, apakah pengecoh berfungsi secara efektif atau tidak, apakah setiap item mengukur hasil belajar yang penting atau tidak? Kalau semua pertanyaan tersebut dapat dijawab dengan ya, maka item itu hendaknya dipertahankan, dan disimpan dalam suatu map untuk dapat digunakan kemudian hari.

Kalau item tadi digunakan lagi pada kelompok murid yang akan datang, hendaknya diadakan analisis kembali, dan mencatat item tersebut dalam sebuah kartu kecil dengan menuliskan pula tingkat kesukaran, daya beda dan efektivitas option-optionnya.

4. Praktikabilitas

Sebuah tes dikatakan memiliki praktikabilitas yang tinggi apabila tes tersebut bersifat praktis, mudah pengadministrasinya. Tes yang baik adalah tes yang :

a. Mudah dilaksanakan, misalnya tidak menuntut peralatan yang banyak.

b. Mudah pemeriksaannya, artinya tes itu dilengkapi dengan kunci jawabanmaupun pedoman skoring.

c. Dilengkapi dengan petunjukpetunjuk

Tidak ada komentar: