Selasa, 22 Oktober 2013

Penilaian Bahasa: Penjaga Pintu atau Pintu-Pembuka?

Pendahuluan
Telah lama diakui bahwa tes pada umumnya, dan penilaian bahasa pada khususnya, dimaksudkan untuk memberikan pelayanan yang berharga kepada masyarakat. Dalam arti bahwa tes dan penilaian ini menghasilkan informasi yang dapat membantu para pengambil keputusan mengalokasikan sumber daya atas dasar merit (?), bukan keturunan atau patronase. Pada saat yang sama, banyak peneliti telah menunjukkan potensi untuk penilaian bahasa yang akan digunakan untuk tujuan selain yang yang mereka dirancang, sering dengan yang tidak diinginkan negatif terhadap berbagai kelompok pengambil tes (misalnya, Spolsky, 1981; Shohamy, 2001). Terlepas dari apakah penilaian bahasa yang digunakan tepat atau tidak tepat, mereka berfungsi sebagai kedua pintu-pembuka dan gatekeeper. Artinya, keputusan yang dibuat atas dasar bahasa Penilaian akan melibatkan mengalokasikan sumber daya, kesempatan, atau penghargaan kepada beberapa saat menyangkal ini kepada orang lain.

Penilaian bahasa yang digunakan dalam pelayanan berbagai keputusan, termasuk seleksi mahasiswa, sertifikasi, klasifikasi, pelacakan, promosi atau retensi dalam program pendidikan, dan mengalokasikan sumber daya untuk sekolah. Dalam rangka untuk menjamin bahwa keputusan yang dibuat, setidaknya sebagian pada dasar penilaian bahasa, adil dan merata, kita harus mempertimbangkan spesifik menggunakan atau keputusan yang tes dimaksudkan dan dirancang, dan konsekuensi dari keputusan ini untuk berbagai kelompok individu. Sama penting, kita perlu mempertimbangkan kualitas (yaitu, reliabilitas, validitas) dari informasi yang diberikan oleh penilaian, dan relevansi informasi yang keputusan harus dibuat. Hal ini pasti akan mengarah pada pertanyaan tentang apa langkah-langkah tes khusus bahasa dan bagaimana berguna hasilnya untuk menginformasikan yang dimaksudkan decision.

Keputusan yang dibuat atas dasar skor dari tes bahasa dapat diklasifikasikan sebagai relatif atau absolut, baik menurut jumlah individu yang dapat diberikan reward dan tingkat kemampuan atau kecakapan yang dibutuhkan untuk memperolehnya. Dalam beberapa situasi, jumlah individu yang dapat diberikan pahala dibatasi oleh ketersediaan pahala. Dalam situasi seperti itu, cut-nilai yang sesuai dengan tingkat kemampuan yang diperlukan untuk mengalokasikan pahala adalah relatif terhadap jumlah individu yang mengikuti tes. Contoh dari keputusan relatif, di mana keputusan untuk memberikan hadiah ke tertentu individual tergantung pada berdiri relatif nya dalam kelompok pengambil tes, adalah sebuah perguruan tinggi atau keputusan masuk universitas. Beberapa perguruan tinggi dan universitas sangat selektif, sementara yang lain mungkin memiliki sumber daya yang terbatas untuk instruksi dan mentoring. Lembaga tersebut bisa mengakui hanya sebagian kecil dari pelamar, dan dengan demikian akan mengakui biasanya hanya siswa yang nilai tes, antara Kriteria lainnya, berada dalam persentase paling atas dari semua pengambil tes. Jika nomor pelamar, atau nilai ujian mereka, sangat bervariasi dari satu tahun ke tahun berikutnya, kemudian skor kriteria yang digunakan untuk menentukan siapa yang harus mengakui juga dapat bervariasi.

Dalam situasi lain, jumlah individu yang dapat diberikan penghargaan pada dasarnya terbatas, tapi cut-nilai yang sesuai dengan tingkat kemampuan diperlukan untuk mengalokasikan upah tersebut didasarkan pada tingkat absolut kompetensi atau penguasaan yang telah ditetapkan sebelum ujian dikelola oleh user test atau tes pengembang. Sebuah keputusan sertifikasi adalah contoh dari keputusan mutlak, di mana keputusan untuk memberikan penghargaan kepada individu tertentu tergantung pada tingkat sebelumnya ditentukan penguasaan. Di banyak negara, misalnya, individu yang bukan penutur asli dari bahasa yang dominan ingin memperoleh sertifikasi profesi (misalnya, untuk berlatih kedokteran atau hukum, atau untuk mengajar). Sebagai bagian dari sertifikasi profesional mereka, orang tersebut biasanya harus lulus tes bahasa untuk memastikan bahwa tingkat kemahiran bahasa adalah yang cukup bagi mereka untuk melakukan tugas profesional mereka dan tanggung jawab. Di kasus tersebut, tidak ada batas berapa banyak dokter, perawat, pengacara, atau guru dapat disertifikasi. Namun, nilai ujian mereka harus berada pada atau di atas kriteria tingkat kemampuan bahasa yang diperlukan oleh profesi tertentu. Dalam situasi, kriteria untuk sertifikasi tidak bervariasi dari satu waktu ke berikutnya, namun jumlah individu yang mencapai sertifikasi dapat bervariasi.

Ada dua cara di mana kita dapat menafsirkan skor dari tes bahasa yang relevan dengan jenis keputusan yang akan dibuat. Untuk keputusan relatif, kita perlu tes yang akan menyebar di seluruh individu berbagai nilai, sehingga dimungkinkan untuk membuat perbedaan baik antara individu-individu di seluruh tingkat kemampuan. Tes yang dirancang untuk melakukan hal ini memberikan nilai yang dapat ditafsirkan dengan mengacu pada kinerja kelompok tertentu dari tes-taker. Skor dari tes mengacu-norma sehingga mengindikasikan berdiri relatif individu dengan mengacu pada sekelompok pengambil tes, dan yang paling tepat untuk membuat relatif keputusan. Uji Internet Berbasis Bahasa Inggris sebagai Bahasa Asing (iBTOEFL) adalah contoh dari tes mengacu-norma bahasa (www.toefl.org). Untuk keputusan mutlak, kita perlu tes yang cukup mewakili kriteria, apakah ini mengacu pada domain dari konten seperti dalam sebuah tes prestasi (lihat bawah) atau tingkat tertentu dari kemampuan berbahasa. Skor dari criterionreferenced Tes yang demikian menunjukkan pengambil tes telah mencapai kriteria levelof penguasaan atau kecakapan dan mana yang belum, dan yang paling tepat untuk membuat keputusan mutlak.

Wawancara Oral Proficiency dari American Dewan untuk Pengajaran Bahasa Asing (ACTFL) adalah contoh dari kriteria-referenced Tes bahasa (www.languagetesting.com). Dalam bab ini kita akan membahas berbagai tujuan yang bahasa penilaian yang dirancang dan digunakan, dan konsekuensi dari keputusan yang dibuat. Kami kemudian akan membahas apa penilaian bahasa biasanya mengukur, dan relevansi dari kemampuan ini ke berbagai jenis keputusan.

Tujuan Penggunaan Tes Bahasa
Tujuan utama memberikan tes bahasa adalah untuk menghasilkan nilai yang dapat ditafsirkan sebagai indikator dari apa pengambil tes tahu atau dapat dilakukan dengan bahasa untuk beberapa tujuan yang dimaksudkan. Ini skor berbasis interpretasi kemudian dapat digunakan sebagai sumber informasi untuk membuat prestasi berbasis keputusan tentang pengambil tes dalam beberapa konteks penilaian. Penafsiran nilai ujian selalu terkait dengan bagaimana nilai tes akan digunakan, dan keputusan yang akan terjadi dari tersebut kesimpulan. Sebagai contoh di bawah ini menggambarkan, informasi nilai berbasis dari penilaian bahasa dapat digunakan untuk membuat berbagai keputusan, yang dapat membuka pintu untuk beberapa calon dan menutup mereka untuk orang lain.

Salah satu penggunaan umum dari hasil penilaian bahasa adalah untuk menginformasikan keputusan tentang apakah atau tidak siswa akademis dipersiapkan, atau siap untuk mengejar penelitian. Keputusan-keputusan seleksi biasanya dibuat dalam hubungannya dengan lainnya ukuran kemampuan seperti nilai siswa atau surat rekomendasi.

Misalnya, Test Internet Berbasis Bahasa Inggris sebagai Bahasa Asing (iBTOEFL) dirancang untuk mengukur "kemampuan pembicara normatif untuk menggunakan dan memahami Bahasa Inggris seperti yang diucapkan, ditulis, dan mendengar di perguruan tinggi dan universitas pengaturan "(diambil 12 Juni 2006 dari www.toefl.org). Skor dari tes ini dapat ditafsirkan sebagai bukti bahwa calon mahasiswa memiliki bahasa Inggris kemampuan bahasa yang diperlukan untuk melanjutkan studi berhasil dalam media Inggris akademik pengaturan. Oleh karena itu, berdasarkan penilaian ini (dan seleksi lainnya Kriteria), siswa yang memiliki kemampuan bahasa Inggris yang diperlukan dalam hubungannya dengan kualifikasi lainnya (misalnya, nilai) disediakan dengan kesempatan untuk studi di universitas, sedangkan mereka yang tidak memiliki bahasa Inggris minimal keterampilan (dan/ atau kualifikasi lainnya) ditolak kesempatan ini. Mengingat bahwa universitas dapat menampung hanya sejumlah terbatas siswa, meritbased pemilihan keputusan dari aplikasi universitas dapat dilihat sebagai relatif daripada absolut.

Lain penggunaan umum dari penilaian bahasa adalah untuk memberikan nilai-based informasi untuk mengklasifikasikan dan pelacakan siswa sehingga keputusan dapat dibuat tentang instruksi dibedakan bagi berbagai kebutuhan dan kemampuan tingkat. Misalnya, skor dari tes penempatan bahasa memungkinkan pendidik untuk mengklasifikasikan siswa sesuai dengan tingkat kemampuan bahasa (yaitu, mulai atau lanjutan), sehingga mereka dapat menerima tingkat yang sesuai instruksi. Ini penempatan, atau keputusan kesiapan memberikan skor berbasis informasi untuk pelacakan siswa menjadi kelompok-kelompok yang homogen sesuai dengan tingkat kemampuan atau kesiapan mereka untuk terlibat dalam tingkat tertentu dari instruksi. Demikian pula, nilai dari bahasa tes, bersama dengan penilaian lainnya, telah digunakan di sekolah-sekolah AS untuk mengklasifikasikan siswa sebagai pembelajar bahasa Inggris (ELLs) dan untuk menentukan apakah siswa memiliki tingkat yang tepat kemampuan untuk "berpartisipasi secara berarti dan adil "dalam bahasa Inggris-menengah kelas (Heubert & Hauser, 1999: 212) .2 Skor dari penilaian ini digunakan sebagai dasar untuk memutuskan apakah siswa dapat memiliki akses ke berbagai layanan untuk membantu mereka transisi dari mereka asli bahasa Inggris-menengah instruksi (Agustus & Hakuta, 1997). Nilai Tes bahasa ini juga dapat digunakan untuk melacak rendah kemampuan siswa dalam lambat-mondar-mandir ruang kelas, untuk mengecualikan mereka dari tingkat kelas matematika dan ilmu pengetahuan instruksi, atau untuk mereklasifikasi siswa dari ESL untuk mengarusutamakan Inggris-menengah instruksi (Berman et al., 1992).

Sebuah penggunaan ketiga penilaian bahasa adalah untuk memberikan nilai informasi berbasis kemajuan siswa atau efektivitas pembelajaran. interpretasi tentang "Kemajuan" atau "prestasi" yang digunakan untuk memberikan stakeholder dengan informasi untuk membuat keputusan sumatif dan formatif. Sumatif keputusan tentang retensi, promosi ke program berikutnya, atau penugasan nilai dapat dibuat atas dasar penilaian pencapaian siswa. Formatif atau perbaikan-berorientasi keputusan untuk membimbing instruksi dan pembelajaran, pada sisi lain, dapat didasarkan pada penilaian diagnostik kekuatan siswa ' dan kelemahan. Misalnya, prestasi tes untuk menemani ESL.

Pada buku Target 1 (Purpura et al., 2001) dirancang untuk mengukur siswa penguasaan tata bahasa, pengucapan, membaca, dan menulis konten di setiap bab. Skor berbasis interpretasi dari tes ini digunakan untuk memberikan informasi untuk membantu siswa membuat keputusan formatif untuk memfokuskan belajar mereka pada bidang yang mereka butuhkan untuk memperbaiki, dan bagi guru untuk memantau daerah siswa kekuatan, kelemahan, dan kemajuan dalam kursus sehingga untuk membuat keputusan tentang pembelajaran lebih lanjut dan instruksi. Tes ini juga dapat digunakan untuk menentukan nilai kepada siswa pada akhir kursus. Sebagai nomor apapun siswa dapat menerima nilai tinggi berdasarkan kriteria, keputusan ini dapat ditandai sebagai mutlak.

Masih lain penggunaan umum dari penilaian bahasa adalah untuk memberikan nilai-based informasi sehingga efektivitas jangka panjang pengajaran bahasa dalam Program dapat dipantau. Informasi ini kemudian akuntabilitas dapat digunakan untuk memastikan sejauh mana tujuan program diharapkan telah terpenuhi, serta untuk menunjukkan daerah kekurangan. Informasi ini juga dapat digunakan oleh program untuk membuat sekolah-tingkat alokasi sumber daya atau untuk membenarkan kebutuhan dan penggunaan sumber daya (Brindley, 1998). Misalnya, dalam kasus di mana tingkat kinerja telah dipenuhi, administrator dapat memutuskan untuk mengalokasikan tingkat yang sama sumber daya, sedangkan dalam kasus di mana tingkat kinerja di bawah standar, mereka mungkin memutuskan untuk mengalokasikan lebih banyak sumber daya ke program atau, sebaliknya, sanksi program dalam beberapa cara.

Singkatnya, penilaian dimaksudkan untuk memberikan informasi untuk membuat keputusan. Penilaian ini tidak dapat sepenuhnya dipahami atau dievaluasi tanpa pertimbangan penggunaan khusus (s) yang mereka dimaksudkan, serta potensi konsekuensi pemanfaatan ini.

Konsekuensi dan Keadilan dari Keputusan
Menurut Messick (1989), keputusan yang didasarkan pada hasil tes tentu akan
memiliki konsekuensi - baik disengaja dan tidak disengaja. Pertimbangkan, untuk Misalnya, skor dari tes keterampilan lisan, di mana kami berharap siswa yang memiliki mencapai tingkat tinggi kemampuan berbicara dalam domain untuk mendapatkan nilai yang tinggi, dan mereka yang belum mencapai standar untuk mendapatkan skor rendah. Seandainya nilai ini digunakan untuk menentukan apakah asisten pengajar internasional (Itas) telah memperoleh mampu menguasai bahasa target untuk mengajar kursus (misalnya, laboratorium kimia) di universitas. Tujuan lain dari tes ini adalah untuk mengukur pengambil tes 'kemampuan berbahasa untuk memutuskan mana yang dapat dipekerjakan sebagai Itas dan mana yang tidak bisa. Yang dimaksudkan konsekuensi dari penggunaan nilai ujian akan melayani kebutuhan dari sistem pendidikan dengan memastikan bahwa Itas mampu membuat dirinya dipahami dalam kelas. Dalam hal ini highstakes Sebagai contoh, beberapa kelompok stakeholder (misalnya, mahasiswa, fakultas program, Program direktur, pejabat sekolah dan universitas) mungkin akan sangat terpengaruh dalam satu atau lain cara dengan menggunakan hasil tes. Para pemangku kepentingan akan pasti akan tertarik untuk mengetahui bahwa nilai yang digunakan untuk mengklasifikasikan Itas sebagai linguistik kompeten adalah prediktor akurat yang tidak dan tidak memiliki kemampuan berbahasa yang memadai dalam bahasa Inggris untuk mengajar.

Dalam membuat keputusan klasifikasi tersebut (penguasaan, non-penguasaan), kami berharap bahwa skor tingkat penguasaan kompetensi minimum untuk menunjukkan kemampuan beberapa dan bahwa skor tingkat non-penguasaan mencerminkan kurang dari kompetensi minimal. Namun, kita juga harus mempertimbangkan kemungkinan kesalahan klasifikasi, konsekuensi dari kesalahan-kesalahan, dan biaya relatif membuat klasifikasi atau kesalahan keputusan, mengingat taruhannya relatif tes. Dalam penilaian berisiko tinggi contoh di atas untuk Itas, satu jenis penguasaan/ non-penguasaan keputusan Kesalahan akan terjadi jika ITA yang salah diklasifikasikan sebagai "master" ketika pada kenyataannya kemampuan yang sebenarnya berada di bawah tingkat cut-nilai (yaitu, positif palsu). Tipe lain dari kesalahan keputusan akan timbul jika ITA yang salah berlabel sebagai "non-master" padahal sebenarnya kemampuan sebenarnya berada di atas tingkat cut-nilai (yaitu, negatif palsu). Keputusan seperti kesalahan dalam konteks high-stakes penilaian dapat membawa konsekuensi yang tidak diinginkan yang dapat menimbulkan biaya besar untuk stakeholder. Dengan kata lain, keputusan positif palsu dapat menghambat belajar dalam kursus konten, sehingga siswa frustasi dan merampas mereka yang tepat untuk belajar. Sebuah keputusan negatif palsu dapat membahayakan ITA individu oleh menyangkal dirinya atau dana nya diperlukan untuk melanjutkan studi dan akan menyangkal siswa kesempatan untuk belajar dari seorang guru yang kompeten. Dalam berisiko tinggi situasi, dampak dari kesalahan keputusan sulit untuk mundur. Mengingat keseriusan skor berbasis keputusan dalam situasi berisiko tinggi, pengembang tes dan pengguna tes harus memastikan bahwa keputusan berdasarkan pada hasil tes adalah sebagai seakurat mungkin.

Dampak Positif
Penggunaan tes bahasa dalam membuat keputusan berdasarkan jasa umumnya didasarkan pada klaim bahwa beberapa keuntungan akan terjadi dari tujuan penggunaan skor. Dengan kata lain, tes akan digunakan untuk membuka dan menutup pintu bila dianggap sesuai untuk pendidikan, tujuan sosial, dan politik. Penggunaan tes adalah juga didasarkan pada klaim bahwa jika benar dirancang dan dipantau, dan jika digunakan sebagaimana dimaksud, tes akan memaksimalkan peluang untuk perlakuan yang adil dan merata individu dan kelompok dalam hal akses mereka terhadap kesempatan berdasarkan pantas. Beberapa contoh konsekuensi menguntungkan dimaksudkan penggunaan tes melibatkan klaim tentang mencegah mahasiswa linguistik siap dari mengerucutkan mahal studi akademis dalam sebuah program di mana mereka akan gagal (seleksi keputusan) atau jaminan bahwa siswa ditempatkan dalam kelas yang tepat untuk mereka tingkat kemampuan (keputusan penempatan). Contoh lain termasuk penunjukan pekerja seperti penyedia layanan kesehatan atau Itas untuk pekerjaan di mana mereka akan memiliki keterampilan linguistik yang dibutuhkan untuk kontribusi yang bermanfaat untuk misi mereka, dan secara tidak langsung kepada masyarakat (sertifikasi keputusan), atau pengaturan dari prestasi tinggi standar dan kesempatan untuk menerima umpan balik untuk belajar lebih lanjut (prestasi dan keputusan diagnostik). Masih contoh lain dimaksudkan manfaat adalah klaim bahwa tes akan mengubah budaya pendidikan untuk "meninggalkan tidak ada anak di belakang "atau untuk mengubah kualitas instruksi kelas dengan memberlakukan akuntabilitas sanksi dan penghargaan.

Dampak Negatif
Sementara penggunaan tes bahasa umumnya ditujukan untuk memiliki positif pendidikan, konsekuensi sosial, dan politik, bahasa menggunakan uji dibayangkan bisa dikenakan konsekuensi negatif yang tidak diharapkan. Misalnya, jika kekurangan dalam menguji sebagai instrumen pengukuran, seperti skor tidak dapat diandalkan atau interpretasi yang tidak valid, terdeteksi, maka kekhawatiran tentang penggunaan instrumen ini dalam pengambilan keputusan jelas akan dipertanyakan. Dengan kata lain, pengguna tes harus secara serius mempertimbangkan tidak menggunakan nilai dari tes untuk membuat keputusan jika pertanyaan tentang reliabilitas skor atau validitas interpretasi dibangkitkan, atau jika nilai tes secara sistematis lebih tinggi atau lebih rendah karena kelompok Keanggotaan (American Educational Research Association et al., 1999). Demikian mungkin terjadi ketika nilai sebuah ELL pada "masalah cerita" dalam matematika adalah secara signifikan lebih rendah karena kemampuan bahasa Inggris yang terbatas. Kekhawatiran tentang kewajaran penggunaan tes juga mungkin timbul jika ada bukti bahwa pengambil tes tidak diberi perlakuan yang adil dalam administrasi dan skor tes. Misalnya, jika kondisi tes administrasi tidak sesuai atau jika kualitas bahasa ELLs 'dalam jawaban mereka untuk masalah matematika merupakan faktor dalam scoring, ini pasti akan menimbulkan pertanyaan tentang keadilan sehubungan dengan adil pengobatan dalam proses pengujian. Akhirnya, menggunakan uji skor akan dipertanyakan atas dasar keadilan jika pengambil tes belum memiliki kesempatan untuk belajar materi yang diuji, terutama jika nilai yang digunakan untuk meminta pengambil tes untuk mengulang kursus atau menolak pengambil tes sertifikat kelulusan (Darling- Hammond, 1997; American Educational Research Association et al, 1999).. di Dengan kata lain, skor tes mungkin memberikan refleksi akurat tentang apa uji pengambil diketahui dan dapat dilakukan, tetapi nilai rendah mungkin berasal dari tidak memiliki memiliki kesempatan untuk belajar, bukan dari setelah gagal untuk belajar ketika diberikan kesempatan.

Darling-Hammond (1997) menggambarkan dua sekolah New York City. Dalam internasional SMA 450 ELLs dari lebih dari lima negara diajarkan untuk terlibat dalam konten menantang melalui kurikulum berbasis aktivitas. Pedagogi di sekolah ini mendorong siswa "untuk berlatih bahasa Inggris karena mereka juga belajar untuk memeriksa ide-ide melalui ilmu-ilmu sosial dan sastra, berpikir matematis dan ilmiah, dan menguji pandangan mereka terhadap alasan, bukti dan alternatif perspektif "(hal. 3). Sebaliknya, sebuah sekolah tinggi tradisional di pinggiran kota beberapa mil pergi memiliki pendaftaran 2.500 siswa. Dalam hal ini SMA, guru diharapkan untuk mengikuti kurikulum kunci-langkah tradisional yang didasarkan pada transmisi Model pedagogi, dan instruksi adalah guru-diarahkan dengan sedikit waktu untuk melibatkan kerja kelompok. Misalnya, di kelas bahasa Inggris remedial, terdiri sebagian besar dari Afrika Amerika, Latino, dan mahasiswa imigran baru, siswa diharapkan untuk mendengarkan, menyalin, menghafal dan menanggapi, tanpa banyak mempertanyakan.

Tidak mengherankan, sekolah internasional telah memiliki sepuluh tahun kesuksesan tidak hanya lulus hampir setiap siswa, tetapi juga dalam memungkinkan siswa untuk lulus kedua New York ujian kompetensi Negara (NYS) dan lebih menantang sekolah-dikembangkan penilaian kinerja. Sekolah tradisional, di sisi lain, melihat tingkat putus sekolah sangat tinggi dengan kelas dua belas dengan Beberapa melewati ujian kompetensi NYS. Skor pada ujian ini untuk tradisional siswa sekolah itu lebih merupakan refleksi dari kurangnya kesempatan untuk belajar dari kegagalan untuk belajar. Sementara ujian kompetensi NYS mungkin memiliki menghasilkan interpretasi skor yang konsisten dan bermakna uji kemampuan mereka dimaksudkan untuk mengukur untuk populasi umum, penggunaannya dengan siswa sekolah tradisional sebagai indikator kemampuan untuk tujuan pemberian ijazah sekolah tinggi menimbulkan keprihatinan serius tentang ekuitas dan keadilan.

Mendefinisikan Aspek Kemampuan Bahasa untuk akan Dinilai
Jika keputusan tentang pengalokasian sumber daya sistem pendidikan dan masyarakat harus dibuat setidaknya sebagian atas dasar kemampuan bahasa individu, maka kita harus memastikan bahwa kemampuan bahasa yang akan dinilai adalah, pada kenyataannya, yang relevan keputusan harus dibuat. Sebagai contoh, mungkin jelas bahwa 'individu kemampuan membaca akademik akan relevan dengan keputusan tentang mengakui siswa ke perguruan tinggi atau universitas, tetapi informasi tersebut tidak akan relevan jika kita ingin menyewa seseorang untuk melakukan penerjemahan simultan secara lisan dari satu bahasa ke bahasa lain. Dengan demikian kita perlu mempertimbangkan bagaimana kita mendefinisikan kemampuan untuk dikaji sehubungan dengan keputusan yang akan dibuat. Misalnya, jika kita ingin tahu, untuk tujuan promosi ke kelas berikutnya, seberapa baik siswa telah menguasai keterampilan membaca yang telah diajarkan pada awal sekolah dasar, kita kemungkinan besar akan menentukan kemampuan yang akan dinilai dalam hal bagaimana ini telah diajarkan, dan mungkin apa tingkat membaca akan diharapkan dari mereka di kelas-kelas berikutnya. Jika kita tertarik untuk mengetahui jika siswa memiliki pra-keaksaraan keterampilan yang diperlukan untuk mendapatkan keuntungan dari instruksi dalam membaca, kita kemungkinan besar akan menentukan kemampuan yang akan dinilai dalam hal teori literasi sejak dini dan pengembangan membaca. Atau jika kita ingin tahu, untuk pekerjaan yang mungkin, jika seseorang mampu membaca laporan pemasaran, maka kita kemungkinan besar akan menentukan kemampuan yang akan dinilai dari segi pengetahuan dan keterampilan yang dibutuhkan untuk membaca laporan tersebut. Dengan demikian, cara kita mendefinisikan kemampuan yang akan dinilai harus dipertimbangkan dengan mengacu pada keputusan (s) yang akan dibuat.

Pengembang tes juga perlu meyakinkan pengguna uji dan stakeholder lain yang interpretasi dari kemampuan untuk disimpulkan dari penilaian generalisasi untuk bahasa target penggunaan (TLU) domain, yaitu domain yang mendefinisikan konteks di mana keputusan akan dibuat. Bachman dan Palmer (akan datang) mendefinisikan domain TLU "sebagai satu set tugas penggunaan bahasa khusus yang pengambil tes kemungkinan menghadapi luar dari penilaian itu sendiri, dan yang kami ingin kesimpulan kami atau interpretasi tentang kemampuan bahasa untuk menggeneralisasi."

Misalnya, interpretasi dari kemampuan menulis berdasarkan penilaian yang membutuhkan pengambil tes untuk menulis pada berbagai topik umum dan dalam berbagai genre umum mungkin generalisasi ke domain TLU yang sangat luas. Namun, hasil penilaian tidak mungkin generalisasi ke domain TLU di mana tugas menulis seluruhnya terdiri dari genre tertulis yang mengikuti sangat spesifik organisasi format, seperti menulis laporan pemasaran atau proposal hibah. Dengan demikian, jenis tugas penilaian kami sajikan pengambil tes harus dipertimbangkan dengan mengacu pada domain TLU.

Dalam mendefinisikan kemampuan bahasa yang akan dinilai, pengembang tes perlu mempertimbangkan beberapa masalah. Salah satu isu yang telah dibahas dalam pengujian bahasa sastra adalah perbedaan antara kemampuan dan tes prestasi (misalnya, Davies, 1968, 1990, Bachman, 1990, Alderson, Clapham, & Wall, 1995). Bachman (1990) berfokus pada konten yang di atasnya kedua jenis tes didasarkan: tes prestasi didasarkan pada isi kurikulum tertentu atau kursus instruksi, sedangkan tes kemahiran didasarkan pada teori umum bahasa kemampuan, atau kecakapan. Davies (1968, 1990), di sisi lain, berfokus pada penggunaan yang dimaksudkan tes bahasa. Untuk Davies, prestasi Tes ini dimaksudkan untuk menginformasikan pengguna tes tentang berapa banyak bahasa individu telah belajar selama proses instruksi, tes kemahiran, pada sisi lain, digunakan untuk memprediksi kinerja dalam bahasa pada masa tertentu aktivitas. S Bachman dan 'Davies definisi jelas menunjukkan bahwa pengembang uji harus mempertimbangkan baik isi yang di atasnya tes ini didasarkan dan keputusan yang dimaksudkan (cf., Brown, 1996). Contoh-contoh di bagian pada "Penggunaan Ditujukan tes Bahasa" di atas, menggunakan tes bahasa untuk membuat keputusan tentang kesiapan, kemajuan, diagnosis, dan akuntabilitas, akan kemungkinan besar melibatkan mendefinisikan kemampuan yang akan dinilai dalam hal tertentu Tentu saja instruksi. Lain contoh yang diberikan di atas, menggunakan tes bahasa untuk seleksi perguruan tinggi, mengelompokkan siswa sebagai ELLs, dan sertifikasi, akan paling kemungkinan melibatkan mendefinisikan kemampuan yang akan dinilai dari segi baik umum teori kemampuan bahasa atau analisis bidang kemampuan bahasa yang akan dibutuhkan untuk melakukan tugas-tugas tertentu dalam domain TLU.

Isu kedua adalah apakah untuk menentukan kemampuan yang akan dinilai dari segi kemampuan bahasa sendiri, atau untuk mendefinisikannya sebagai kemampuan bahasa ditambah beberapa daerah latar belakang pengetahuan. Bachman dan Palmer (akan datang) membahas dua pilihan, bersama dengan situasi di mana setiap opsi kemungkinan akan yang tepat, dan beberapa potensi masalah dengan masing-masing. Mereka berpendapat bahwa pilihan akan tergantung pada keputusan yang akan dibuat. Jika, misalnya, kita ingin tahu seberapa baik pengambil tes dapat menggunakan bahasa secara akurat dan tepat, kita akan mendefinisikan membangun dalam hal komponen yang relevan kemampuan bahasa. Jika, di sisi lain, kami ingin memprediksi uji kinerja masa depan pengambil 'pada tugas-tugas yang melibatkan penggunaan bahasa, serta daerah lain pengetahuan, maka kita akan menentukan konstruksi yang lebih luas untuk mencakup kemampuan bahasa dan keterampilan dan pengetahuan yang terkait dengan tugas yang akan dilakukan.

McNamara (1996) telah membahas masalah ini dari perspektif yang sedikit berbeda dalam hal apa yang ia sebut "kuat" dan "lemah" indera bahasa penilaian kinerja. Dalam arti "kuat", hasil tes taker 'adalah dinilai dalam hal penyelesaian tugas, yang mungkin memerlukan pengetahuan dan keterampilan selain kemampuan berbahasa. Dalam arti "lemah", namun, kinerja yang dinilai dari segi kualitas bahasa yang dihasilkan, dan skor interpretasi cenderung tentang berbagai aspek pengambil tes ' bahasa, atau sekitar kemampuan bahasa mereka secara keseluruhan. Sementara McNamara berpendapat bahwa "yang kuat" penilaian kinerja tidak benar-benar tes bahasa, nya Titik utama adalah bahwa pengembang tes bahasa dan pengguna tes perlu menentukan lebih jelas apa yang mereka berniat untuk mengukur, dan tidak hanya mengasumsikan bahwa pengetahuan latar belakang atau bukan bagian dari apa tes mengukur mereka.

Douglas (2000) menganggap masalah ini dari perspektif bahasa untuk spesifik tujuan (LSP). Dia berpendapat bahwa tes LSP memerlukan "kuat" McNamara rasa penilaian kinerja, dan mendefinisikan apa yang dia sebut "tujuan tertentu Kemampuan "sebagai termasuk pengetahuan bahasa dan tujuan tertentu latar belakang pengetahuan. Pandangan Douglas sangat relevan dengan situasi di mana tujuannya adalah untuk menilai kemampuan individu untuk menggunakan bahasa untuk melakukan tugas-tugas atau pekerjaan dalam pengaturan tertentu. Kita melihat hal ini, misalnya, ketika menilai "akademis" bahasa pembelajar bahasa kedua di SD sekolah untuk keperluan membuat keputusan tentang kategorisasi, pelacakan, promosi, dan retensi atau ketika menilai bahasa tujuan khusus profesional, untuk membuat keputusan tentang pekerjaan atau sertifikasi profesi.

Singkatnya, cara kita mendefinisikan kemampuan yang akan dinilai harus relevan dengan baik keputusan yang akan dibuat, dan domain bahasa gunakan untuk yang kita inginkan skor berbasis interpretasi kami untuk menggeneralisasi.

Apakah Penilaian Bahasa Penjaga Pintu atau Pembuka Pintu?
Kami telah menyatakan dalam bab ini bahwa tes bahasa digunakan untuk menyediakan scorebased Informasi untuk membuat berbagai keputusan, seperti seleksi, kategorisasi dan pelacakan siswa, penugasan nilai, profesional sertifikasi, dan alokasi sumber daya. Sebagai konsekuensi dari keputusan ini, beberapa orang dihargai dan ada juga yang tidak. Dengan kata lain, bahasa tes berfungsi sebagai gerbang-penjaga untuk beberapa dan pintu-pembuka bagi orang lain.

Sifat tes - sebagai pintu gerbang penjaga atau pintu pembuka - akan dirasakan berbeda oleh berbagai pemangku kepentingan. Uji taker yang melakukannya dengan baik pada tes yang cenderung melihatnya sebagai pembuka pintu-ke penghargaan terkandung keputusan, sementara mereka yang buruk akan melihatnya sebagai penjaga pintu gerbang-, termasuk mereka dari penghargaan ini. Demikian pula, guru dan program sekolah yang dihargai karena skor tinggi siswa mereka 'tes cenderung melihat tes sebagai menguntungkan, sementara mereka yang dihukum atau sanksi karena skor yang rendah mungkin merasa bahwa Tes ini tidak adil. Uji pengembang yang telah dirancang dan dikembangkan tes dan uji pengguna yang telah memutuskan untuk menggunakan tes cenderung melihat tes sebagai menguntungkan, melihatnya sebagai sarana yang efektif untuk secara adil dan tepat mengalokasikan penghargaan yang mereka miliki. Dengan demikian, mereka akan melihat siswa menguntungkan yang melakukan buruk atau menolak penghargaan kepada siswa yang melakukan serta tidak adil, tidak ekonomis, dan mungkin tidak etis.

Akhirnya, ada masalah yang memutuskan. Siapa yang memutuskan bahwa penghargaan harus dialokasikan sesuai dengan prestasi, bukan berdasarkan keturunan atau patronase? Siapa yang memutuskan untuk menggunakan penilaian bahasa, sebagai lawan lainnya jenis informasi, untuk mengalokasikan penghargaan ini? Siapa yang memutuskan mana untuk mengatur cut-nilai yang membagi orang-orang yang akan menerima penghargaan dari orang-orang yang tidak akan? Masalah ini telah dibahas secara luas dalam penilaian bahasa literatur (misalnya, McNamara, 1998, 2001; Shohamy, 2001, McNamara & Roever, 2006), dan tampaknya ada sedikit kesepakatan di antara para peneliti tentang bagaimana penguji bahasa harus mengatasi hal ini. Pada akhirnya, isu yang memutuskan adalah, dalam pandangan kami, yang melibatkan nilai-nilai sosial, budaya, dan masyarakat yang berada di luar kendali pengembang tes bahasa. Namun demikian, nilai-nilai ini perlu dipertimbangkan dengan cermat karena kami merancang, mengembangkan, dan penggunaan penilaian bahasa.

CATATAN
1 Karena reliabilitas dan validitas yang dibahas di tempat lain dalam buku ini, kita tidak akan membicarakannya di sini.
2 Berbagai istilah telah dan digunakan untuk peserta didik di sekolah yang bahasa ibunya bahasa atau bahasa ibu tidak sama dengan bahasa yang merupakan media instruksi. Di AS, istilah "Bahasa Inggris Terbatas Mahir" (LEP) memiliki umumnya telah digantikan oleh "Learner Bahasa Inggris" Istilah (ELL), yang merupakan istilah kami akan menggunakan seluruh.


Dirangkum dari tulisan LYLE F. BACHMAN AND JAMES E. PURPURA yang berjudul "Language Assessments: Gate-Keepers or Door-Openers?" yang terkumpul dalam e-Book yang berjudul "The Handbook of Educational Linguistics" yang diedit oleh Bernard Spolsky and Francis M. Hult

Tidak ada komentar:

Posting Komentar