การออกแบบวิธีการตรวจให้คะแนนสำหรับแบบทดสอบอัตนัยเพื่อประเมินระดับความสามารถทางคณิตศาสตร์ ผ่านเทคโนโลยีดิจิทัล

Main Article Content

อภิญญา ฝอยทอง
พัชรี จันทร์เพ็ง
ประภาวดี สุวรรณไตรย์
สำรวน ชินจันทึก
ชัยวัฒน์ ทะวะรุ่งเรือง

บทคัดย่อ

การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อ (1) วิเคราะห์ผลการตอบของผู้เรียนในการสร้างจุดเปลี่ยนผ่านเพื่อประเมินระดับความสามารถทางคณิตศาสตร์แบบพหุมิติสาระการวัดและเรขาคณิต และ (2) ออกแบบและตรวจสอบคุณภาพวิธีการตรวจให้คะแนนสำหรับแบบทดสอบอัตนัยเพื่อประเมินระดับความสามารถทางคณิตศาสตร์ผ่านเทคโนโลยีดิจิทัล โดยใช้ระเบียบวิธีวิจัยการออกแบบ กลุ่มผู้สอบ คือ นักเรียนระดับชั้นมัธยมศึกษาปีที่ 1 จำนวน 528 คน เครื่องมือที่ใช้ คือ แบบทดสอบอัตนัย สาระการวัดและเรขาคณิต ผ่านชุดเครื่องมือวินิจฉัยในระบบการทดสอบออนไลน์ “eMAT-Testing” วิเคราะห์ข้อมูลโดยใช้โมเดลการตอบสนองข้อสอบแบบพหุมิติ MRCML
ผลการวิจัยพบว่า
1. จุดเปลี่ยนผ่านระดับความสามารถทางคณิตศาสตร์สำหรับแบบทดสอบอัตนัยเพื่อประเมินระดับความสามารถทางคณิตศาสตร์ผ่านเทคโนโลยีดิจิทัล โดยการกำหนดเกณฑ์พื้นที่บน Wright Map พบว่า มิติกระบวนการทางคณิตศาสตร์ แบ่งได้ 5 ระดับ 4 จุดเปลี่ยนผ่าน จากระดับต่ำสุดไปสูงสุด ที่ -2.30, -0.43, 0.78 และ 1.15 ตามลำดับ และมิติโครงสร้างความคิดรวบยอด แบ่งได้ 5 ระดับ 4 จุดเปลี่ยนผ่าน มีระดับต่ำสุดไปสูงสุด ที่ -2.76, 0.11, 0.46 และ 1.16 ตามลำดับ ซึ่งจุดเปลี่ยนผ่านดังกล่าวสามารถนำไปสู่การกำหนดช่วงระดับความสามารถ คะแนนสเกล และคะแนนดิบเพื่อนำไปใช้เป็นเกณฑ์การประเมินระดับความสามารถทางคณิตศาสตร์ในแต่ละมิติ
2. ผลการออกแบบการตรวจให้คะแนนผ่านเทคโนโลยีดิจิทัลสามารถแบ่งออกเป็น 5 ส่วน ประกอบด้วย (1) ส่วนข้อมูลเข้า (2) ส่วนกระบวนการ (3) ส่วนประมวลผล (4) ส่วนแสดงผล และ (5) ส่วนรายงานผลการประเมิน ซึ่งการตรวจสอบคุณภาพของผลการออกแบบ โดยพิจารณาจากการประเมินแบบอิงมาตรฐาน และการประเมินแบบฮิวริสติค จากผู้เชี่ยวชาญ พบว่า (1) การประเมินแบบอิงมาตรฐานทั้ง 3 ด้าน คือ ด้านความถูกต้อง ความมีประโยชน์ และความเป็นไปได้มีระดับการประเมินอยู่ในระดับมากที่สุด และ (2) การประเมินแบบฮิวริสติค โดยภาพรวมของระบบ มีความเหมาะสมในระดับมากที่สุด โดยด้านที่มีระดับการประเมินสูงสุด คือ ด้านการมองเห็นสถานะของระบบ และด้านที่มีระดับผลการประเมินน้อยที่สุด คือ รูปแบบสวยงาม และเรียบง่าย

Article Details

บท
บทความวิจัย

References

AERA, APA, & NCME. (2014). Standards for Educational and Psychological Testing (6th ed.). American Educational Research Association.

Adams, R. J., Wilson, M., and Wang, W.C. (1997). The multidimensional random coefficients multinomial logit model. Applied Psychological Measurement, 21(1), 1-23.

Berggren, S. J., Rama, T., and Ovrelid, L. (2019). Regression or classification? Automated Essay Scoring for Norwegian. https://www.aclweb.org/anthology/W19-4409.pdf

Black, P., and William, D. (1998). Inside the black box: raising standards through classroom assessment. Phi Delta Kappan, 8(2), 139-148.

Demars, C. (2010). Item Response Theory: Understanding Statistics Measurement. Oxford University Press.

European Language Resources Association (ELRA). (2020). Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020). Tokyo Metropolitan University.

Junpeng, P., Krotha, J., Chanayota, K., Tang, K. N., & Wilson, M. (2019). Constructing Progress Maps of Digital Technology for Diagnosing Mathematical Proficiency. Journal of Education and Learning, 8 (6), 90-102.

Junpeng, P., Marwiang, M., Chiajunthuk, S., Suwannatrai, P., Chanayota, K., Pongboriboon, K., Tang, K. N., Wilson, M. (2020b). Validation of a digital tool for diagnosing mathematical proficiency. International Journal of Evaluation and Research in Education (IJERE), 9(3), 665-674.

Koyama, Kiyuna, Kobayashi, Arai, and Komachi. (2020). Proceedings of the 12th conference on language resources and evaluation (LREC 2020). France.

Nielsen, J. (1992). Finding Usability Problems through Heuristic Evaluation. Paper presented at the ACM CHI'92, Monterey, CA.

Rodrigues, and Araújo. (2012, April). Automatic assessment of short free text answers. https://www.researchgate.net/profile/Fatima_Rodrigues3/publication/234023013_Automatic_Assessment_of_Short_Free_Text_Answers/links/552d8aa90cf2e089a3ad78af/Automatic-Assessment-of-Short-Free-Text-Answers.pdf.

Wang, J., and Brown, M.S. (2007). Automated Essay Scoring Versus Human Scoring: A Comparative Study. Journal of Technology, Learning, and Assessment (2). http://www.jtla.org

Wilson, M. (2005). Constructing measures: An item response modeling approach. Routledge.

Wright, B. D., and Stone, M. H. (1979). Best test design: Rasch measurement. Mesa Press.

Wu, Adams, Wilson, and Haldane. (2007). ACER ConQuest version 2.0. ACER Press.

Aungkaseraneekul, S. (2012). Automated thai-language essay scoring. [Unpublished master’s thesis]. Kasetsart University. (in Thai)

Chinjunthuk, S., Junpeng, P. (2020). Assessment Guidelines for Student’s Personalized Mathematical Proficiency Development. Journal of Educational Measurement, Mahasarakram University, 26(1), 47- 64. (in Thai)

Jaihuek, S., and Mungsing, S. (2020). Scoring Thai Language Subjective Answer Automaic Sysem by Sematic. Information Technology Journal, 16(1), 15-23. (in Thai)

Junpeng, P., Marwiang, M., Chinjunthuk, S., Suwannatrai, P., Krotha, J., Chanayota, K., Tawarungruang, C., Thuanman, J., Tang K. N., and Wilson M. (2020a). Developing Students’ Mathematical Proficiency Level Diagnostic Tools through Information Technology in Assessment for Learning Report. The Thailand Research Fund and Khon Kaen University. (in Thai)

Suksiri, W. and Worain, C. (2016). Investigating Tentative Cut scores for Science Learning Area on the Ordinary National Educational Test Scores using the Construct Mapping Method: An Analysis for Further Judgments. National Institute of Educational Testing Service (Public Organization). (in Thai)

The institute for the Promotion of Teaching Science and Technology (IPST). (2020). PISA 2021 with assessment mathematical literacy. https://pisathailand.ipst.ac.th/issue-2020-53 (in Thai)

Wongwanit, S. (2020). Design Research in Education (1st ed.). Chulalongkorn University Press. (in Thai)