การศึกษาประสิทธิภาพของโมเดลการวิเคราะห์ฉันทามติเชิงวัฒนธรรม ในการวิเคราะห์การทำหน้าที่ต่างกันระหว่างผู้ประเมิน: การศึกษาจากสถานการณ์จำลอง
Main Article Content
บทคัดย่อ
การศึกษาประสิทธิภาพของโมเดลการวิเคราะห์ฉันทามติเชิงวัฒนธรรมในการวิเคราะห์การทำหน้าที่ต่างกันระหว่างผู้ประเมิน: การศึกษาจากสถานการณ์จำลอง มีวัตถุประสงค์เพื่อ 1) ตรวจสอบประสิทธิภาพของการประมาณค่าพารามิเตอร์ของโมเดลการวิเคราะห์ฉันทามติเชิงวัฒนธรรม 2) ศึกษาปัจจัยที่ส่งผลต่อประสิทธิภาพ ในการประมาณค่าพารามิเตอร์ของโมเดล โดยศึกษาด้วยวิธีการจำลองสถานการณ์แบบมอนติ คาร์โล (MCMC)
ผลการศึกษาพบว่า 1) โมเดล MC-GCM สามารถประมาณค่าพารามิเตอร์ได้สอดคล้องกับค่าพารามิเตอร์ที่กำหนดอย่างมีประสิทธิภาพ โดยค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างค่าพารามิเตอร์จากการจำลองข้อมูลกับค่าพารามิเตอร์ที่ได้จากการประมาณค่าของโมเดลมีความสัมพันธ์กันอย่างมีนัยสำคัญทางสถิติ 2) ผลการวิเคราะห์ปัจจัยที่ส่งผลต่อการประมาณค่าโดยการวิเคราะห์ความแปรปรวนพหุคูณ (MANOVA) ระหว่างจำนวนผู้ประเมิน จำนวนรายการประเมิน และการทำหน้าที่ต่างกันระหว่างผู้ประเมิน ที่ส่งผลต่อประสิทธิภาพของการประมาณค่าของโมเดล พบว่า การทำหน้าที่ต่างกันระหว่างผู้ประเมินส่งผลต่อค่าเฉลี่ยความคลาดเคลื่อนยกกำลังสองและค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างค่าจริงและค่าที่ได้จากการประมาณค่าของโมเดลอย่างมีนัยสำคัญทางสถิติ
Article Details
เนื้อหาและข้อมูลในบทความที่ลงตีพิมพ์ในวารสารการวัดผลการศึกษา มหาวิทยาลัยมหาสารคาม ถือเป็นข้อคิดเห็นและความรับผิดชอบของผู้เขียนบทความโดยตรง ซึ่งกองบรรณาธิการวารสาร ไม่จำเป็นต้องเห็นด้วย หรือร่วมรับผิดชอบใดๆ
บทความ ข้อมูล เนื้อหา รูปภาพ ฯลฯ ที่ได้รับการตีพิมพ์ในวารสารการวัดผลการศึกษา มหาวิทยาลัยมหาสารคาม ถือเป็นลิขสิทธิ์ของวารสารการวัดผลการศึกษา มหาวิทยาลัยมหาสารคาม หากบุคคลหรือหน่วยงานใดต้องการนำทั้งหมดหรือส่วนใดส่วนหนึ่งไปเผยแพร่ต่อหรือกระทำการใดๆ จะต้องได้รับอนุญาตเป็นลายลักษณ์อักษรจากวารสารการวัดผลการศึกษา มหาวิทยาลัยมหาสารคาม ก่อนเท่านั้น
เอกสารอ้างอิง
Batchelder W. H., Anders R. (2012). Cultural Consensus Theory: Comparing Different Concepts of Cultural Truth. Journal of Mathematical Psychology, 56, 316-332.
Engelhard, G. Jr., Wind, S. A., Jennifer, L. K., Chajewski, M. (2013). Differential Item and Person Functioning in Large-Scale Writing Assessments within the Context of the SAT. Research report. College Board.
Farrokhi et al. (2012). A Many-Facet Rasch Measurement of Differential Rater Severity/Leniency in Three Types of Assessment. JALT Journal, 34(1), 79-102.
Muckle, T. J., Karabatsos, G. (2009). Hierarchical Generalized Linear Models for the Analysis of Jude Rating. Journal of Education Measurement, 46(2), 198-219.
Myford, C. M., & Wolfe, E. W. (2009). Monitoring Rater Performance over Time: A Framework for Detecting Differential Accuracy and Differential Scale Category Use. Journal of Educational Measurement. 46(4), 371-389.
Patz, R. J., Junker, B. W., Johnson, M. S., and Mariano, L. T. (2002). The Hierarchical Rater Model for Rated Test Items and its Application to Large-Scale Educational Assessment Data. Journal of Educational and Behavioral Statistics, 27(4), 341-384.
Romney, A. K., Weller, S. C., & Batchelder, W. H. (1986). Culture as consensus: A theory of culture and informant accuracy. American anthropologist, 88(2), 313-338.
Schaefer, E. (2008). Rater Bias Patterns in an EFL Writing Assessment. Language Testing, 28(4), 465-493.
Wesoloaki, B. C., Wind, S. A., & Engelhard, G. Jr. (2015). Rater Fairness in Music Performance Assessment: Evaluating Model-Data and Differential Rater Functioning. Musicae Scientiae, 19920, 147-170.
Xun Yan. (2014). An Examination of rater performance on a local oral English proficiency test: A mixed-methods approach. Language Testing, 31(4), 501-527.