การศึกษาประสิทธิภาพของโมเดลการวิเคราะห์ฉันทามติเชิงวัฒนธรรม ในการวิเคราะห์การทำหน้าที่ต่างกันระหว่างผู้ประเมิน: การศึกษาจากสถานการณ์จำลอง

Main Article Content

ศิธรา จุฑารัตน์
ศิริเดช สุชีวะ
สิวะโชติ ศรีสุทธิยากร

บทคัดย่อ

การศึกษาประสิทธิภาพของโมเดลการวิเคราะห์ฉันทามติเชิงวัฒนธรรมในการวิเคราะห์การทำหน้าที่ต่างกันระหว่างผู้ประเมิน: การศึกษาจากสถานการณ์จำลอง มีวัตถุประสงค์เพื่อ 1) ตรวจสอบประสิทธิภาพของการประมาณค่าพารามิเตอร์ของโมเดลการวิเคราะห์ฉันทามติเชิงวัฒนธรรม 2) ศึกษาปัจจัยที่ส่งผลต่อประสิทธิภาพ ในการประมาณค่าพารามิเตอร์ของโมเดล โดยศึกษาด้วยวิธีการจำลองสถานการณ์แบบมอนติ คาร์โล (MCMC)


ผลการศึกษาพบว่า 1) โมเดล MC-GCM สามารถประมาณค่าพารามิเตอร์ได้สอดคล้องกับค่าพารามิเตอร์ที่กำหนดอย่างมีประสิทธิภาพ โดยค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างค่าพารามิเตอร์จากการจำลองข้อมูลกับค่าพารามิเตอร์ที่ได้จากการประมาณค่าของโมเดลมีความสัมพันธ์กันอย่างมีนัยสำคัญทางสถิติ 2) ผลการวิเคราะห์ปัจจัยที่ส่งผลต่อการประมาณค่าโดยการวิเคราะห์ความแปรปรวนพหุคูณ (MANOVA) ระหว่างจำนวนผู้ประเมิน  จำนวนรายการประเมิน  และการทำหน้าที่ต่างกันระหว่างผู้ประเมิน  ที่ส่งผลต่อประสิทธิภาพของการประมาณค่าของโมเดล พบว่า การทำหน้าที่ต่างกันระหว่างผู้ประเมินส่งผลต่อค่าเฉลี่ยความคลาดเคลื่อนยกกำลังสองและค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างค่าจริงและค่าที่ได้จากการประมาณค่าของโมเดลอย่างมีนัยสำคัญทางสถิติ

Article Details

ประเภทบทความ
บทความวิจัย

เอกสารอ้างอิง

Batchelder W. H., Anders R. (2012). Cultural Consensus Theory: Comparing Different Concepts of Cultural Truth. Journal of Mathematical Psychology, 56, 316-332.

Engelhard, G. Jr., Wind, S. A., Jennifer, L. K., Chajewski, M. (2013). Differential Item and Person Functioning in Large-Scale Writing Assessments within the Context of the SAT. Research report. College Board.

Farrokhi et al. (2012). A Many-Facet Rasch Measurement of Differential Rater Severity/Leniency in Three Types of Assessment. JALT Journal, 34(1), 79-102.

Muckle, T. J., Karabatsos, G. (2009). Hierarchical Generalized Linear Models for the Analysis of Jude Rating. Journal of Education Measurement, 46(2), 198-219.

Myford, C. M., & Wolfe, E. W. (2009). Monitoring Rater Performance over Time: A Framework for Detecting Differential Accuracy and Differential Scale Category Use. Journal of Educational Measurement. 46(4), 371-389.

Patz, R. J., Junker, B. W., Johnson, M. S., and Mariano, L. T. (2002). The Hierarchical Rater Model for Rated Test Items and its Application to Large-Scale Educational Assessment Data. Journal of Educational and Behavioral Statistics, 27(4), 341-384.

Romney, A. K., Weller, S. C., & Batchelder, W. H. (1986). Culture as consensus: A theory of culture and informant accuracy. American anthropologist, 88(2), 313-338.

Schaefer, E. (2008). Rater Bias Patterns in an EFL Writing Assessment. Language Testing, 28(4), 465-493.

Wesoloaki, B. C., Wind, S. A., & Engelhard, G. Jr. (2015). Rater Fairness in Music Performance Assessment: Evaluating Model-Data and Differential Rater Functioning. Musicae Scientiae, 19920, 147-170.

Xun Yan. (2014). An Examination of rater performance on a local oral English proficiency test: A mixed-methods approach. Language Testing, 31(4), 501-527.