A Study of the Results of Subjective Test Scoring by Applying the Many-Facet Rasch Model and Generalizability Theory

Main Article Content

Darunee Apaikawee
Prakrittiya Tuksino

Abstract

            The objectives of this research were: 1) to study the concurrent validity of the subjective test scores and 2) to study the generalizability coefficient of the subjective test scores. The sample consisted of 32 grade 9 students as the test takers and 37 students in mathematics as the raters. The research tool was a 3-item subjective test for measuring mathematical thinking with application of the many-facet Rasch model and generalizability theory. The research findings were as follows:


                1) The concurrent validity of the 3-item subjective test scores rated by different raters was compared to the central score which came from the consensus of the experts and it was found that the correlation coefficients of the scores from the central rater and the severity rater were higher than those from the leniency rater.


                2) The generalizability coefficient in every characteristic of the raters who assigned different scores, under the condition of the design that the raters scored some items of every test taker [p x (i : r)], was higher than the design in which the raters scored every item of every test taker [p x i x r].

Article Details

Section
Research Article

References

กมลวรรณ ตังธนกานนท์. (2557). การวัดและประเมินทักษะการปฏิบัติ. พิมพ์ครั้ง 1.กรุงเทพฯ : สำนักพิมพ์ แห่งจุฬาลงกรณ์มหาวิทยาลัย.

จิรายุ เถาว์โท อนุ เจริญวงศ์ระยับ และปัณณวิชญ์ ใบกุหลาบ. (2559). การศึกษาค่าความเชื่อมั่นของคะแนนแบบทดสอบอัตนัยวิชาคณิตศาสตร์ของนักเรียนชั้นมัธยมศึกษาปีที่ 2 ที่มีจำนวนผู้ตรวจและรูปแบบการตรวจให้คะแนนต่างกัน โดยใช้ทฤษฎีการสรุปอ้างอิง.วารสารหาดใหญ่วิชาการ, 14(1),1-14.

ชนิสรา สงวนไว้. (2558). การเปรียบเทียบความเที่ยงของแบบสอบวัดความสามารถในการแก้ปัญหาอย่าง สร้างสรรค์ทางคณิตศาสตร์ : การประยุกต์ใช้ทฤษฎีการสรุปอ้างอิงความน่าเชื่อถือของผลการวัด. ปริญญานิพนธ์ ค.ม. (การวัดและประเมินผลการศึกษา). กรุงเทพฯ: บัณฑิตวิทยาลัย จุฬาลงกรณ์มหาวิทยาลัย.

นภัสนันท์ ขวัญจ่า. (2556). การเปรียบเทียบสัมประสิทธิ์การสรุปอ้างอิงของแบบวัดทักษะกระบวนการทาง วิทยาศาสตร์ ชั้นมัธยมศึกษาปีที่ 4 ที่มีรูปแบบการตรวจให้คะแนนต่างกัน. วิทยานิพนธ์ กศ.ม. (การวัดผลการศึกษา). มหาสารคาม: บัณฑิตวิทยาลัย มหาวิทยาลัยมหาสารคาม.

น้ำผึ้ง อินทะเนตร. (2554). การศึกษาคุณลักษณะของคะแนนแบบทดสอบปลายเปิดวิชาคณิตศาสตร์ เมื่อ จำนวนผู้ตรวจและรูปแบบการตรวจให้คะแนนต่างกัน โดยใช้โมเดลการสรุปอ้างอิงและโมเดลหลาย องค์ประกอบของราส์ช.วิทยานิพนธ์ กศ.ด.(การทดสอบและวัดผลการศึกษา). กรุงเทพฯ: บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ.

บุษวรรษ์ แสนปลื้ม. (2556). การใช้วิธีการตรวจคุณลักษณะและสัดส่วนจำนวนผู้ตรวจให้คะแนนที่มีต่อความเที่ยงตรงของการวัดความสามารถในการเขียนของนักเรียนชั้นประถมศึกษาปีที่ 3. วิทยานิพนธ์ กศ.ด. (การทดสอบและวัดผลการศึกษา). กรุงเทพฯ: บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ.

ปรีชา เนาว์เย็นผล. (2544). กิจกรรมการเรียนการสอนคณิตศาสตร์โดยใช้การแก้ปัญหาปลายเปิดสำหรับนักเรียนชั้นมัธยมศึกษาปีที่ 1. วิทยานิพนธ์ กศ.ด.(คณิตศาสตร์ศึกษา). กรุงเทพฯ : บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ.

ผจงจิต อินทสุวรรณ. (2525). Latent Trait Theory. วารสารการวัดผลการศึกษา, 3(3): 51-69.

พวงรัตน์ ทวีรัตน์. (2530). การสร้างและพัฒนาแบบทดสอบวัดผลสัมฤทธิ์. สำนักทดสอบทางการศึกษาและจิตวิทยา,มหาวิทยาลัยศรีนครินทรวิโรฒ.

พรรณี เจียมสุบุตร. (2543). การเปรียบเทียบความเชื่อมั่นของแบบทดสอบวัดความสามารถในการแก้โจทย์ปัญหาทางคณิตศาสตร์ ที่มีจำนวนผู้ตรวจและวิธีการตรวจต่างกัน. วิทยานิพนธ์ กศ.ด. (การทดสอบและวัดผลการศึกษา). กรุงเทพฯ: บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ. ถ่ายเอกสาร.

ศิริชัย กาญจนวาสี. (2555). ทฤษฎีการทดสอบแนวใหม่.พิมพ์ครั้ง 4. กรุงเทพฯ : สำนักพิมพ์แห่งจุฬาลงกรณ์มหาวิทยาลัย.

ศิริชัย กาญจนวาสี. (2556). ทฤษฎีการทดสอบแบบดั้งเดิม.พิมพ์ครั้ง 7.กรุงเทพฯ: สำนักพิมพ์แห่งจุฬาลงกรณ์มหาวิทยาลัย.

ศุกลรัตน์ อิงชาติเจริญ. (2557). การพัฒนาโมเดลคุณภาพการให้คะแนนระหว่างกลุ่มผู้ประเมินในวิชาที่มีการเรียนรู้โดยใช้ปัญหาเป็นฐาน: การประยุกต์ใช้โมเดลหลายองค์ประกอบของราสซ์. กรุงเทพฯ: บัณฑิตวิทยาลัย จุฬาลงกรณ์มหาวิทยาลัย.

อุษณี บัวศิริพันธ์. (2543). การเปรียบเทียบค่าสัมประสิทธิ์การสรุปอ้างอิงของแบบทดสอบวิชาคณิตศาสตร์ที่มี วิธีการตรวจ จำนวนผู้ตรวจและประสบการณ์ของผู้ประเมิน. วิทยานิพนธ์ กศ.ด. (การทดสอบและวัดผลการศึกษา). กรุงเทพฯ: บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ. ถ่ายเอกสาร.

อังคณา กุลนภาดล. (2557). การเปรียบเทียบค่าสัมประสิทธิ์การสรุปอ้างอิงของคะแนนผังมโนทัศน์วิชาการวิจัยทางการศึกษา เมื่อรูปแบบการตรวจและจำนวนผู้ตรวจต่างกัน.วารสารศึกษาศาสตร์ มหาวิทยาลัยบูรพา, 25(2).

Anderson, L. W., & Krathwohl, D. R. (2001). A taxonomy for learning, teaching, and assessing A revision of Bloom's taxonomy of educational objectives. New York: Addison Wesley Longman.

Brennan, R.L. (2001). Generalizability theory. New York: Springer.

Hopkins, C.D. & Antes, R.L. (1990). Classroom Measurement and Evaluation. 3rd Ed. Itasca, IL.

Iramaneerat, C., Yudkowsky, R., Myford, C. M., & Downing, S. M. (2008). Quality control of an OSCE using generalizability theory and many-faceted Rasch measurement. Advances in Health Sciences Education, 13(4), 479.

Linacre, J. M. (1994). Many-Facet Rasch Measurement. Chicago: MESA Press.

Linacre, J. M. (2014). FACETS (Version 3.71. 4) [Computer software]. Beaverton, Oregon: Winsteps.com

Wolfe, E. W, &. Myford, C. M. (2003). Detecting and measuring rater effects using many-facet Rasch measurement: Part I. Journal of applied measurement, 4(4), 386-422.

Mehrens, William A. & Lehmann, Irvin J.(1972). Measurement and Evaluation in Education and Psychology. New York : Holt, Rinehart and Winston.

Rui, Y. (2010). A Many-facet Rasch Analysis of Rater Effects on an Oral English Proficiency Test. Doctor of Philosophy. Purdue University West Lafayette, Indiana.

Saal, F. E., Downey, R. G., & Lahey, M. A. (1980). Rating the ratings: Assessing the psychometric quality of rating data. Psychological bulletin, 88(2), 413.

Smith, P. L. (1978). Sampling errors of variance components in small sample multifaceted generalizability studies. Journal of Educational Statistics, 3(4), 319-346.

Sudweeks, R. R., Reeve, S., & Bradshaw, W. S. (2004). A comparison of generalizability theory and many-facet Rasch measurement in an analysis of college sophomore writing. Assessing Writing, 9(3), 239-261.