การเปรียบเทียบความเที่ยงและความตรงตามเกณฑ์ในการตรวจให้คะแนนของผู้ตรวจ ที่มีคุณลักษณะต่างกันของแบบสอบอัตนัยสำหรับวัดสมรรถนะ ทางวิทยาศาสตร์ของนักเรียนชั้นมัธยมศึกษาปีที่ 3

Main Article Content

พนิดา จังหวะ
ประกฤติยา ทักษิโณ

บทคัดย่อ

การวิจัยในครั้งนี้มีความมุ่งหมายของการวิจัย คือ 1) เพื่อศึกษาค่าความสอดคล้องของผลการตรวจให้คะแนนแบบสอบอัตนัยวัดสมรรถนะทางวิทยาศาสตร์ ภายใต้คุณลักษณะของผู้ตรวจที่แตกต่างกัน โดยใช้สถิติสหสัมพันธ์ภายในชั้น (Intra-Class Correlation: ICC) 2) เพื่อเปรียบเทียบความตรงตามเกณฑ์การให้คะแนนแบบองค์รวม ของแบบสอบอัตนัยสำหรับวัดสมรรถนะทางวิทยาศาสตร์ โดยพิจารณาจากความเห็นพ้อง (rater agreement) ภายใต้คุณลักษณะของผู้ตรวจที่แตกต่างกัน 3. เพื่อเปรียบเทียบค่าสัมประสิทธิ์การสรุปอ้างอิง (G-coefficient) ภายใต้คุณลักษณะของผู้ตรวจที่แตกต่างกัน ที่มีรูปแบบการตรวจ 2 รูปแบบ ได้แก่ รูปแบบการตรวจข้อสอบบางข้อของผู้สอบทุกคน [(p x ( i : r )] และ รูปแบบการตรวจทุกข้อของผู้สอบทุกคน [p x i x r] กลุ่มตัวอย่างแบ่งออกเป็น 2 กลุ่ม คือ กลุ่มนักเรียนชั้นมัธยมศึกษาปีที่ 3 จำนวน 100 คน และกลุ่มผู้ตรวจให้คะแนน ซึ่งแบ่งออกเป็นกลุ่มผู้ตรวจให้คะแนนที่เป็นผู้ตรวจที่มีคุณวุฒิตรงเอก จำนวน 3 คน และกลุ่มผู้ตรวจให้คะแนนที่เป็นผู้ตรวจที่มีคุณวุฒิไม่ตรงเอก จำนวน 3 คน เครื่องมือที่ใช้ในการวิจัย คือ 1) แบบสอบอัตนัยวัดสมรรถนะทางวิทยาศาสตร์ของนักเรียนชั้นมัธยมศึกษาปีที่ 3 จำนวน 3 สถานการณ์ รวม 9 ข้อคำถาม 2) เกณฑ์การให้คะแนนแบบองค์รวม (holistic scoring rubric) วิเคราะห์ค่าสัมประสิทธิ์การสรุปอ้างอิงโดยใช้โปรแกรม EduG ผลการวิจัยพบว่า 1) การศึกษาความสอดคล้องของผลการตรวจให้คะแนนระหว่างผู้ตรวจ พิจารณาโดยใช้สถิติสหสัมพันธ์ภายในชั้น (Intra-Class Correlation: ICC) ที่มีความสอดคล้องกันโดยเฉลี่ย พบว่าความสอดคล้องของผลการตรวจให้คะแนน ทั้ง 3 สถานการณ์ 9 ข้อ อยู่ในระดับสอดคล้องต่ำไปจนถึงระดับดีมาก ทั้งกลุ่มผู้ตรวจให้คะแนนที่เป็นกลุ่มผู้ตรวจที่มีคุณวุฒิตรงเอก และกลุ่มผู้ตรวจที่มีคุณวุฒิไม่ตรงเอก 2) ค่าความตรงตามเกณฑ์การให้ตรวจให้คะแนนโดยพิจารณาจากความเห็นพ้อง (rater agreement)ของผลการตรวจให้คะแนนของผู้ตรวจ (x) กับเกณฑ์มาตรฐาน (y) พบว่าในกลุ่มผู้ตรวจที่มีคุณวุฒิตรงเอก มีค่าความเห็นพ้อง ตั้งแต่ร้อยละ 14 ถึง ร้อยละ 84 และในกลุ่มผู้ตรวจที่มีคุณวุฒิไม่ตรงเอกมีค่าความเห็นพ้องตั้งแต่ ร้อยละ 27 ถึง ร้อยละ 89 3) ค่าสัมประสิทธิ์การสรุปอ้างอิงของรูปแบบการตรวจข้อสอบบางข้อของผู้สอบทุกคน [(p x ( i : r )] มีค่าสูงกว่า รูปแบบการตรวจทุกข้อของผู้สอบทุกคน [p x i x r] ทั้งกลุ่มผู้ตรวจที่มีคุณวุฒิตรงเอก และกลุ่มผู้ตรวจที่มีคุณวุฒิไม่ตรงเอก

Article Details

ประเภทบทความ
บทความวิจัย

เอกสารอ้างอิง

Brennan, R. L., & Johnson, E. G. (1995). Generalizability of Performance Assessments. Journal of Educational Measurement, 14(4), 9-12.

Chiu, C., & Wolfe, E. (2002). A Method for Analyzing Sparse Data Matrices in the Generalizability Theory Framework. SAGE Journal, 26(3), 321-338.

Coffman, W. E. (1971). On the Reliability of Ratings of Essay Examinations in English. JSTOR Journal, 5(1), 24-36.

Hopkins, C. D., & Antes, R. L. (1990). Classroom Measurement and Evaluation. Peacock Press.

Koo, T. K., & Li, M. Y. (2016). A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research. Journal of Chiropractic Medicine, 15(2), 155-163.

Swartz, C. W., Hooper, S. R., Montgomery, J. W., Wakely, M. B., Kruif, R. E. L., Reed, M., Brown, T. T., Levine, M. D., & White, K. P. (1999). Using Generalizability Theory to Estimate the Reliability of Writing Scores Derived from Holistic and Analytical Scoring Methods. Sage Journal, 59(3), 492-506.

Welk et al., (2004). Reliability of accelerometry-based activity monitors: a generalizability study. Ovid Journal, 36(9), 1637-1645.

Aphaikawi, D. (2019). Scoring results of subjective exams when different groups of inspectors and examination patterns. The 27th Thailand Measurement Evaluation and Research, 108-124. (in Thai)

Intanate, N. (2011). Characteristic of the open-ended mathematics test scores for different numbers of raters and scoring patterns using generalizability model and many-facet Rasch model [Doctoral dissertation]. Srinakharinwirot University. (in Thai)

Kanjanawasee S. (2007). Modern test theories. Chulalongkorn University Press. (in Thai)

Kwanja, N. (2013). Comparison of summaries reference coefficients of the process skills scale Grade 4 science with different scoring patterns [Master’s thesis]. Mahasarakham University. (in Thai)

Ministry of Education. (2017). Thailand Education Plan B.E. 2560 - 2579 (A.D. 2017 – 2036). Office of the Education Council Press. (in Thai)

Phadungphon, S. (2017). Comparison of reliability of modified essay question test for measuring the abilities in using scientific method in physic under different numbers of event and rater: an application of generalizability theory. Educational Electronic Journal, 12(4), 381-393. (in Thai)

Phusing N. (2020). Scienceteacher development model throughstem education for the schools with non-science majoringteachers (nsmt). Journal of MCU Ubon Review, 5(3), 439-454. (in Thai)

Pinyoanuntapong, B. (2004). Measurement and evaluation. Srinakharinwirot University Press. (in Thai)

Sanguanwai, C. (2015). Comparison of test reliability for Measuring Mathematical Creative problem-solving ability: Application of Generalizability theory [Master’s thesis]. Chulalongkorn University. (in Thai)

Saosin, K. (2019). Comparison of Reliability of Math Problem Solving Proficiency Test with Sub-analytical Scoring At the lower secondary level: application of summary theory referring to the reliability of measurement results. Educational Electronic Journal, 13(3), 423-438. (in Thai)

Taoto, J. (2016). A study of the confidence values of students' math subjective test scores. Secondary school with different number of examiners and scoring patterns using the theory of summaries. Reference. Hat Yai Academic Journal, 14(1), 1-14. (in Thai)

The Institute for the Promotion of Teaching Science and Technology, (2020). Scientific Literacy. https://pisathailand.ipst.ac.th/about-pisa/scientific-literacy/ (in Thai)

Tuksino, P. (2013). Teaching documentation educational research methodology. Khon Kaen University Press. (in Thai)

Umnacil, M. (2014). Comparison of reliability of modified essay question test for measuring scientific problem-solving ability using different scoring methods under different number of events: an application of generalizability theory [Master’s thesis]. Chulalongkorn University. (in Thai)