DSpace Repository

ผลการปรับเทียบคะแนนด้วยวิธีเคอเนลและวิธี IRT ภายใต้เงื่อนไขที่แตกต่างกัน

Show simple item record

dc.contributor.advisor ไพรัตน์ วงษ์นาม
dc.contributor.advisor สมพงษ์ ปั้นหุ่น
dc.contributor.author ศศิธร ชุตินันทกุล
dc.contributor.other มหาวิทยาลัยบูรพา. คณะศึกษาศาสตร์
dc.date.accessioned 2023-05-12T03:21:53Z
dc.date.available 2023-05-12T03:21:53Z
dc.date.issued 2560
dc.identifier.uri https://buuir.buu.ac.th/xmlui/handle/1234567890/6890
dc.description ดุษฎีนิพนธ์ (ปร.ด.)--มหาวิทยาลัยบูรพา, 2560
dc.description.abstract การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อ 1) เพื่อศึกษาคุณภาพของวิธีการปรับเทียบคะแนนภายใต้เงื่อนไขรูปแบบข้อสอบร่วม ขนาดตัวอย่างและรูปแบบของข้อมูลที่จะนำมาวิเคราะห์ที่แตกต่างกัน 2) เพื่อเปรียบเทียบความสอดคล้องของผลการตัดเกรดจากการใช้คะแนนก่อนการปรับเทียบคะแนนกับคะแนนที่ได้หลังจากการปรับเทียบคะแนนตามเงื่อนไขที่กำหนด ข้อมูลที่ใช้ในการวิจัย เป็นผลการตอบข้อสอบปลายภาคของนักศึกษาระดับปริญญาตรี ของชุดวิชาหนึ่งที่สอบในภาคการศึกษา 1/ 2556 ภาค 1/ 2557 และภาค 1/ 2558 แบบสอบเป็นแบบเลือกตอบ 5 ตัวเลือก จำนวน 120 ข้อ ที่มีข้อสอบร่วมภายใน จำนวน 15 ข้อ แบบสอบทุกฉบับ จะถูกปรับให้อยู่บนสเกลเดียวกันกับแบบสอบของภาคการศึกษา 1/ 2556 ผลการวิจัยพบว่า 1. การปรับเทียบคะแนนโดยวิธีเคอเนล ภายใต้ตัวอย่างขนาด 500 คน และ 700 คน ให้ค่า SEE ต่ำใกล้เคียงกันทุกเงื่อนไข ยกเว้นขนาดตัวอย่าง 100 คน ที่ให้ค่า SEE ค่อนข้างสูง โดยเงื่อนไขข้อสอบร่วมมีความยากอยู่ในช่วง .4 -.6 และตัดข้อสอบที่ไม่มีคุณภาพทิ้ง เมื่อวิเคราะห์กับขนาดตัวอย่าง 700 คน มีคุณภาพมากที่สุด การตัดข้อสอบที่ไม่มีคุณภาพทิ้งก่อนปรับเทียบคะแนนจะมีคุณภาพของการปรับเทียบคะแนนมากกว่าไม่ตัดข้อสอบที่ไม่มีคุณภาพทิ้ง และการเพิ่มขนาดตัวอย่างมีแนวโน้มทำให้ค่า SEE ลดลง 2. การเปรียบเทียบความคลาดเคลื่อนมาตรฐานของการปรับเทียบคะแนนระหว่างวิธี เคอเนล และวิธี IRT 2 พารามิเตอร์ วิธีเคอเนลให้ค่าความคลาดเคลื่อนมาตรฐานของการปรับเทียบคะแนนต่ำสุด เมื่อใช้เงื่อนไขข้อสอบร่วมมีความยากอย่างสุ่มกับกลุ่มตัวอย่างขนาด 700 คน และเงื่อนไขข้อสอบร่วมมีความยากอย่างสุ่มและตัดข้อสอบที่ไม่มีคุณภาพทิ้ง 3. การตัดเกรดจากคะแนนก่อนการปรับเทียบคะแนนและคะแนนหลังการปรับเทียบคะแนนด้วยวิธีเคอเนลและวิธี IRT 2 พารามิเตอร์ ตามเงื่อนไขต่าง ๆ ภายใต้การตัดเกรด 3 ระดับ และ 8 ระดับ ส่วนใหญ่พบว่า ไม่สอดคล้องกัน จำเป็นจะต้องทำการปรับเทียบคะแนนก่อนที่จะตัดเกรด การขยายระดับการตัดเกรดเป็น 8 ระดับ การใช้ตัวอย่างขนาดใหญ่ขึ้น จะเห็นความไม่สอดคล้องของการตัดเกรดชัดเจนมากขึ้น ส่วนการตัดข้อสอบที่ไม่มีคุณภาพทิ้งก่อนการปรับเทียบคะแนนด้วยวิธีเคอเนล จะเห็นความไม่สอดคล้องของการตัดเกรดชัดเจนกว่าวิธีวิธี IRT 2 พารามิเตอร์ ขณะที่การใช้ข้อสอบร่วมที่มีความยากอยู่ในช่วง .4 -.6 ทั้งสองวิธีจะเห็นความไม่สอดคล้องของการตัดเกรดชัดเจนมากกว่าการใช้ข้อสอบร่วมที่มีความยากอย่างสุ่ม 4. การใช้ตัวอย่างขนาด 500 คน 700 คน ในการปรับเทียบคะแนน จะเห็นความไม่สอดคล้องของการตัดเกรดได้อย่างชัดเจนไม่ว่าจะวิเคราะห์ด้วยวิธีเคอเนลหรือวิธี IRT 2 พารามิเตอร์ไม่ว่าจะใช้เงื่อนไขใดก็ตาม ส่วนตัวอย่างขนาด 100 คน ส่วนใหญ่แล้วการปรับเทียบคะแนน จะมีความสอดคล้องกัน 5. การตัดเกรดหลังการปรับเทียบคะแนนด้วยวิธีเคอเนลและวิธี IRT 2 พารามิเตอร์ ของทุกเงื่อนไขมีความสัมพันธ์กันอย่างมีนัยสำคัญที่ระดับ .05 โดยที่การตัดเกรด 3 ระดับ หลังการปรับเทียบคะแนนด้วยวิธีเคอเนลและวิธี IRT 2 พารามิเตอร์ด้วยเงื่อนไขข้อสอบร่วม มีความยากอย่างสุ่ม กับทุกขนาดตัวอย่างมีความสัมพันธ์กันในระดับดีมาก
dc.language.iso th
dc.publisher คณะศึกษาศาสตร์ มหาวิทยาลัยบูรพา
dc.rights มหาวิทยาลัยบูรพา
dc.subject การให้คะแนน (นักเรียนและนักศึกษา)
dc.subject มหาวิทยาลัยบูรพา -- สาขาวิชาวิจัย วัดผลและสถิติการศึกษา
dc.subject การวัดผลทางการศึกษา
dc.title ผลการปรับเทียบคะแนนด้วยวิธีเคอเนลและวิธี IRT ภายใต้เงื่อนไขที่แตกต่างกัน
dc.title.alternative The comprison of test scores derived through kernel equting nd IRT equting methods under vried conditions
dc.type วิทยานิพนธ์/ Thesis
dc.description.abstractalternative The objectives of this research were; 1) to examine the appropriate test equating methods under varied anchor test patterns, sample sizes, and data formats, 2) to compare the consistency of the grading results of scores before and after test equating under the specified conditions. Data used in the research was the final test results of undergraduates in a subject taken in semester 1/ 2013, 1/ 2014, and 1/ 2015. The test was a five-choice test containing 120 questions with 15 anchor items. Each test was equated to be on the same scale as that of semester 1/ 2013. The findings were as follows: 1. Kernel equating method under a sample size of 500 and 700 students resulted in similarly low SEE values in every condition, while the size of 100 students resulted in a relatively high SEE value. The anchor items condition had a difficulty level of .4-.6 with non-quality questions removed. Considering the sample sizes, 700 students showed the best quality. Removing non-quality questions before test equating resulted in better quality of test equating compared to reserving them. It simplied that the bigger the size, the lower SEE value. 2. The comparison of Kernel and IRT 2 parameters equating method found that Kernel equating method with a condition of randomized anchor items gave the lowest SEE under samples size 700, as well as the condition of randomized anchor items with non-quality questions removed when using 500 samples size. 3. Grading of the scores received before equating and after equating using Kernel method and 2-parameter IRT method based on varied conditions under 3-level and 8-level grading mainly resulted in inconsistency. The scores needed to be equated before grading. Expanding grading into 8 levels and bigger sample size resulted in more obvious inconsistency. Removing non-quality questions before equating with Kernel method resulted in more obvious inconsistency than 2-parameter IRT method. However, using anchor items with a difficulty of .4-.6 in both methods resulted in more obvious inconsistency in grading than with randomized difficulty levels. 4. Using a sample size of 500 and 700 students in test equating resulted in obviously inconsistency in grading, whether analyzed by Kernel method or 2-parameter IRT method under any conditions. Otherwise, the same sample size of 100 students was consistency in grading. 5. The relationship of grading after equating by using Kernel method and 2-parameter IRT method under any conditions were statistically significant at .o5 level. The two methods under 3-level grading by using randomized anchor test all the same sample size were best relationship.
dc.degree.level ปริญญาเอก
dc.degree.discipline วิจัย วัดผลและสถิติการศึกษา
dc.degree.name ปร.ด.
dc.degree.grantor มหาวิทยาลัยบูรพา


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account