op mal reassembly of shadow tests in cat
play

Op#mal Reassembly of Shadow Tests in CAT Seung W. Choi, - PowerPoint PPT Presentation

Op#mal Reassembly of Shadow Tests in CAT Seung W. Choi, Karin Mollering, Jie Li, & Wim J. van der Linden McGraw-Hill Educa#on CTB 2015


  1. Op#mal ¡Reassembly ¡of ¡Shadow ¡Tests ¡in ¡CAT ¡ Seung ¡W. ¡Choi, ¡Karin ¡Mollering, ¡Jie ¡Li, ¡& ¡ Wim ¡J. ¡van ¡der ¡Linden ¡ ¡ McGraw-­‑Hill ¡Educa#on ¡CTB ¡ 2015 ¡Na#onal ¡Conference ¡on ¡Student ¡Assessment, ¡June ¡22-­‑24, ¡San ¡Diego, ¡CA ¡

  2. Context ¡ I. “The ¡[CAT] ¡delivery ¡system ¡must ¡support ¡ at ¡least ¡ 250,000 ¡simultaneous ¡ testers.” ¡ II. “Contractor’s ¡[CAT] ¡solu#on ¡must ¡be ¡a ¡ mul)-­‑stage ¡approach ¡and ¡allows ¡ for ¡different ¡item ¡selec#on ¡rou#nes/algorithms ¡to ¡be ¡applied ¡to ¡each ¡ sec#on ¡if ¡desired.” ¡ III. “Assessments ¡will ¡be ¡ par))oned ¡into ¡parts/segments ¡that ¡will ¡target ¡ specific ¡areas ¡of ¡content. ¡[…] ¡Different ¡selec#on ¡rules ¡could ¡then ¡be ¡ applied ¡to ¡either ¡consecu#ve ¡or ¡pre-­‑iden#fied ¡item ¡subsets.” ¡

  3. Objec#ve ¡ • Even ¡in ¡the ¡age ¡of ¡abundant ¡and ¡fast ¡compu#ng ¡resources, ¡ concurrency ¡requirements ¡for ¡large-­‑scale ¡online ¡tes#ng ¡ programs ¡s#ll ¡put ¡an ¡uninterrupted ¡delivery ¡of ¡computer-­‑ adap#ve ¡tests ¡at ¡risk. ¡ ¡ • For ¡the ¡par#cularly ¡compu#ng-­‑intensive ¡shadow-­‑test ¡ approach ¡to ¡CAT ¡(Shadow ¡CAT) ¡we ¡therefore ¡propose ¡ effec#ve ¡strategies ¡reducing ¡computa#onal ¡demands ¡without ¡ compromising ¡measurement ¡quality. ¡

  4. Shadow ¡Test ¡Approach ¡to ¡CAT ¡ Maximum ¡ Content ¡ Measurement ¡ Psychometric ¡ Precision ¡ Constraints ¡ Sequen#al ¡ Simultaneous ¡ Selec#on ¡ Selec#on ¡ Shadow ¡CAT ¡

  5. Standard ¡Shadow ¡CAT ¡ . ¡. ¡. ¡ Previously ¡administered ¡item ¡ 1 ¡ n-­‑1 ¡ n ¡ 2 ¡ 3 ¡ 4 ¡ Item ¡Posi#on ¡

  6. Universal ¡Shadow ¡Test ¡Assembler* ¡ 1 ¡ ¡If ¡shadow ¡test ¡is ¡reassembled ¡ S i ¡ ¡= ¡ ¡ 0 ¡ ¡if ¡shadow ¡test ¡is ¡frozen ¡ 𝑗 =1,2,3,… 𝑜 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ 5 ¡ 6 ¡ 7 ¡ 8 ¡ 9 ¡ 10 ¡ 𝑜 =10 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ Standard ¡ShadowCAT ¡ LOFT ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 2-­‑Stage ¡on-­‑the-­‑fly ¡MST ¡ Adap#ve ¡+ ¡Fixed ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ Fixed ¡+ ¡Adap#ve ¡ 1 ¡ 0 ¡ 0 ¡ 0 ¡ 0 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ 1 ¡ * ¡van ¡der ¡Linden ¡and ¡Diao ¡(2014) ¡– ¡Using ¡a ¡Universal ¡Shadow-­‑Test ¡Assembler ¡with ¡Mul#stage ¡Tes#ng ¡

  7. Reassembly ¡Policies ¡ • Freeze ¡Period ¡Policy ¡ • Theta ¡Threshold ¡Policy ¡ • Hybrid ¡Policy ¡

  8. Freeze ¡Period ¡Policy ¡ Freeze ¡Policy ¡ (t_freeze ¡= ¡x) ¡ Item ¡ 0 ¡ 1 ¡ 2 ¡ 3 ¡ Posi#on ¡ 1 ¡ Assemble ¡ Assemble ¡ Assemble ¡ Assemble ¡ 2 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡ 3 ¡ Assemble ¡ Assemble ¡ Freeze ¡ Freeze ¡ 4 ¡ Assemble ¡ Freeze ¡ Assemble ¡ Freeze ¡ 5 ¡ Assemble ¡ Assemble ¡ Freeze ¡ Assemble ¡ 6 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡ 7 ¡ Assemble ¡ Assemble ¡ Assemble ¡ Freeze ¡ 8 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡ 9 ¡ Assemble ¡ Assemble ¡ Freeze ¡ Assemble ¡ 10 ¡ Assemble ¡ Freeze ¡ Assemble ¡ Freeze ¡ 11 ¡ Assemble ¡ Assemble ¡ Freeze ¡ Freeze ¡ 12 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡ 13 ¡ Assemble ¡ Assemble ¡ Assemble ¡ Assemble ¡ 14 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡

  9. Theta ¡Threshold ¡Policy ¡ Threshold ¡Policy ¡ (threshold ¡= ¡y) ¡ Item ¡ 0 ¡ 0.1 ¡ 0.3 ¡ 0.5 ¡ Posi#on ¡ 1 ¡ Assemble ¡ Assemble ¡ Assemble ¡ Assemble ¡ 2 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 3 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 4 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 5 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 6 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 7 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 8 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 9 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 10 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 11 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 12 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 13 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡ 14 ¡ Assemble ¡ > ¡0.1 ¡ > ¡0.3 ¡ > ¡0.5 ¡

  10. Theta ¡Threshold ¡Policy ¡ (true ¡θ ¡= ¡2.5; ¡θ ¡threshold ¡= ¡0.1) ¡ ¡

  11. Hybrid ¡Policy ¡ Hybrid ¡Policy ¡ (t_freeze ¡= ¡x ¡& ¡threshold ¡= ¡y) ¡ Item ¡ 0 ¡ 1 ¡ 2 ¡ 3 ¡ Posi#on ¡ 1 ¡ Assemble ¡ Assemble ¡ Assemble ¡ Assemble ¡ 2 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡ 3 ¡ Assemble ¡ ? ¡ Freeze ¡ Freeze ¡ 4 ¡ Assemble ¡ Freeze ¡ ? ¡ Freeze ¡ 5 ¡ Assemble ¡ ? ¡ Freeze ¡ ? ¡ 6 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡ 7 ¡ Assemble ¡ ? ¡ ? ¡ Freeze ¡ 8 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡ 9 ¡ Assemble ¡ ? ¡ Freeze ¡ ? ¡ 10 ¡ Assemble ¡ Freeze ¡ ? ¡ Freeze ¡ 11 ¡ Assemble ¡ ? ¡ Freeze ¡ Freeze ¡ 12 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡ 13 ¡ Assemble ¡ ? ¡ ? ¡ ? ¡ 14 ¡ Assemble ¡ Freeze ¡ Freeze ¡ Freeze ¡

  12. Empirical ¡Study ¡ • Item ¡pool ¡ – ¡1,000 ¡items ¡(918 ¡MC ¡and ¡82 ¡CR ¡items ¡) ¡ • Test ¡specifica)ons ¡ – ¡Smarter ¡Balanced ¡Math ¡test ¡blueprint ¡ • CAT ¡Length ¡ – ¡32 ¡items ¡ • Sample ¡– ¡θ ¡at ¡fixed ¡intervals ¡(from ¡-­‑2.5 ¡to ¡2.5) ¡with ¡500 ¡ replica#ons ¡per ¡θ ¡(N ¡= ¡5,500) ¡ • Freeze ¡interval ¡ – ¡t freeze ¡= ¡{3, ¡7, ¡15, ¡31} ¡ • Theta ¡threshold ¡ – ¡θ threshold ¡ = ¡{0.1, ¡0.3, ¡0.5, ¡0.7, ¡0.9} ¡ • Hybrid ¡-­‑ ¡t freeze ¡= ¡{3, ¡7} ¡& ¡θ threshold ¡= ¡{0.1, ¡0.3, ¡0.5, ¡0.7, ¡0.9} ¡ • Benchmarks ¡– ¡Standard ¡Shadow ¡CAT ¡& ¡LOFT ¡at ¡true ¡θ ¡ • Evalua)on ¡criteria ¡ – ¡Refresh ¡rates, ¡RMSE, ¡Bias ¡

  13. Item ¡Pool ¡Informa#on ¡Func#on ¡

  14. Test ¡Blueprint ¡Constraints ¡

  15. Results ¡

Recommend


More recommend