robustly correc3ng mistakes made by ocr so ware
play

Robustly correc3ng mistakes made by OCR so;ware Jasper De - PowerPoint PPT Presentation

5 th SIPTA school on imprecise probability 16-20 July 2012, Pescara (Italy) Robustly correc3ng mistakes made by OCR so;ware Jasper De Bock


  1. 5 th ¡SIPTA ¡school ¡ on ¡imprecise ¡probability ¡ ¡ ¡ ¡ ¡16-­‑20 ¡July ¡2012, ¡Pescara ¡(Italy) ¡ Robustly ¡correc3ng ¡mistakes ¡ made ¡by ¡OCR ¡so;ware ¡ Jasper ¡De ¡Bock ¡ University ¡of ¡Ghent ¡(Belgium) ¡ jasper.debock@ugent.be ¡

  2. (imprecise) ¡state ¡sequence ¡es3ma3on ¡ A ¡sequence ¡of ¡hidden ¡state ¡variables ¡ X 2 ¡ X 3 ¡ X 1 ¡ O 1 ¡ O 2 ¡ O 3 ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ A ¡sequence ¡of ¡observable ¡output ¡variables ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 2 ¡ 2 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  3. (imprecise) ¡state ¡sequence ¡es3ma3on ¡ A ¡sequence ¡of ¡hidden ¡state ¡variables ¡ X ¡= ¡ or ¡ or ¡ O ¡= ¡ or ¡ or ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ A ¡sequence ¡of ¡observable ¡output ¡variables ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 3 ¡ 3 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  4. (imprecise) ¡state ¡sequence ¡es3ma3on ¡ A ¡sequence ¡of ¡hidden ¡state ¡variables ¡ ? ¡ ? ¡ ? ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ A ¡sequence ¡of ¡observable ¡output ¡variables ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 4 ¡ 4 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  5. (imprecise) ¡state ¡sequence ¡es3ma3on ¡ Q 2 ¡(X 3 |X 2 ) ¡ ¡ Q 1 ¡(X 1 ) ¡ ¡ Q 2 ¡(X 2 |X 1 ) ¡ ¡ ? ¡ ? ¡ ? ¡ Viterbi ¡algorithm ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 5 ¡ 5 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  6. (imprecise) ¡state ¡sequence ¡es3ma3on ¡ Q 2 ¡(X 3 |X 2 ) ¡ ¡ Q 1 ¡(X 1 ) ¡ ¡ Q 2 ¡(X 2 |X 1 ) ¡ ¡ ? ¡ ? ¡ ? ¡ Es3HMM ¡algorithm ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 6 ¡ 6 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  7. APPLICATIONS ¡ ? Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 7 ¡ 7 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  8. Applica3ons ¡of ¡state ¡sequence ¡es3ma3on ¡ Ø ¡Speech ¡recogniRon ¡ Ø ¡Bio-­‑informaRcs ¡ § ¡Finding ¡CpG-­‑islands ¡ § ¡LocaRng ¡introns ¡and ¡exons ¡ Ø ¡GrammaRcal ¡tagging ¡ Ø ¡OCR ¡postprocessing ¡ Ø ¡… ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 8 ¡ 8 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  9. OCR ¡postprocessing ¡ Op3cal ¡character ¡recogni3on ¡so;ware ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 9 ¡ 9 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  10. OCR ¡postprocessing ¡ O ¡ W ¡ C ¡ C ¡ Q ¡ W ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 10 ¡ 10 ¡ 10 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  11. OCR ¡postprocessing ¡ ? ¡ ? ¡ ? ¡ C ¡ Q ¡ W ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 11 ¡ 11 ¡ 11 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  12. OCR ¡postprocessing ¡ Viterbi ¡ Q 2 ¡(X 3 |X 2 ) ¡ ¡ Q 1 ¡(X 1 ) ¡ ¡ Q 2 ¡(X 2 |X 1 ) ¡ ¡ ? ¡ ? ¡ ? ¡ (usually) ¡only ¡one ¡es3mate ¡ C ¡ Q ¡ W ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 12 ¡ 12 ¡ 12 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  13. OCR ¡postprocessing ¡ Es3HMM ¡ Q 2 ¡(X 3 |X 2 ) ¡ ¡ Q 1 ¡(X 1 ) ¡ ¡ Q 2 ¡(X 2 |X 1 ) ¡ ¡ ? ¡ ? ¡ ? ¡ (some3mes) ¡mul3ple ¡es3mates ¡ C ¡ Q ¡ W ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 13 ¡ 13 ¡ 13 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  14. OCR ¡postprocessing ¡ Viterbi ¡ Q 2 ¡(X 3 |X 2 ) ¡ ¡ Q 1 ¡(X 1 ) ¡ ¡ Q 2 ¡(X 2 |X 1 ) ¡ ¡ Calculate ¡rela3ve ¡frequencies ¡ in ¡a ¡(small) ¡training ¡set ¡with ¡ known ¡hidden ¡states ¡ ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 14 ¡ 14 ¡ 14 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  15. OCR ¡postprocessing ¡ Es3HMM ¡ Q 2 ¡(X 3 |X 2 ) ¡ ¡ Q 1 ¡(X 1 ) ¡ ¡ Q 2 ¡(X 2 |X 1 ) ¡ ¡ Apply ¡an ¡IDM ¡to ¡a ¡ (small) ¡training ¡set ¡with ¡ known ¡hidden ¡states ¡ ¡ S 1 ¡(O 1 |X 1 ) ¡ ¡ S 2 ¡(O 2 |X 2 ) ¡ ¡ S 3 ¡(O 3 |X 3 ) ¡ ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 15 ¡ 15 ¡ 15 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  16. OCR ¡postprocessing ¡ La ¡Divina ¡Commedia ¡ ORIGINAL ¡ ¡ TRAINING ¡ TESTING ¡ WORDS ¡IN ¡ ¡ SET ¡ SET ¡ THE ¡BOOK ¡ ? ¡ build ¡an ¡ OCR ¡ (imprecise) ¡ HMM ¡ CORRESPONDING ¡ TRAINING ¡ TESTING ¡ WORDS ¡IN ¡TEXT ¡ SET ¡ SET ¡ DOCUMENT ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 16 ¡ 16 ¡ 16 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  17. OCR ¡postprocessing ¡ La ¡Divina ¡Commedia ¡ Solu3on ¡Viterbi ¡ original ¡ VITA ¡ VITA ¡ Solu3on(s) ¡Es3HMM-­‑algoritme ¡ correctly ¡read ¡ VITA ¡ digital ¡ VITA ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 17 ¡ 17 ¡ 17 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  18. OCR ¡postprocessing ¡ La ¡Divina ¡Commedia ¡ Solu3on ¡Viterbi ¡ original ¡ CON ¡ CON ¡ Solu3on(s) ¡Es3HMM-­‑algoritme ¡ incorrectly ¡read ¡ CON ¡ digital ¡ CCN ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 18 ¡ 18 ¡ 18 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  19. OCR ¡postprocessing ¡ La ¡Divina ¡Commedia ¡ Solu3on ¡Viterbi ¡ original ¡ EH ¡ EN ¡ Solu3on(s) ¡Es3HMM-­‑algoritme ¡ correctly ¡read ¡ CH ¡ EH ¡ digital ¡ EH ¡ EN ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 19 ¡ 19 ¡ 19 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  20. OCR ¡postprocessing ¡ La ¡Divina ¡Commedia ¡ Solu3on ¡Viterbi ¡ original ¡ IO ¡ LO ¡ Solu3on(s) ¡Es3HMM-­‑algoritme ¡ incorrectly ¡read ¡ LO ¡ digital ¡ IO ¡ ZO ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 20 ¡ 20 ¡ 20 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  21. OCR ¡postprocessing ¡ La ¡Divina ¡Commedia ¡ Solu3on ¡Viterbi ¡ original ¡ CHE ¡ ONE ¡ Solu3on(s) ¡Es3HMM-­‑algoritme ¡ incorrectly ¡read ¡ CBE ¡ ¡ ¡CHE ¡ CNE ¡ ¡ ¡CZE ¡ ¡ digital ¡ CNE ¡ ONE ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 21 ¡ 21 ¡ 21 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  22. OCR ¡postprocessing ¡ La ¡Divina ¡Commedia ¡ Both ¡algorithms ¡are ¡able ¡to ¡detect ¡and ¡correct ¡errors ¡ Ø The ¡EsRHMM ¡algorithm ¡(in ¡this ¡case) ¡does ¡not ¡introduce ¡ Ø errors ¡in ¡words ¡that ¡were ¡already ¡correct ¡ Es3HMM ¡someRmes ¡ returns ¡mul3ple ¡solu3ons ¡and ¡therefore ¡ Ø (of ¡course) ¡includes ¡the ¡correct ¡soluRon ¡more ¡o`en ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 22 ¡ 22 ¡ 22 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

  23. OCR ¡postprocessing ¡ La ¡Divina ¡Commedia ¡ If ¡the ¡EsRHMM ¡algorithm ¡gives ¡a ¡ single ¡solu3on , ¡it ¡will ¡be ¡ Ø iden3cal ¡to ¡the ¡solu3on ¡given ¡by ¡the ¡Viterbi ¡algorithm ¡ EsRHMM ¡giving ¡ a ¡single ¡solu3on ¡ serves ¡as ¡an ¡indica3on ¡ that ¡ Ø the ¡word ¡we ¡are ¡applying ¡it ¡to ¡does ¡not ¡contain ¡ errors ¡ § the ¡result ¡returned ¡by ¡the ¡ Viterbi ¡algorithm ¡is ¡correct ¡ § Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ Jasper ¡De ¡Bock ¡ 23 ¡ 23 ¡ 23 ¡ 5 th ¡SIPTA ¡school ¡(2012) ¡

Recommend


More recommend