Roogle ¡: ¡An ¡informa/on ¡retrieval ¡ engine ¡for ¡Clinical ¡Data ¡Warehouse ¡ ¡ Marc ¡Cuggia 1 , ¡Nicolas ¡Garcelon 1 , ¡Boris ¡Campillo-‑Gimenez 1 ,Thomas ¡Bernicot 1 , ¡ Jean-‑François ¡Laurent 2 , ¡André ¡Happe 3 , ¡Régis ¡Duvauferrier 1 ¡ ¡ 1 UMR ¡936 ¡Inserm, ¡Faculté ¡de ¡médicine ¡de ¡Rennes. ¡France ¡ 2 CRLCC ¡Centre ¡Eugène ¡Marquis, ¡Rennes ¡-‑ ¡France ¡ 3 ¡Intermède ¡– ¡Guignen ¡-‑ ¡France ¡ ¡
Introduc/on ¡ • Relevant ¡informa/on ¡for ¡scien/fic ¡research ¡ • Relevant ¡informa/on ¡for ¡scien/fic ¡research ¡ are ¡s/ll ¡in ¡full ¡text ¡data ¡( are ¡s/ll ¡in ¡full ¡text ¡data ¡(eg ¡: ¡discharge ¡report, ¡ exam ¡report) ¡ • Most ¡of ¡the ¡datawarehouses ¡are ¡based ¡on ¡ structured ¡data ¡ ⇒ ¡the ¡combined ¡exploita/on ¡of ¡metadata ¡and ¡
objec/ve ¡ ¡ • We ¡have ¡already ¡evaluated ¡the ¡contribu/on ¡ • We ¡have ¡already ¡evaluated ¡the ¡contribu/on ¡ of ¡“full ¡text” ¡in ¡an ¡exact ¡match ¡engine ¡ • In ¡this ¡presenta/on ¡we ¡evaluate ¡the ¡ contribu/on ¡of ¡ ¡seman/c ¡enrichment ¡in ¡a ¡full ¡ Cuggia ¡M. ¡et ¡al., ¡A ¡full-‑text ¡informa/on ¡retrieval ¡system ¡for ¡an ¡epidemiological ¡registry, ¡Studies ¡ Cuggia ¡M. ¡et ¡al., ¡A ¡full-‑text ¡informa/on ¡retrieval ¡system ¡for ¡an ¡epidemiological ¡registry, ¡Studies ¡ in ¡Health ¡Technology ¡and ¡InformaKcs , ¡vol. ¡160, ¡n°. ¡1, ¡p. ¡491-‑495, ¡2010 ¡ ¡
Material ¡ ARCHITECTURE ¡ The image cannot be displayed. Your LIKE computer may not have enough memory to open the image, or the Clinical ¡Data ¡: ¡2x10 6 Docs ¡ • image may have been corrupted. Restart your computer, and then open the file again. If the red x still Retrievial Demographics ¡ • Cancer ¡MDM ¡reports ¡ • information Search ¡ DRG ¡(diag. ¡& ¡procedures) ¡ • system Pathology ¡reports ¡ • Structured ¡ Full ¡text ¡ Radiology ¡reports ¡ • query ¡ query ¡ Clinical ¡reports ¡ • Emergency ¡reports ¡ • Lab ¡test ¡ • (ICD, ¡NCIT, ¡ADICAP, ¡CCAM…) ¡ Indexing (Lucene) Index ¡ EHRs ¡ CHU ¡RENNES ¡ Document and data ONCOLOGY ¡CENTER ¡ repository stored in a Clinical ¡ star model database reports ¡ metadata documents Seman/c ¡ enrichment ¡of ¡ Load ¡ Transform ¡ free ¡text ¡ Extract ¡ ETL document ¡ LUCENE: ¡Hatcher, ¡E. ¡et ¡al, ¡ Lucene ¡in ¡acKon, ¡ Ac/on ¡series. ¡Manning ¡Publica/ons ¡Co., ¡Greenwich, ¡CT, ¡2004. ¡
5 ¡
Présenta/on ¡de ¡Nicolas ¡Garcelon ¡pour ¡ 6 ¡ l'Ins/tut ¡Gustave ¡Roussy ¡-‑ ¡27 ¡juin ¡2011 ¡
7 ¡
8 ¡
Method ¡ Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡ Medical ¡ record ¡
Method ¡ Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡ ADM ¡ knowledge ¡ database ¡ NOMINDEX ¡ Medical ¡concepts ¡ extrac/on ¡ Medical ¡ record ¡ NOMINDEX ¡: ¡Happe, ¡A. ¡et ¡al., ¡Automa/c ¡concept ¡extrac/on ¡from ¡spoken ¡medical ¡reports, ¡ Int ¡J ¡Med ¡Inform , ¡2003. ¡70(2-‑3): ¡p. ¡255-‑63. ¡
Method ¡ Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡ Concepts ¡+ ¡all ¡french ¡ synonyms ¡and ¡ ADM ¡ hierarchical ¡ancestor ¡ knowledge ¡ database ¡ UMLS ¡ NOMINDEX ¡ Medical ¡concepts ¡ extrac/on ¡ Medical ¡ record ¡ NOMINDEX ¡: ¡Happe, ¡A. ¡et ¡al., ¡Automa/c ¡concept ¡extrac/on ¡from ¡spoken ¡medical ¡reports, ¡ Int ¡J ¡Med ¡Inform , ¡2003. ¡70(2-‑3): ¡p. ¡255-‑63. ¡
Method ¡ Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡ Search ¡tools ¡ and ¡datamining ¡ Concepts ¡+ ¡all ¡french ¡ synonyms ¡and ¡ ADM ¡ hierarchical ¡ancestor ¡ knowledge ¡ database ¡ Lucene ¡Index ¡ UMLS ¡ NOMINDEX ¡ Medical ¡concepts ¡ Lucene ¡ extrac/on ¡ indexing ¡ Biomedical ¡ Medical ¡ Data ¡ record ¡ WareHouse ¡ Full ¡text ¡ NOMINDEX ¡: ¡Happe, ¡A. ¡et ¡al., ¡Automa/c ¡concept ¡extrac/on ¡from ¡spoken ¡medical ¡reports, ¡ Int ¡J ¡Med ¡Inform , ¡2003. ¡70(2-‑3): ¡p. ¡255-‑63. ¡
Method ¡ Seman/c ¡enrichment ¡and ¡indexing ¡documents ¡ Search ¡tools ¡ and ¡datamining ¡ Concepts ¡+ ¡all ¡french ¡ synonyms ¡and ¡ ADM ¡ hierarchical ¡ancestor ¡ knowledge ¡ database ¡ Lucene ¡Index ¡ UMLS ¡ NOMINDEX ¡ Medical ¡concepts ¡ Lucene ¡ extrac/on ¡ indexing ¡ NOMINDEX ¡extrac/on ¡ Extrac/on ¡of ¡ Biomedical ¡ structured ¡data ¡and ¡ Medical ¡ XML ¡parsing ¡ Data ¡ semi ¡structured ¡data ¡ record ¡ and ¡Regular ¡ WareHouse ¡ expression ¡ Full ¡text ¡ NOMINDEX ¡: ¡Happe, ¡A. ¡et ¡al., ¡Automa/c ¡concept ¡extrac/on ¡from ¡spoken ¡medical ¡reports, ¡ Int ¡J ¡Med ¡Inform , ¡2003. ¡70(2-‑3): ¡p. ¡255-‑63. ¡
Miss ¡Smith ¡has ¡a ¡history ¡of ¡coronary ¡artery ¡disease ¡and ¡an ¡ episode ¡ ¡of ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡in ¡ ¡ ¡ ¡ ¡in ¡ ¡2009 ¡ heart ¡failure ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ parsed ¡with ¡a ¡French ¡concepts ¡extractor ¡extractor ¡(Nomindex) ¡ ¡ è ¡CUIs ¡(UMLS) ¡ Seman/c ¡expansion ¡for ¡annota/on ¡(synonyms ¡& ¡fathers) ¡ Cardiac ¡ Failure, ¡ Myocardial ¡ Failure, ¡ Heart ¡ Failure, ¡ LeM-‑Sided, ¡ Heart ¡ Failure, ¡ LeM ¡ Sided, ¡ LeM-‑Sided ¡ Heart ¡ Failure,LeM ¡ Sided ¡ Heart ¡ Failure, ¡ Heart ¡ Failure, ¡ Right-‑Sided, ¡ CongesKve ¡ Heart ¡Failure, ¡ Heart ¡Decompensa.on ¡ Fathers ¡: ¡Diseases ¡> ¡Cardiovascular ¡Diseases ¡>Heart ¡Diseases ¡ Metadata ¡annota/on ¡ Give ¡me ¡documents ¡ talking ¡about ¡ Heart ¡ decompensa/on ¡
Evalua/on ¡ • Use ¡case ¡: ¡recruitment ¡in ¡prostate ¡cancer ¡clinical ¡trial ¡ • Corpus ¡: ¡textual ¡part ¡of ¡mul/disciplinary ¡reports ¡ • Design ¡: ¡ ¡ – 2 ¡types ¡of ¡query ¡: ¡ • High ¡level ¡of ¡occurrence ¡: ¡“adenocarcinoma” ¡and ¡“prosta/c” ¡ • Low ¡level ¡of ¡occurrence ¡: ¡“heart” ¡and ¡“failure” ¡ – Search ¡process ¡for ¡each ¡types ¡of ¡query ¡ Roogle ¡evalua/on ¡ Gold ¡Standard ¡by ¡human ¡medical ¡expert ¡ Without ¡seman/c ¡enrichment ¡ textual ¡search ¡with ¡clinical ¡interpreta/on ¡of ¡each ¡document ¡ ¡ With ¡seman/c ¡enrichment ¡ textual ¡search ¡with ¡clinical ¡interpreta/on ¡of ¡each ¡document ¡
Results ¡on ¡258 ¡records ¡ TP ¡ FP ¡ TN ¡ FN ¡ Recall ¡ Precision ¡ F-‑measure ¡ ¡high ¡term ¡prevalence ¡ ¡context ¡: ¡ ¡ (95% ¡CI) ¡ ¡(95% ¡CI) ¡ “adenocarcinoma” ¡AND ¡“prosta/c” ¡ Non ¡seman/c ¡enrichment ¡/ ¡Human ¡clinical ¡interpreta/on ¡ 141 ¡ 2 ¡ 45 ¡ 70 ¡ 0.67 ¡ 0.99 ¡ 0.80 ¡ [0.60-‑0.73] ¡ [0.97-‑1.00] ¡ Seman/c ¡enrichment ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡/ ¡Human ¡clinical ¡interpreta/on ¡ 180 ¡ 3 ¡ 44 ¡ 31 ¡ 0.85 ¡ 0.98 ¡ 0.91 ¡ [0.81-‑0.90] ¡ [0.97-‑1.00] ¡ ¡ low ¡term ¡prevalence ¡context ¡: ¡ ¡ TP ¡ FP ¡ TN ¡ FN ¡ Recall ¡ Precision ¡ F-‑measure ¡ (95% ¡CI) ¡ ¡(95% ¡CI) ¡ “heart” ¡AND ¡“failure” ¡ Non ¡seman/c ¡enrichment ¡/ ¡Human ¡clinical ¡interpreta/on ¡ 0 ¡ 0 ¡ 250 ¡ 8 ¡ 0 ¡ -‑ ¡ -‑ ¡ Seman/c ¡enrichment ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡/ ¡Human ¡clinical ¡interpreta/on ¡ 4 ¡ 3 ¡ 247 ¡ 4 ¡ 0.50 ¡ 0.57 ¡ 0.53 ¡ [0.15-‑0.85] ¡ [0.21-‑0.94] ¡ ¡ False ¡posi/ve ¡: ¡Family ¡history ¡ False ¡nega/ve ¡: ¡ pTNM classification : pT2c Nx Mx ¡
Recommend
More recommend