Clinical ¡subphenotyping ¡of ¡asthma ¡ pa4ents ¡in ¡the ¡Severe ¡Asthma ¡Research ¡ Program ¡(SARP) ¡ Wei ¡Wu, ¡PhD ¡ Lane ¡Center ¡for ¡Computa4onal ¡Biology ¡ School ¡of ¡Computer ¡Science ¡ Carnegie ¡Mellon ¡University ¡ 1 ¡
§ Joint ¡work ¡with ¡Sally ¡Wenzel, ¡MD ¡at ¡UPMC, ¡and ¡the ¡SARP ¡ team ¡ § Journal ¡of ¡Allergy ¡and ¡Clinical ¡Immunology, ¡133(5):1280-‑1288 ¡ ¡ 2 ¡
Background ¡ § Asthma ¡is ¡a ¡heterogeneous ¡chronic ¡airway ¡disorder ¡ ¡ ¡ ¡ § Interna4onal ¡and ¡na4onal ¡guidelines ¡suggest ¡ phenotyping ¡by ¡severity ¡based ¡on ¡ lung ¡func.on, ¡asthma ¡ symptoms, ¡and ¡use ¡of ¡medica.on . ¡ § Tradi4onal ¡severity ¡levels ¡per ¡Severe ¡Asthma ¡Research ¡ Program ¡(SARP): ¡ Ø 0: ¡normal ¡control ¡ Ø 1: ¡mild ¡ Ø 2: ¡mild ¡+ ¡ICS ¡ Ø 3: ¡moderate ¡ Ø 4: ¡moderate ¡+ ¡ICS ¡ Ø 5: ¡severe ¡asthma ¡ 3 ¡
Background ¡ § Addi4onal ¡ factors, ¡ including ¡ inflammatory ¡ features ¡ and ¡ ¡ environmental ¡ triggers, ¡ also ¡ contribute ¡ to ¡ asthma ¡heterogeneity ¡ § Heterogeneity ¡ in ¡ asthma ¡ makes ¡ research ¡ and ¡ treatment ¡difficult ¡ Ø Makes ¡weak ¡gene4c ¡signals ¡even ¡more ¡difficult ¡to ¡detect ¡ ¡ 4 ¡
Our ¡tasks ¡ § To ¡bePer ¡define ¡asthma ¡ Ø Iden4fy ¡new ¡subtypes ¡of ¡asthma ¡ § To ¡bePer ¡characterize ¡pa4ents ¡in ¡different ¡subtypes ¡of ¡ asthma, ¡and ¡thus ¡make ¡personalized ¡medicine ¡possible ¡ ¡ 5 ¡
What ¡is ¡the ¡problem ¡with ¡the ¡tradi4onal ¡ defini4on ¡of ¡asthma?
Diagnosing Asthma Using Traditional Clinical Criteria 30 Subjects 0: Normal Subjects (5) 1: Mild Asthma (5) 2: Mild Asthma + Medication (5) 3: Moderate Asthma (5) 4: Moderate Asthma + Medication (5) Low 5: Severe Asthma (5) Average 7 ¡ High
Clinical ¡profiles ¡of ¡asthma ¡pa.ents ¡ 30 ¡pa.ents ¡with ¡112 ¡variables ¡ Mul.ple ¡Lung ¡ Symptom, ¡ Immune ¡factors, ¡Environmental ¡ ¡ Quality ¡of ¡ Allergy ¡ ¡ Func.on ¡ Health ¡Care ¡ factors, ¡History, ¡Gene.cs ¡ Life ¡ 0 ¡ 1 ¡ 2 ¡ 3 ¡ 4 ¡ Low 5 ¡ Average High 8 ¡
Our ¡Strategy ¡ § Selected ¡378 ¡pa4ents ¡in ¡the ¡SARP ¡Program ¡ § 112 ¡variables ¡were ¡available ¡for ¡these ¡pa4ents, ¡ including ¡inflammatory ¡measures ¡ § Clustering ¡pa4ents ¡using ¡unsupervised ¡learning ¡ approach ¡ 9 ¡
Challenges ¡in ¡clustering ¡asthma ¡pa.ents ¡ § Data ¡collec4on ¡ Ø Collec4ng ¡data ¡from ¡pa4ents ¡can ¡be ¡very ¡4me ¡consuming ¡ • They ¡need ¡to ¡fill ¡out ¡ques4onnaires, ¡provide ¡blood ¡ samples, ¡take ¡all ¡kinds ¡of ¡clinical ¡tests ¡… ¡ Ø The ¡SARP ¡data ¡came ¡from ¡9 ¡clinical ¡centers, ¡in ¡US ¡and ¡UK ¡ 10 ¡
§ Data ¡processing ¡ Ø Dealing ¡with ¡mistakes ¡in ¡the ¡database ¡ • Data ¡entry ¡errors, ¡caused ¡by ¡pa4ents, ¡nurses, ¡data ¡ management ¡people, ¡etc. ¡ Age ¡Asthma ¡Onset ¡(age) ¡ ageasthonset 100 P ¡< ¡0.0001 ¡ Normal controls 80 with age of asthma 60 ● onset at ~ 15, 18 ● ● ● 40 ● ● ● ● ● ● ● ● ● ● ● 20 ● ● 0 1 2 3 4 5 6 Cluster ¡(All ¡Pa.ents) ¡ • Duplicate ¡pa4ent ¡records ¡ Ø Missing ¡data: ¡impute ¡values ¡for ¡missing ¡data ¡ 11 ¡
§ Finding ¡right ¡computa4onal ¡algorithms ¡to ¡analyze ¡ the ¡data ¡ Ø Usually ¡clustering ¡algorithms ¡are ¡designed ¡for ¡ con4nuous ¡data ¡ ¡ Ø Mixed ¡data ¡types ¡ • Con4nuous ¡variables, ¡e.g., ¡lung ¡func4on ¡variables, ¡BMI ¡ • Categorical ¡ordinal ¡variables, ¡e.g., ¡symptoms ¡ • Categorical ¡binary ¡variables, ¡e.g., ¡whether ¡take ¡a ¡certain ¡ medica4on ¡or ¡not ¡ • Categorical ¡nominal ¡variables, ¡e.g., ¡race, ¡ethnicity ¡ Ø Ques4ons: ¡ ¡ • Which ¡clustering ¡algorithms ¡to ¡use? ¡ • What ¡distance ¡measure ¡to ¡use? ¡ ¡ 12 ¡
Importance ¡of ¡having ¡a ¡mul.disciplinary ¡team ¡ § In ¡order ¡to ¡address ¡the ¡challenges, ¡computa4onal ¡ biologists ¡and ¡clinicians ¡need ¡to ¡work ¡closely ¡ together ¡ Ø Modern ¡medicine ¡is ¡impossible ¡without ¡help ¡from ¡ computa4onal ¡biologists ¡or ¡sta4s4cians ¡ Ø Clinicians ¡can ¡help ¡with ¡data ¡analysis ¡… ¡ • Spobng ¡data ¡errors ¡ ¡ • Connec4ng ¡your ¡results ¡to ¡clinical ¡prac4ce ¡ 13 ¡
An ¡example: ¡spoSng ¡data ¡errors ¡by ¡clinicians ¡ § Clustering ¡analysis ¡revealed ¡a ¡small ¡cluster ¡of ¡pa4ents ¡(5-‑10) ¡ with ¡high ¡blood ¡neutrophil ¡counts ¡ correct ¡values ¡ WBC_Blood neutrophlpct_Blood neutrophl_Blood 4.4 67.3 3 30 3.0 5.7 58.7 3.3 33 3.3 8.1 68.3 5.5 55 5.5 6.9 65 4.5 45 4.5 6.2 53 3.3 33 3.3 32 3.2 5.6 56.5 3.2 § Errors ¡caused ¡by ¡data ¡entry ¡ § Can ¡be ¡corrected ¡ ¡ 14 ¡
How to evaluate clustering results?
Clustering ¡is ¡an ¡exploratory ¡technique ¡ “… ¡In ¡general, ¡the ¡selec4on ¡of ¡“good” ¡variables ¡is ¡a ¡nontrivial ¡ task ¡and ¡may ¡involve ¡quite ¡some ¡trial ¡and ¡error ¡(in ¡addi4on ¡ to ¡subject-‑maPer ¡knowledge ¡and ¡common ¡sense). ¡In ¡this ¡ respect, ¡cluster ¡analysis ¡may ¡be ¡considered ¡an ¡exploratory ¡ technique.” ¡ ¡ Kaufman ¡L, ¡Rousseeuw ¡PJ. ¡“Finding ¡Groups ¡in ¡Data: ¡An ¡ Introduc@on ¡to ¡Cluster ¡Analysis.” ¡Wiley-‑Interscience; ¡1990, ¡ page ¡14. ¡ ¡ 16 ¡
How to explor How to explore? e? § Ojen ¡4me, ¡no ¡unique ¡“best” ¡or ¡“true” ¡clusters ¡ § Our ¡evalua4on ¡criterion: ¡ ¡ Ø Good ¡clustering ¡results ¡should ¡make ¡good ¡clinical ¡sense ¡ ¡ 17 ¡
With ¡our ¡evalua.on ¡criterion ¡in ¡mind ¡… ¡ § Our ¡results ¡make ¡the ¡best ¡clinical ¡sense ¡when ¡ we ¡use: ¡ Ø K-‑means ¡clustering ¡ Ø Euclidean ¡distance: ¡ ¡ Ø Set ¡cluster ¡number: ¡6 ¡(clusters) ¡ 18 ¡
K-‑means ¡clustering ¡ § Given ¡a ¡set ¡of ¡data ¡points, ¡K-‑means ¡clustering ¡aims ¡to ¡ minimize ¡the ¡within-‑cluster ¡sum ¡of ¡squares: ¡ k argmin 2 ∑ ∑ xj − µ i C i = 1 x j ∈ Ci § Euclidean ¡distance: ¡ 2 p ( ) = ∑ ( ) d E x i , x j d v x iv , x jv v = 1 § Cluster ¡numbers: ¡ Ø Both ¡K ¡= ¡5 ¡and ¡K ¡= ¡6 ¡generate ¡results ¡which ¡look ¡nice ¡by ¡ sta4s4cal ¡criteria ¡ Ø With ¡K ¡= ¡6, ¡ results ¡make ¡bePer ¡clinical ¡sense ¡ • Clusters ¡are ¡clinically ¡recognizable ¡ 19 ¡
K-‑means ¡Results: ¡Pa.ent ¡clustering ¡ Cluster ¡1 ¡ Cluster ¡2 ¡ Cluster ¡3 ¡ Cluster ¡4 ¡ Low Average Cluster ¡5 ¡ High Cluster ¡6 ¡ 20 ¡
Interpre4ng ¡clustering ¡results ¡ 21 ¡
Comparison ¡of ¡Pa.ents ¡in ¡6 ¡Clusters: ¡Lung ¡Func.on ¡ Baseline ¡Lung ¡Func.ons: ¡ Baseline_preDrug_FEV1pp P ¡< ¡0.0001 ¡ Forced ¡Expiratory ¡ 140 ● Volume ¡in ¡One ¡ 120 % ¡predicted ¡ ● Second: ¡FEV1 ¡ 100 ● 80 ● 60 40 ● 20 1 2 3 4 5 6 Pa.ent ¡Clusters ¡
Comparison ¡of ¡Pa.ents ¡in ¡6 ¡Clusters: ¡ ¡ Improvement ¡of ¡lung ¡func.on ¡a_er ¡treatment ¡ Lung ¡Func.on ¡a_er ¡drug ¡treatment: ¡ ¡ maxFEV1pp_MPVLung P ¡< ¡0.0001 ¡ 140 120 % ¡predicted ¡ ● ● ● 100 80 60 ● ● ● 40 20 1 2 3 4 5 6 Pa.ent ¡Clusters ¡
Comparison ¡of ¡Pa.ents ¡in ¡6 ¡Clusters: ¡ ¡ Asthma ¡Symptoms ¡ Shortness ¡of ¡Breath ¡Frequency ¡ Cough ¡Frequency ¡ Shortness of breath frequency Cough frequency 7 7 P < 0.0001 P < 0.0001 6 6 ● 5 5 Score ¡ ● ● ● Score ¡ 4 4 ● ● 3 3 ● ● ● 2 2 ● ● ● 1 1 1 2 3 4 5 6 1 2 3 4 5 6 Pa.ent ¡Clusters ¡ Pa.ent ¡Clusters ¡
Recommend
More recommend