Advanced ¡statistical ¡methods ¡for ¡ combining ¡census ¡and ¡survey ¡data ¡ Stefanos ¡G. ¡Giakoumatos ¡ Eleni ¡Malapani ¡& ¡Teo ¡Kotsilieris ¡ Technological ¡Educa<onal ¡Ins<tute ¡of ¡Peloponnese ¡ ¡
Introduction ¡ • Sta<s<cal ¡Offices ¡have ¡a ¡lot ¡of ¡Data ¡ • Data ¡from ¡censuses ¡(IPUMS ¡database) ¡or ¡ administra<ve ¡sources ¡ ¡ ¡ • Few ¡variables ¡ • Accurate ¡(no ¡variability ¡or ¡very ¡low) ¡ • Data ¡from ¡surveys ¡ ¡ ¡ • Many ¡variables ¡ • Not ¡accurate ¡(variability) ¡ • Ques<on: ¡Can ¡census ¡data ¡combined ¡with ¡ the ¡survey ¡data?? ¡
Small ¡Area ¡ Estimation ¡
Introduction ¡ • Sample surveys can provide reliable current statistics for large areas or subpopulations (domains). • Growing demand for reliable small area statistics but sample sizes are too small to provide direct (or area specific) estimators with acceptable accuracy. • Domain or subpopulation is called a small area if the domain-specific sample size is small. • Solution: Use auxiliary information from censuses (IPUMS database) or administrative sources and produce indirect estimators
Direct ¡Estimators ¡ • Areas ¡ d=1,…,D ¡ • Sampling ¡Units ¡ i=1,…,n d ¡ ∑ w y id id • Average ¡ = Y i ∑ d w id ¡ i ¡ ∑ ˆ = = Y N Y w y • Total ¡ d d d id id i
Generalised ¡Regression ¡Estimators ¡(GREG, ¡ Sardal ¡et ¡al ¡(1992)) ¡ ¡ • Auxiliary ¡informa<on: ¡ ¡ • known ¡popula<on ¡totals ¡ X T ¡ = ¡(X 1 ,...,X p ) ¡ • data ¡(y j ,x j ) ¡for ¡each ¡element ¡ j ¡ E ¡ s ¡ are ¡observed. ¡ ¡ • An ¡es<mator ¡that ¡makes ¡efficient ¡use ¡of ¡this ¡auxiliary ¡ informa<on ¡is ¡the ¡generalized ¡regression ¡(GREG) ¡es<mator ¡ ( ) T ˆ ˆ ˆ ˆ = + − Y Y X X B GR
Indirect ¡Estimators ¡ • Synthe<c ¡Es<ma<on ¡: ¡An ¡es<mator ¡is ¡called ¡synthe<c ¡ es<mator ¡if ¡a ¡reliable ¡direct ¡es<mator ¡for ¡a ¡large ¡area, ¡ covering ¡several ¡small ¡areas, ¡is ¡used ¡to ¡derive ¡an ¡indirect ¡ es<mator ¡for ¡a ¡small ¡area ¡under ¡assump<on ¡that ¡the ¡small ¡ areas ¡have ¡the ¡same ¡characteris<cs ¡as ¡the ¡large ¡area ¡ (Gonzalez, ¡1973). ¡ • Composite ¡es<mator ¡ ¡ ( ) ˆ ˆ ˆ ¡ = + − Y gY 1 g Y composite direct synthetic
Synthetic ¡Estimators ¡ • If ¡informa<on ¡is ¡available ¡in ¡the ¡form ¡of ¡known ¡totals ¡ X= (X 1 ,.., X p ¡ ) ¡then ¡the ¡regression-‑synthe<c ¡es<mator ¡ of ¡domain ¡total ¡ Y, ¡ ˆ ˆ = X T Y B d,Re g • If ¡only ¡one ¡auxiliary ¡variable ¡then ¡Ra<o-‑synthe<c ¡es<mator ¡ ¡ ˆ ¡ Y ˆ = Y X ˆ d ,R atio d X
SAE ¡Models ¡ • Based ¡on ¡the ¡level ¡of ¡auxiliary ¡informa<on ¡available ¡and ¡u<lised, ¡ two ¡types ¡of ¡mixed-‑effect ¡models ¡are ¡used ¡for ¡SAE ¡ • Area ¡level ¡model ¡-‑ ¡when ¡auxiliary ¡informa<on ¡is ¡available ¡only ¡at ¡ area ¡level. ¡They ¡relate ¡small ¡area ¡direct ¡es<mates ¡to ¡area-‑specific ¡ covariates ¡(Fay ¡and ¡Herriot, ¡1979) ¡ • Unit ¡level ¡model ¡-‑ ¡when ¡the ¡unit ¡level ¡auxiliary ¡informa<on ¡is ¡ available. ¡They ¡relate ¡the ¡unit ¡values ¡of ¡a ¡study ¡variable ¡to ¡unit ¡ specific ¡covariates ¡(Baaese, ¡Harter ¡and ¡Fuller, ¡1988) ¡ ¡ ¡ ¡ The ¡empirical ¡best ¡linear ¡unbiased ¡predictor ¡(EBLUP) ¡is ¡widely ¡used ¡ technique ¡of ¡SAE ¡under ¡these ¡models ¡and ¡proven ¡to ¡be ¡efficient, ¡see ¡ Rao ¡(2003) ¡
Area ¡Level ¡Model ¡ • Areas ¡ d=1,…,D ¡ • Sampling ¡Units ¡ i=1,…,n d ¡ • X ¡Auxiliary ¡variables ¡(aggregated ¡data) ¡ • Two ¡stage ¡model ¡(Fay ¡and ¡Herriot ¡1979) ¡ Y d = + y Y e d d d = β + Y X u d d • y d ¡is ¡the ¡survey ¡es<mate ¡ • Y d ¡the ¡true ¡parameter ¡
Area ¡Level ¡Model ¡(2) ¡ Random ¡area ¡effect ¡model ¡ y d = X β + u d + e d Y d ( ) u d ∼ iid N 0, s u ( ) , e d ∼ iid N 0, v d v d is known
Unit ¡Level ¡Model ¡ • Areas ¡ d=1,…,D ¡ • Sampling ¡Units ¡ i=1,…,n d ¡ • The ¡informa<on ¡X ¡ ¡is ¡available ¡on ¡sampling ¡units ¡ y id = X β + z d u d + e id ( ) u d ∼ iid N 0, s u ( ) , e id ∼ iid N 0, v d v d is known
Example ¡ • Es<ma<on ¡at ¡NUTS ¡3 ¡areas ¡(in ¡Greek ¡Nomos) ¡ • Percent ¡of ¡Greek ¡people ¡under ¡the ¡poverty ¡line ¡ • Average ¡disposal ¡income ¡ • Data ¡from ¡ ¡EU-‑SILC ¡2013 ¡(survey ¡on ¡Income ¡and ¡ Living ¡Condi<ons) ¡ • Auxiliary ¡data ¡from ¡IPUMS ¡database ¡ ¡
POVERTY ¡LINE ¡ ¡ • The ¡poverty ¡line ¡is ¡calculated ¡with ¡its ¡rela<ve ¡ concept ¡(poor ¡in ¡rela<on ¡to ¡others) ¡and ¡it ¡is ¡ defined ¡at ¡60% ¡of ¡the ¡median ¡total ¡equivalised ¡ disposable ¡income ¡of ¡the ¡household, ¡using ¡ modified ¡OECD ¡equivalised ¡scale. ¡ ¡ • More ¡specifically ¡the ¡income ¡components ¡included ¡ in ¡the ¡survey ¡are: ¡ ¡ Ø ¡Income ¡from ¡work ¡ ¡ Ø ¡Income ¡from ¡property ¡ ¡ Ø ¡Social ¡transfers ¡and ¡pensions ¡ ¡ Ø ¡Monetary ¡transfers ¡from ¡other ¡households ¡and ¡ ¡ Ø ¡Imputed ¡income ¡from ¡the ¡use ¡of ¡company ¡car. ¡ ¡ ¡
DeMinitions ¡ • Equivalised ¡income ¡ ¡ • Equivalent ¡available ¡individual ¡income ¡is ¡ considered ¡the ¡total ¡available ¡income ¡of ¡ household ¡ajer ¡being ¡divided ¡by ¡the ¡equivalent ¡ size ¡of ¡household. ¡The ¡equivalent ¡size ¡of ¡ household ¡is ¡calculated ¡according ¡to ¡the ¡modified ¡ scale ¡of ¡OECD ¡ ¡ • Equivalence ¡scale ¡ ¡ • Equivalent ¡ size ¡ refers ¡to ¡the ¡OECD ¡modified ¡scale ¡ which ¡gives ¡a ¡weight ¡of ¡1.0 ¡to ¡the ¡first ¡adult, ¡0.5 ¡to ¡ other ¡persons ¡aged ¡14 ¡or ¡over ¡who ¡are ¡living ¡in ¡the ¡ household ¡and ¡0.3 ¡to ¡each ¡child ¡aged ¡under ¡14. ¡ ¡
EU-‑SILC ¡GREECE ¡2013 ¡ • Reference ¡Year: ¡2012 ¡ • Final ¡Sample ¡ • 7.349 ¡Households ¡ • 18.030 ¡persons ¡(15.318 ¡aged ¡16+) ¡ • The ¡poverty ¡threshold ¡amounted ¡to ¡5,023 ¡ Euros ¡per ¡person ¡annually ¡ ¡ • 23.1% ¡of ¡the ¡total ¡popula<on ¡was ¡at ¡risk ¡of ¡ poverty ¡ ¡
Poverty ¡evolution ¡ Percent ¡of ¡people ¡below ¡poverty ¡line ¡1995-‑2012 ¡ 24 ¡ 23.1 ¡ 23.1 ¡ 23.1 ¡ 23.1 ¡ 23 ¡ 22 ¡ 22 ¡ 22 ¡ 21.4 ¡ 21.4 ¡ 21 ¡ 21 ¡ 21 ¡ 21 ¡ 21 ¡ 21 ¡ 21 ¡ 21 ¡ 21 ¡ 21 ¡ 21 ¡ 20.5 ¡ 20.5 ¡ 20.3 ¡20 ¡19.7 ¡ 20.3 ¡ 20.1 ¡ 20 ¡ 20 ¡ 20 ¡ 20 ¡ 20.1 ¡ 20 ¡ 20 ¡ 20 ¡ 20 ¡ 20 ¡ 20 ¡ 19.7 ¡ 19 ¡ 18 ¡ 1995 ¡1996 ¡1997 ¡1998 ¡1999 ¡2000 ¡2001 ¡2002 ¡2003 ¡2004 ¡2005 ¡2006 ¡2007 ¡2008 ¡2009 ¡2010 ¡2011 ¡2012 ¡
Recommend
More recommend