Automa'c ¡Methods ¡for ¡Coding ¡Historical ¡ Occupa'on ¡ Descrip'ons ¡to ¡Standard ¡Classifica'ons ¡ Graham ¡Kirby, ¡Jamie ¡Carson, ¡Fraser ¡Dunlop, ¡Chris ¡ Dibben, ¡Alan ¡Dearle, ¡Lee ¡Williamson, ¡Eilidh ¡ Garre<, ¡Alice ¡Reid ¡ digi@singscotland@lscs.ac.uk ¡ ¡ digi@singscotland.cs.st-‑andrews.ac.uk ¡ ¡ ¡
Mo@va@on ¡ • Increasing ¡number ¡of ¡digi@sed ¡registra@on ¡ records ¡for ¡the ¡19 th ¡and ¡20 th ¡centuries. ¡ • Varying ¡forms ¡of ¡data ¡ • Scale ¡of ¡data ¡prevents ¡manual ¡analysis ¡ digi@singscotland@lscs.ac.uk ¡ 2 ¡
Challenges ¡ • Significant ¡methodological ¡issues: ¡ – How ¡can ¡we ¡consistently ¡code ¡occupa@onal ¡data ¡ so ¡that ¡researchers ¡can ¡explore ¡changing ¡pa<erns ¡ and ¡trends? ¡ ¡ – How ¡can ¡we ¡automate ¡this ¡process ¡so ¡that ¡the ¡ majority ¡of ¡records ¡do ¡not ¡need ¡to ¡be ¡manually ¡ coded? ¡ digi@singscotland@lscs.ac.uk ¡ 3 ¡
Digi@sing ¡Scotland ¡ • Records ¡of ¡births, ¡marriages ¡and ¡deaths ¡recorded ¡in ¡Scotland ¡ from ¡1855 ¡to ¡present ¡day. ¡ digi@singscotland@lscs.ac.uk ¡ 4 ¡
Digi@sing ¡Scotland ¡ • Approximately ¡29 ¡million ¡ records ¡ • Approximately ¡50 ¡million ¡ Record ¡Type ¡ occupa@on ¡strings, ¡8 ¡ million ¡causes ¡of ¡death ¡ Births ¡ • Classify ¡occupa@ons ¡to ¡ Mariages ¡ Historical ¡Interna@onal ¡ Deaths ¡ Standard ¡Classifica@on ¡of ¡ Occupa@ons ¡(HISCO) ¡ • Cause ¡of ¡death ¡to ¡ICD10 ¡ ¡ digi@singscotland@lscs.ac.uk ¡ 5 ¡
6 ¡
7 ¡
8 ¡
9 ¡
10 ¡
Experimental ¡Dataset ¡ • Vital ¡event ¡records ¡currently ¡being ¡transcribed ¡ • Use ¡a ¡dataset ¡with ¡similar ¡content ¡for ¡experiments ¡ • 60,000 ¡records ¡from ¡the ¡Cambridge ¡Family ¡History ¡ Study ¡(records ¡from ¡1800-‑1990) ¡ • Occupa@on ¡descrip@ons ¡and ¡associated ¡HISCO ¡codes ¡ • HISCO ¡coding ¡done ¡by ¡historians ¡ • Dataset ¡contains ¡330 ¡different ¡HISCO ¡codes ¡ digi@singscotland@lscs.ac.uk ¡ 11 ¡
HISCO ¡Hierarchy ¡Example ¡ ¡ digi@singscotland@lscs.ac.uk ¡ 12 ¡
Classifica@on ¡Example ¡ String ¡from ¡record ¡ Gold ¡Standard ¡ Automa'c ¡Classifica'on ¡ Classifica'on ¡ Output ¡ Farm ¡horseman ¡ 62460 ¡ 62460 ¡ Shoe ¡maker ¡ 80110 ¡ 80110 ¡ Fireman ¡(railway) ¡ 98330 ¡ 98330 ¡ Fireman ¡ 58100 ¡ 58100 ¡ Sta@oner ¡ 41000 ¡ 91000 ¡ digi@singscotland@lscs.ac.uk ¡ 13 ¡
Classifica@on ¡Example ¡ String ¡from ¡record ¡ Gold ¡Standard ¡ Automa'c ¡Classifica'on ¡ Classifica'on ¡ Output ¡ Farm ¡horseman ¡ 62460 ¡Horse ¡Worker ¡ 62460 ¡Horse ¡Worker ¡ Shoe ¡maker ¡ 80110 ¡Shoemaker, ¡General ¡ 80110 ¡Shoemaker, ¡General ¡ Fireman ¡(railway) ¡ 98330 ¡Railway ¡Steam-‑ 98330 ¡Railway ¡Steam-‑ Engine ¡Fireman ¡ Engine ¡Fireman ¡ ¡ Fireman ¡ 58100 ¡Fire-‑Fighter ¡ 58100 ¡Fire-‑Fighter ¡ Sta@oner ¡ 41000 ¡Working ¡Proprietors ¡ 91000 ¡Paper ¡and ¡ (Wholesale ¡and ¡Retail ¡ Paperboard ¡product ¡ Trade) ¡ makers ¡ digi@singscotland@lscs.ac.uk ¡ 14 ¡
Classifica@on ¡Example ¡ String ¡from ¡record ¡ Gold ¡Standard ¡ Automa'c ¡Classifica'on ¡ Classifica'on ¡ Output ¡ Farm ¡horseman ¡ 62460 ¡Horse ¡Worker ¡ 62460 ¡Horse ¡Worker ¡ Shoe ¡maker ¡ 80110 ¡Shoemaker, ¡General ¡ 80110 ¡Shoemaker, ¡General ¡ Fireman ¡(railway) ¡ 98330 ¡Railway ¡Steam-‑ 98330 ¡Railway ¡Steam-‑ Engine ¡Fireman ¡ Engine ¡Fireman ¡ ¡ Fireman ¡ 58100 ¡Fire-‑Fighter ¡ 58100 ¡Fire-‑Fighter ¡ Sta@oner ¡ 41000 ¡Working ¡Proprietors ¡ 91000 ¡Paper ¡and ¡ (Wholesale ¡and ¡Retail ¡ Paperboard ¡product ¡ Trade) ¡ makers ¡ digi@singscotland@lscs.ac.uk ¡ 15 ¡
Approach ¡ • Text ¡analysis ¡ • Supervised ¡machine ¡learning ¡ – Apache ¡Mahout ¡framework. ¡ • Combina@on ¡of ¡these ¡techniques. ¡ digi@singscotland@lscs.ac.uk ¡ 16 ¡
Supervised ¡Machine ¡Learning ¡ Training ¡Data ¡ Machine ¡Learning ¡ Predic'on ¡Model ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡ digi@singscotland@lscs.ac.uk ¡ 17 ¡
Supervised ¡Machine ¡Learning ¡ Training ¡Data ¡ Machine ¡Learning ¡ Predic'on ¡Model ¡ Farm ¡horseman ¡62460 ¡ Shoe ¡maker ¡80110 ¡ Fireman ¡ ¡58100 ¡ ¡ Sta@oner ¡ ¡41000 ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡ digi@singscotland@lscs.ac.uk ¡ 18 ¡
Supervised ¡Machine ¡Learning ¡ Training ¡Data ¡ Machine ¡Learning ¡ Predic'on ¡Model ¡ Farm ¡horseman ¡62460 ¡ Shoe ¡maker ¡80110 ¡ Fireman ¡ ¡58100 ¡ ¡ Sta@oner ¡ ¡41000 ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡ Farm ¡horseman ¡ Boot ¡maker ¡ Fireman ¡ ¡ Painter ¡ ¡ digi@singscotland@lscs.ac.uk ¡ 19 ¡
Supervised ¡Machine ¡Learning ¡ Training ¡Data ¡ Machine ¡Learning ¡ Predic'on ¡Model ¡ Farm ¡horseman ¡62460 ¡ Shoe ¡maker ¡80110 ¡ Fireman ¡ ¡58100 ¡ ¡ Sta@oner ¡ ¡41000 ¡ Unseen ¡Data ¡ Predic'on ¡Model ¡ Predic'on ¡Model ¡ Predicted ¡Classifica'on ¡ Farm ¡horseman ¡ ? ¡ Boot ¡maker ¡ Fireman ¡ ¡ Painter ¡ ¡ digi@singscotland@lscs.ac.uk ¡ 20 ¡
Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡and ¡shoe ¡maker ¡ B ¡ Boot ¡and ¡shoe ¡dealer ¡ C ¡ Fireman ¡ D ¡ Ca<le ¡(& ¡sheep) ¡farmer ¡ digi@singscotland@lscs.ac.uk ¡ 21 ¡
Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡ and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡ and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡ (& ¡sheep ) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡ digi@singscotland@lscs.ac.uk ¡ 22 ¡
Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡ and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡ and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡ (& ¡sheep ) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡ boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ B ¡ C ¡ D ¡ digi@singscotland@lscs.ac.uk ¡ 23 ¡
Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡ and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡ and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡ (& ¡sheep ) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡ boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ B ¡ C ¡ D ¡ digi@singscotland@lscs.ac.uk ¡ 24 ¡
Machine ¡Learning ¡ • Inputs ¡are ¡split ¡into ¡features ¡and ¡converted ¡to ¡high ¡dimension ¡ vectors ¡ Record ¡ Original ¡Input ¡ Cleaned ¡input ¡ Vector ¡ ¡ A ¡ Boot ¡ and ¡shoe ¡maker ¡ boot ¡shoe ¡maker ¡ B ¡ Boot ¡ and ¡shoe ¡dealer ¡ boot ¡shoe ¡dealer ¡ C ¡ Fireman ¡ fireman ¡ D ¡ Ca<le ¡ (& ¡ sheep ) ¡farmer ¡ ca<le ¡sheep ¡farmer ¡ boot ¡ caIle ¡ dealer ¡ farmer ¡ fireman ¡ horse ¡ maker ¡ sheep ¡ shoe ¡ A ¡ 1 ¡ 0 ¡ B ¡ C ¡ D ¡ digi@singscotland@lscs.ac.uk ¡ 25 ¡
Recommend
More recommend