Data Cleaning for Data Integration Advanced School on Data Exchange, - PowerPoint PPT Presentation

Data Cleaning for Data Integration Advanced School on Data Exchange, Integration, and Streams (DEIS) Ekaterini Ioannou Tuesday, 9 th of Nov. 2010, Schloss Dagstuhl

Problem overview Data integration:  Combine data from various sources/applications  Merge into a single database  Requires a unified view over the data  cleaning Challenges:  Handling the various incoming schemata  Dealing with the missing data values  Entity Resolution  combine the various descriptions or references for the same real world objects Data Cleaning for Data Integration 2

Reasons for Various Descriptions  Text variations: • Misspellings • Acronyms • Transformations • Abbreviations • etc . Data Cleaning for Data Integration 3

Reasons for Various Descriptions  Text variations  Local knowledge: • Each source uses different formats e.g., person from publication vs. person from email • Lack of global coordination for identifier assignment Data Cleaning for Data Integration 4

Reasons for Various Descriptions figure from [RVMB09]  Text variations  Local knowledge  Evolving nature of data: • Entity alternative names appearing in time • Updates in entity data Jacqueline Lee Bouvier Data Cleaning for Data Integration 5

Reasons for Various Descriptions  Text variations  Local knowledge  Evolving nature of data  New functionality: • Web page extraction e.g., Calais, Cogito • Import data collections from various applications e.g., Wikipedia data used in Freebase • Mashups for easy and fast integration from various source e.g., yahoo pipes Data Cleaning for Data Integration 6

Required Process Entity Resolution typical methodology:  Indentify data describing the same real-world objects  Decide how to merge the data  Update the data collection Solutions following various directions We present them through four categories: 1. Atomic similarity methods 2. Similarity methods for sets 3. Facilitating inner-relationships 4. Methods in uncertain data Data Cleaning for Data Integration 7

Alternative names for Entity Resolution Data Cleaning for Data Integration 8

Outline 1. Motivation: Entity Resolution 2. Atomic similarity methods 3. Similarity methods for sets 4. Facilitating inner-relationships 5. Methods in uncertain data 6. Conclusions Data Cleaning for Data Integration 9

Atomic String Similarity Examples of targeting cases:  Publication authors: “John D. Smith” vs. “J. D. Smith”  Journal names: “Transactions on Knowledge and Data Engineering” vs. “Trans. Knowl . Data Eng.” Edit Distance:  Number of operations to convert from 1 st to 2 nd string  Operations in Levenstein distance [Lev66]  delete, insert, and update a character with cost 1 e k a t e r i n i cost = 2 k a t e r i n a Data Cleaning for Data Integration 10

Atomic String Similarity Gap Distance:  Overcome limitation of edit distance with shortened strings  Considers two extra operations [Nav01]  open gap, and extend gap (with small cost) k n o w l e d g e a n d d a t a k n o w l . d a t a cost = 1 + o + 8e Data Cleaning for Data Integration 11

Atomic String Similarity Jaro similarity [Jar89]:  Small string, e.g., first and last names 1 ( C + C-T ) C + JaroSim( s 1 , s 2 ) = 3 |s 1 | |s 2 | C C  common characters in s 1 and s 2 T  transpositions/2 transposition is a k in which s 1 [ k ] != s 2 [ k ] Example : “DEIS”vs. “DESI” 1 (4 + 4 + 4-1 ) C=4, T=2/2, JaroSim= = 0.9167 3 4 4 4 Jaro-Winkler similarity [Win99]:  Extension that gives higher weight to matching prefix  Increasing it’s applicability to names Data Cleaning for Data Integration 12

Atomic String Similarity Soundex:  Coverts each word into a phonetic encoding by assigning the same code to the string parts that sound the same  Similarity between the corresponding phonetic encodings Remarks:  Surveys: [CRF03], [Win06]  Existing API with these methods: o SecondString: http://secondstring.sourceforge.net/ o SimMetrics: http://www.dcs.shef.ac.uk/~sam/simmetrics.html Data Cleaning for Data Integration 13

Similarity methods for sets Database community:  Each record is an entity Name Email Journal  A simple example: Transactions on Knowledge and e 1 John D. Smith smith@uni.edu Data Engineering Smith, J. smith@uni.edu IEEE Trans. Knowl. Data Eng. e 2 Merge-purge [HS95],[HS98]:  Idea: same entities will share information  Create a key for each record (e.g., email)  Sort records according to key  Compare only a limited set of records in each iteration Data Cleaning for Data Integration 15

Similarity methods for sets Using transformations [TKM02]: 1. Analyze data to generate transformations  Unary transform: o Equality, Stemming, Soundex, Abbreviation (e.g., 3rd or third)  N-ary transformations: o Initial, Prefix, Suffix, Substring Acronym, Abbreviation, Drop 2. Calculate transformation weights 3. Apply on candidate mappings Data Cleaning for Data Integration 16

Similarity methods for sets Group Linkage [OKLS07]:  Considers groups of relational records o not individual relational records  Groups match when: 1. High similarity between data of individual records 2. Large fraction of matching records, i.e., no. 1 Some additional methods  [DLLH03] Surveys for methods in this category  [DH05], [EIV07], [OS99] Data Cleaning for Data Integration 17

Similarity methods for sets Remarks:  Methods do not consider semantics of data  Currently used as a first step of Entity Resolution match Data Cleaning for Data Integration 18

Facilitating inner-relationships General idea  Heterogeneous data o Lack of schema information o Variations in entity descriptions o Incomplete or missing values  Improve effectiveness by considering data semantics  Example  Reference Reconciliation Data Cleaning for Data Integration 20

Facilitating inner-relationships Reference Reconciliation [DHM05] 1. Build a dependency graph (“Distributed…”, “ Distributed …”) (p 1 , p 4 ) (“Robert S. Epstein”, “Epstein, R.S.”) (“169 - 180”, “ 169-180 ”) (p 2 , p 5 ) (a 1 , a 2 ) (“Michael Stonebraker”, “Stonebraker, M.”) (c 1 , c 2 ) (p 3 , p 6 ) (“Eugene Wong”, “Wong, E.”) (“ACM …”, “ACM SIGMOD”) (“1978”, “1978”) Reconciled Similar Data Cleaning for Data Integration 21

Facilitating inner-relationships Reference Reconciliation [DHM05] 1. Build a dependency graph 2. Exploit information and relationships (“Distributed…”, “ Distributed …”) (p 1 , p 4 ) (“Robert S. Epstein”, “Epstein, R.S.”) (“169 - 180”, “ 169-180 ”) (p 2 , p 5 ) (a 1 , a 2 ) (“Michael Stonebraker”, “Stonebraker, M.”) (c 1 , c 2 ) (p 3 , p 6 ) (“Eugene Wong”, “Wong, E.”) (“ACM …”, “ACM SIGMOD”) (“1978”, “1978”) Reconciled Similar Data Cleaning for Data Integration 22

Facilitating inner-relationships Reference Reconciliation [DHM05] 1. Build a dependency graph 2. Exploit information and relationships 3. Propagate information  enrich relationships (“Michael Stonebraker ”, “ stonebraker @”) (“ Michael Stonebraker ”, “ mike”) (p 2 , p 8 ) (p 2 , p 9 ) Data Cleaning for Data Integration 25

Data Cleaning for Data Integration Advanced School on Data Exchange, - PowerPoint PPT Presentation

Data Cleaning for Data Integration Advanced School on Data Exchange, Integration, and Streams (DEIS) Ekaterini Ioannou Tuesday, 9 th of Nov. 2010, Schloss Dagstuhl Problem overview Data integration: Combine data from various

Workflow basics, RMarkdown, git/Github Cleaning up Cleaning up Cleaning up Cleaning up

Floor Cleaning By Vacuum After vacuum Cleaning After vacuum Cleaning After vacuum Cleaning

Diagnose data for cleaning Cleaning Data in Python Cleaning data Prepare data for analysis

Data Cleaning Nan Tang, QCRI Big Data Cleaning Nan Tang, QCRI Big Data Cleaning Nan Tang,

Data types Cleaning Data in Python Prepare and clean data Cleaning Data in Python Data types

Diagnose data for cleaning CLEAN IN G DATA IN P YTH ON Daniel Chen Instructor Cleaning data

Equipment Cleaning for Drug Products www.gmpsop.com 1 Scope and General Types of Cleaning

Building Cleaning Services (BCS) Kirsty Thomas, Assistant Building Cleaning Finance officer

Data cleaning and standardisation (1) Data cleaning and standardisation (2) Real world data is

Intro to data cleaning with Apache Spark CLEAN IN G DATA W ITH P YS PARK Mike Metzger Data

The Preventing harm to Cleaning Workers Report Terry N Taylor Head of Working Environment

SEIKA Optimal Cleaning Performance TOP Ultrasonic Cleaning Head Shower Pipe Two ultrasonic

REFRESH Travel Cleaning Kit 529001 At 100ml the Travel Screen Cleaning Kit is perfectly suitable

Notes on FC cleaning & assembly at CERN Jeff Nelson, William & Mary Jan, '17 DUNE - FC

6 Foot Kitchen Training Cleaning Contact Surfaces May 2020 Cleaning Contact Surfaces (35

Dry-ice (CO 2 -snow) Cleaning - Motivation - Cleaning mechanism, technique & apparatus - Nb

ICLP09 PRISM: an overview LP connections Semantics Logic Tabling Proba- Learning

Understanding Manycore Scalability of File Systems Changwoo Min , Sanidhya Kashyap, Stefgen Maass

An Introduction to Multi Relational Data Mining Outline Introduzione e concetti di base

Status of FNAL SciBooNE experiment Yasuhiro Nakajima (Kyoto Univ.) TAUP2007, Sendai September

Primary 1 February 2020 Vision: Hearts of Service * M inds of Inquiry * Joy in Learning *

COMP364: Working with Matplotlib Jrme Waldisphl, McGill

CLASS 1: ASSEt pricing. CAPM. Theory and Experiment Theory: The economy Two dates (today,

Military Munitions Policy and Guidance A Regulator's Perspective SEPTEMBER 14, 2020 US EPA

Data Cleaning for Data Integration Advanced School on Data Exchange, - PowerPoint PPT Presentation

Data Cleaning for Data Integration Advanced School on Data Exchange, Integration, and Streams (DEIS) Ekaterini Ioannou Tuesday, 9 th of Nov. 2010, Schloss Dagstuhl Problem overview Data integration: Combine data from various

Workflow basics, RMarkdown, git/Github Cleaning up Cleaning up Cleaning up Cleaning up

Floor Cleaning By Vacuum After vacuum Cleaning After vacuum Cleaning After vacuum Cleaning

Diagnose data for cleaning Cleaning Data in Python Cleaning data Prepare data for analysis

Data Cleaning Nan Tang, QCRI Big Data Cleaning Nan Tang, QCRI Big Data Cleaning Nan Tang,

Data types Cleaning Data in Python Prepare and clean data Cleaning Data in Python Data types

Diagnose data for cleaning CLEAN IN G DATA IN P YTH ON Daniel Chen Instructor Cleaning data

Equipment Cleaning for Drug Products www.gmpsop.com 1 Scope and General Types of Cleaning

Building Cleaning Services (BCS) Kirsty Thomas, Assistant Building Cleaning Finance officer

Data cleaning and standardisation (1) Data cleaning and standardisation (2) Real world data is

Intro to data cleaning with Apache Spark CLEAN IN G DATA W ITH P YS PARK Mike Metzger Data

The Preventing harm to Cleaning Workers Report Terry N Taylor Head of Working Environment

SEIKA Optimal Cleaning Performance TOP Ultrasonic Cleaning Head Shower Pipe Two ultrasonic

REFRESH Travel Cleaning Kit 529001 At 100ml the Travel Screen Cleaning Kit is perfectly suitable

Notes on FC cleaning &amp; assembly at CERN Jeff Nelson, William &amp; Mary Jan, '17 DUNE - FC

6 Foot Kitchen Training Cleaning Contact Surfaces May 2020 Cleaning Contact Surfaces (35

Dry-ice (CO 2 -snow) Cleaning - Motivation - Cleaning mechanism, technique &amp; apparatus - Nb

ICLP09 PRISM: an overview LP connections Semantics Logic Tabling Proba- Learning

Understanding Manycore Scalability of File Systems Changwoo Min , Sanidhya Kashyap, Stefgen Maass

An Introduction to Multi Relational Data Mining Outline Introduzione e concetti di base

Status of FNAL SciBooNE experiment Yasuhiro Nakajima (Kyoto Univ.) TAUP2007, Sendai September

Primary 1 February 2020 Vision: Hearts of Service * M inds of Inquiry * Joy in Learning *

COMP364: Working with Matplotlib Jrme Waldisphl, McGill

CLASS 1: ASSEt pricing. CAPM. Theory and Experiment Theory: The economy Two dates (today,

Military Munitions Policy and Guidance A Regulator's Perspective SEPTEMBER 14, 2020 US EPA

Notes on FC cleaning & assembly at CERN Jeff Nelson, William & Mary Jan, '17 DUNE - FC

Dry-ice (CO 2 -snow) Cleaning - Motivation - Cleaning mechanism, technique & apparatus - Nb