kdd cup 2009
play

KDD Cup 2009 Fast Scoring on a Large Database Presentation of the - PowerPoint PPT Presentation

KDD Cup 2009 Fast Scoring on a Large Database Presentation of the Results at the KDD Cup Workshop June 28, 2008 The Organizing Team KDD Cup 2009 Organizing Team Project team at Orange Labs R&D: Vincent Lemaire Marc Boull


  1. KDD Cup 2009 Fast Scoring on a Large Database Presentation of the Results at the KDD Cup Workshop June 28, 2008 The Organizing Team

  2. KDD Cup 2009 Organizing Team Project team at Orange Labs R&D: • Vincent Lemaire • Marc Boullé • Fabrice Clérot • Raphaël Féraud • Aurélie Le Cam • Pascal Gouzien Beta testing and proceedings editor: • Gideon Dror Web site design: • Olivier Guyon (MisterP.net, France) Coordination (KDD cup co-chairs): • Isabelle Guyon • David Vogel

  3. Thanks to our sponsors… ! Orange ! ACM SIGKDD ! Pascal ! Unipen ! Google ! Health Discovery Corp ! Clopinet ! Data Mining Solutions ! MPS

  4. Record KDD Cup Participation KDD Cup Participation By Year Year # Teams 1997 45 500 1998 57 453 450 400 1999 24 350 2000 31 300 2001 136 250 2002 18 200 2003 57 150 136 128 2004 102 102 100 95 68 57 57 2005 37 50 45 37 31 24 18 0 2006 68 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2007 95 Year 2008 128 2009 453

  5. Participation Statistics ! 1299 registered teams ! 7865 entries ! 46 countries : Argentina Germany Malaysia South Korea Australia Greece Mexico Spain Austria Hong Kong Netherlands Sweden Belgium Hungary New Zealand Switzerland Brazil India Pakistan Taiwan Bulgaria Iran Portugal Turkey Canada Ireland Romania Uganda Chile Israel Russian Federation United Kingdom China Italy Singapore Uruguay Fiji Japan Slovak Republic United States Finland Jordan Slovenia France Latvia South Africa

  6. A worlwide operator ! One of the main telecommunication operators in the world ! Providing services to more than 170 millions customers over five continents ! Including 120 millions under the Orange Brand

  7. KDD Cup 2009 organized by Orange Customer Relationship Management (CRM) Three marketing tasks: predict the propensity of customers ! – to switch provider: Churn – to buy new products or services: Appentency – to buy upgrades or new options proposed to them: Up-selling Objective: improve the return of investments (ROI) of ! marketing campaigns – Increase the efficiency of the campaign given a campaign cost – Decrease the campaign cost for a given marketing objective Better prediction leads to better ROI !

  8. Data, constraints and requirements Input data ! Train and deploy requirements ! – Relational databases – About one hundred models per month – Numerical or categorical – Fast data preparation and – Noisy modeling – Missing values – Fast deployment – Heavily unbalanced distribution Model requirements ! Train data ! – Robust – Hundreds of thousands of instances – Accurate – Tens of thousand of variables – Understandable Deployment ! Business requirement ! – Return of investment for the whole – Tens of millions of instances process

  9. In-house system From raw data to scoring models M odèle Conceptue l de Don nées Adress e M odèl e : MCD PAC_v4 Cercle Rela tionne l Id ad resse <pi> Pa ckage : Code p ostal di s tributio n Id CR <pi> Dia gram me : Tie rs Servi ces Comm une Libé llé cercl e rela tionne l Au teur : clau debe Date : 14/0 6/200 5 Nb hab itants comm une Ve rsion : Départemen t 1 ,n 1,n 1,1 CRU a pour DCR Statut Op érateu r F a p our A CSP Id statu t opé rateur <pi > Date débu t adre s se D Type de fonction d'usag e Libe llé statu t opérateur Date fin ad resse D Id CSP 350 <p i> CRU a pour OCR id typ e FU <pi> Libel lé CSP 350 lib typ FU 0,n Id CSP 23 Ope rateu r 1,1 Libel lé CSP 23 Foyer Id CSP 5 1 ,1 Id opéra teur <pi> Libel lé CSP 5 Lib ellé o pérateur Id fo yer <p i> Date créa tion fo yer Date fin foyer 0 ,n 1,n 0 ,n 1,n T a po ur S Nb pe rsonnes fo yer Fu appa rtient type FU Fon ctio n Usage 1,n PS a pou r FU 1,n Produ it & Service 0,n Id fonction d 'usage <pi> Date d ébut sta tut tiers D Lib éllé fonction usag e Id PS <pi> Date fi n statut tiers D 1,n Com pte Ren du Usage Date fin valid ité du P&S 1 ,1 G compo s é e de PS 0 ,1 1,n Date déb ut va lidité du P&S T a p our F T a pour CSP Id co mpte rendu usage <pi> 1,n Date cré ation du P&S CRU Ench ainem ent 0,1 Date déb ut CRU Li bellé P&S Date dé but a pparte nance foyer D Date fin CRU Date fin appa rtenan ce foye r D Vol ume d escen dant C RU 1,n Type Rel ation Ti ers Role tie rs ds foyer VA1 Vol ume m onta nt CRU Id typ e rela tion <pi 0,n Type transmission 0,n Gam me Da te création typ e de relatio n tiers Offre comme rcia le L ibellé typ e rela tion tie rs 1 ,1 1,n EDP correspond PS Id offre co mmercial e <p i> Id gam me <pi> 0,n 1,1 1,1 Libell é offre com merciale L ibellé gamm e 1,n Date créatio n offre Date création gamm e 0,n Groupe de CRU CRU conce rne FU Date clôture offre Date fin d e gam me Tiers 0,1 O co mposée de PS Id tiers <pi> Id grou pe de CRU <p i> T a po ur rela tion a vec T 0 ,n Pré nom tiers PP Heritag e offre co mmerciale No m tiers PP 0,n T utilise IT CR U g énéré par EDP 0,n No m ma rital PP 1,n RU a pparti ent à la CCRU C DP p our O Gen re PP 1,1 Da te nai s san ce tiers PP 0,n Da te créatio n tiers 1,n 1,1 Da te clôture tiers Etat Usage 0,n Offre O fait pa rtie OC Offre com posée Da te mo dification tiers EDP a EU 1,n Elé ment D e Parc 0,n Date d ébut rattachem ent offre D 1,n ! Data warehouse (1,1) Type Tie rs Iden tité Tiers Id EU <pi > mois VA6 Id EDP <pi > Id offre <pi> Date fin ratta che ment offre D Id o ffre comp osée <pi> Id id entité tiers <p i> libell é état usage vale ur N10 Date derniè re uti lisation EDP Libe llé offre Lib ellé offre compo s é e Donné es payeur Logi n 0,n Date premi ère utilisation ED P 0,n 0,n 0,n Type iden tité tie rs IT gé nère CRU Inscrip tion fi chie r co ntenti eux T dé tient EDP 1,1 0,n 0,n Nb dossiers recouvrem ent actifs H e ritage tiers 1,1 Nb dossiers réclam ation acti fs Date dé but d étentio n EDP D < 1,n Nb dossiers recouvrem ent T titu laire CT Date fin déte ntion EDP D 1 ,n EDP souscrit ds O Positionn emen t cla s sifi cati on Nb dossiers réclam ation D a te dé but souscriptio n offre D < O po s i tionné e ds C Id p ositionn emen t <p i> Niveau risque cou rant a te fin s D o uscrip tion o ffre D 0 ,n Lib ellé po sitionne ment Niveau risque précédent 1,1 LF co rrespond à EDP 0,1 Coo rdonn ées Tiers T payeur du CF 0 ,n (1,1 ) 0 ,n 0,1 CO hiérarch ie Class i fica tion Offre P d ans O T a pour CR Id coord onnée tiers <p i> Typ e Lign e Facture 0 ,1 Id classification o ffre <pi> P hiérarchie Date création coordo nnée 0 ,n Date déb ut tiers d s classe ri s q ue D Libe llé coordo nnée tiers 1,1 Id type ligne facture <pi> Libe llé classifica tion o ffre Date fin tiers ds classe risque D Co mpte Facturatio n Li bellé type ligne facture 0,n EDP fa cturé sur CF 1,1 Id com pte fa ctu ration <p i> 0 ,n 0,n M édia Date débu t va lidité com pte fa cturation C correspond à M 1,n Id m édia <pi> Date fin validi té compte facturatio n LF a pour TLF Libe llé m édia Classe d e risque Facture 0 ,n Id facture <pi> 1,1 Id classe ris q ue <pi> Date é chéa nce facture 1,1 Li bellé classe ri s q ue F émi s e pour C F Li bellé court cla s se risque Ligne Facture Niveau risque m inimu m 1 ,1 1,n Id ligne de facture <pi> Niveau risque m axim um (1 ,1) Li gne a ffich ée sur fa ctu re LF com pose F M ontan t HT M ontan t TTC – Relational data base Data feeding ! Data mart Customer Services Products – Star schema Call details … ! Feature construction PAC Id customer zip code Nb call/month Nb calls/hour Nb calls/month,weekday,hours,service … – PAC technology – Generates tens of thousands of variables Khiops ! Data preparation and modeling scoring – Khiops technology model

  10. Design of the challenge ! Orange business objective – Benchmark the in-house system against state of the art techniques ! Data – Data store Not an option – – Data warehouse – Confidentiality and scalability issues Relational data requires domain knowledge and specialized skills – – Tabular format Standard format for the data mining community – Domain knowledge incorporated using feature construction (PAC) – Easy anonymization – ! Tasks – Three representative marketing tasks ! Requirements – Fast data preparation and modeling (fully automatic) – Accurate – Fast deployment – Robust – Understandable

Recommend


More recommend