Machine Learning: Der KDD-Prozess Knowledge Discovery in Databases - PowerPoint PPT Presentation

Machine Learning: Der KDD-Prozess Knowledge Discovery in Databases Machine Learning

Data-Mining Aufgaben • Aufgabe • Von Daten zum Wissen • Wissensextraktion durch • „ We are drowing in automatisches Erkennen von information, but starving for Mustern in Daten knowledge “ John Naisbett • Keine spezifische Hypothese darüber, welche Muster • Randbedingungen vorliegen sollten • Sehr große Datenbanken mit vielen Fehlern: Bioinformatik • Gesucht werden Muster, • Viele Muster und Trends, die in Bezug auf das bleiben unentdeckt: Domänenwissen Marktanalyse interpretierbar sind Knowledge Discovery in Databases Machine Learning

Definitionsversuch • Automatische Extraktion • Verwendet Methoden der ,, Data Mining is the Statistik und andere Verfahren automated extraction of hidden predictive information from (large) • Versteckte Information databases ‘‘ • Erst das Verständnis von Zusammenhängen ermöglicht Entscheidungen Thearling, Introduction to Data Mining • Prädiktive Information • Prospektive statt retrospektive Analyse Knowledge Discovery in Databases Machine Learning

Data Mining • Data Mining – Historie • Ursprünglich ein Ausdruck, den Statistiker für das „ Überinterpretieren von Daten “ zu falschen Schlussfolgerungen verwendet haben. • Heute verwendet mit der Bedeutung „ Entdecken von sinnvollen Datenmengen “ Knowledge Discovery in Databases Machine Learning

Data Mining • Data Mining – Historie • Der Parapsychologe David Rhine untersuchte • Ursprünglich ein Ausdruck, extrasensorische den Statistiker für das Wahrnehmung (ESP) „ Überinterpretieren von Daten “ • Studenten sollten 10 Karten zu falschen raten. 1/1000 der Studenten Schlussfolgerungen riet alle richtig. verwendet haben. Beim erneuten Testen waren • diese nicht besser als der Durchschnitt • Heute verwendet mit der Bedeutung „ Entdecken von • Schlussfolgerung: „telling people to have ESP causes sinnvollen Datenmengen “ them to lose it!“ Knowledge Discovery in Databases Machine Learning

Knowledge Discovery in Databases Machine Learning

Knowledge Discovery Fayyad (1996) Knowledge Discovery in Databases Machine Learning

Beispiel-Anwendungen • • Marktanalyse Abgrenzung • Welcher Kunde kauft was? • data warehousing • Welchen Kunden direkt • ad hoc reporting ansprechen? • Datenvisualisierung • Betrugsentdeckung • Software-Agenten Wird die Kreditkarte • missbräuchlich verwendet? • Weist die Stromrechnung auf Manipulation hin? • Bioinformatik • Gibt es Hinweise auf die Qualität der Daten? Knowledge Discovery in Databases Machine Learning

Individualisierte Start-Seiten Knowledge Discovery in Databases Machine Learning

1. 1 Motivation riesige Datenmengen werden automatisch gesammelt Bei welchen Telefonkunden Zu welcher Klasse besteht der Verdacht eines gehört dieser Stern? Betrugs? Welche Assoziationen bestehen zwischen den in einem Supermarkt gekauften Waren? solche Analysen lassen sich nicht mehr manuell durchführen Knowledge Discovery in Databases Machine Learning

1.1 Definition KDD [Fayyad, Piatetsky-Shapiro & Smyth 96] Knowledge Discovery in Databases ( KDD ) ist der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken, das • gültig • bisher unbekannt • und potentiell nützlich ist. Bemerkungen • (semi)-automatisch : im Unterschied zu manueller Analyse. Häufig ist trotzdem Interaktion mit dem Benutzer nötig. • gültig : im statistischen Sinn. • bisher unbekannt : bisher nicht explizit, kein „Allgemeinwissen“. • potentiell nützlich : für eine gegebene Anwendung. Knowledge Discovery in Databases Machine Learning

1.1 Abgrenzung KDD • Statistik • modellbasierte Inferenzen • Schwerpunkt auf numerischen Daten [Berthold & Hand 1999] • Maschinelles Lernen • Suchverfahren • Schwerpunkt auf symbolischen Daten • [Mitchell 1997] • Datenbanksysteme • Skalierbarkeit für große Datenmengen • neue Datentypen (z.B. Webdaten) • Integration mit kommerziellen Datenbanksystemen • [Chen, Han & Yu 1996] Knowledge Discovery in Databases Machine Learning

1.1 KDD-Prozeß Knowledge Prozessmodell nach Han Pattern Evaluation Data Mining Task-relevant Data Selection Data Warehouse Data Cleaning Data Integration Databases Data Trans- Vorverar- Fokussieren Evaluation formation Mining beitung Muster Wissen Datenbank Knowledge Discovery in Databases Machine Learning

1.1 Fokussieren Verständnis der gegebenen Anwendung • z.B. Tarifgestaltung in der Telekommmunikations-Branche Definition des Ziels des KDD • z.B. Segmentation der Kunden Beschaffung der Daten • z.B. aus operationaler DB zur Abrechnung Klärung der Verwaltung der Daten Bsp.-Anwendung • File System oder DBS? Selektion der relevanten Daten • z.B. 100 000 ausgewählte Kunden mit allen Anrufen in 2011 Knowledge Discovery in Databases Machine Learning

1.1 Vorverarbeitung Integration von Daten aus unterschiedlichen Quellen • einfache Übersetzungen von Attributnamen (z.B. KNr --> KundenSchl) Nutzen von Anwendungswissen um ähnliche Daten zusammenzufassen • (z.B. regionale Zuordnung von Postleitzahlen) Konsistenzprüfung • Test anwendungsspezifischer Konsistenzbedingungen • Bereinigung von Inkonsistenzen Vervollständigung • Ersetzen von unbekannten Attributwerten durch Defaults • Verteilung der Attributwerte soll i.A. erhalten bleiben! Vorverarbeitung ist häufig einer der aufwendigsten KDD-Schritte Knowledge Discovery in Databases Machine Learning

1.1 Vorverarbeitung • Data Warehouse [Chaudhuri & Dayal 1997] • dauerhafte • integrierte Sammlung von Daten • aus unterschiedlichen Quellen • zum Zweck der Analyse bzw. Entscheidungsunterstützung Report Data Warehouse Generator Operationelle DB Integrieren Laden Bedient OLAP Aktualisieren Data Mining Knowledge Discovery in Databases Machine Learning

1.1 Transformation • Diskretisierung numerischer Attribute • unabhängig von der Data-Mining-Aufgabe z.B. Aufteilung des Wertebereichs in Intervalle gleicher Länge abhängig von der Data-Mining-Aufgabe • z.B. Aufteilung in Intervalle so, daß der Informationsgewinn in Bezug auf die Klassenzugehörigkeit maximiert wird • Erzeugen abgeleiteter Attribute • durch Aggregation über Mengen von Datensätzen z.B. von einzelnen Anrufen zu „Gesprächsminuten tagsüber, Wochentag, Stadtgespräch“ • durch Verknüpfung mehrerer Attribute z.B. Umsatzänderung = Umsatz 2010 - Umsatz 2009 Knowledge Discovery in Databases Machine Learning

1.1 Transformation • Attribut-Selektion • manuell wenn Anwendungswissen über die Bedeutung der Attribute und über die gegebene Data-Mining-Aufgabe bekannt ist • automatisch Bottom-Up (ausgehend von der leeren Menge jeweils ein Attribut hinzufügen) Top-Down (ausgehend von der Gesamtmenge der Attribute jeweils ein Attribut entfernen) z.B. so, dass die Diskriminierung der Klassen optimiert wird zu viele Attribute führen zu Ineffizienz und evtl. Ineffektivität des Data Mining. manche Transformationen können durch OLAP-Systeme realisiert werden. Knowledge Discovery in Databases Machine Learning

1.1 Data Mining • Definition [Fayyad, Piatetsky-Shapiro, Smyth 96] • Data Mining ist die Anwendung effizienter Algorithmen, die die in einer Datenbank enthaltenen Muster liefern. • Data-Mining-Aufgaben b b • • a b b • • • a a • • • a b • • b • a • a • Clustering Klassifikation • • • • • • • A und B --> C • • • • • Assoziationsregeln Generalisierung andere Aufgaben: Regression, Entdecken von Ausreißern . . . Knowledge Discovery in Databases Machine Learning

1.1 Data Mining Anwendungen Clustering Customer Segmentation, Klassifikation Bewertung der Kreditwürdigkeit Beobachtungen Assoziationsregeln, Reorganisation eines Supermarkts Generalisierung Beschreibung von Clustern, Kundengruppenanalyse Knowledge Discovery in Databases Machine Learning

1.1 Evaluation Ablauf Präsentation der gefundenen Muster häufig durch entsprechende Visualisierungen. Bewertung der Muster durch den Benutzer. Bei schlechter Bewertung erneutes Data Mining mit: • anderen Parametern, • anderem Verfahren, • anderen Daten. Bei guter Bewertung: • Integration des gefundenen Wissens in die Wissensbasis, • Nutzung des neuen Wissens für zukünftige KDD-Prozesse. Knowledge Discovery in Databases Machine Learning

1.1 Evaluation Bewertung der gefundenen Muster Vorhersagekraft der Muster Verwendete Daten sind Stichprobe aus der Grundgesamtheit aller • Daten. • Wie gut lassen sich die in diesen „Trainingsdaten“ gefundenen Muster auf zukünftige Daten verallgemeinern? • Vorhersagekraft wächst mit Größe und Repräsentativität der Stichprobe. Interessantheit der Muster • Muster schon bekannt? • Muster überraschend? • Muster für viele Fälle anwendbar? Knowledge Discovery in Databases Machine Learning

Knowledge Discovery Fayyad (1996) Knowledge Discovery in Databases Machine Learning

Knowledge Discovery Knowledge Discovery in Databases Machine Learning

Machine Learning: Der KDD-Prozess Knowledge Discovery in Databases - PowerPoint PPT Presentation

Machine Learning: Der KDD-Prozess Knowledge Discovery in Databases Machine Learning Data-Mining Aufgaben Aufgabe Von Daten zum Wissen Wissensextraktion durch We are drowing in automatisches Erkennen von information,

KDD Cup 2009 Fast Scoring on a Large Database Presentation of the Results at the KDD Cup

Introduction to Machine Learning Introduction to Machine Learning Introduction to Machine

Quantum Machine Learning Adam Brown, HEP-AI Quantum Computing Machine Learning Quantum

MICROSOFT AZURE MACHINE LEARNING Oscar Naim Microsoft Microsoft Azure Machine Learning What is

MACHINE LEARNING Overview 1 1 APPLIED MACHINE LEARNING 2011-2012 APPLIED MACHINE LEARNING

MACHINE LEARNING kernels 1 MACHINE LEARNING 2012 MACHINE LEARNING Kernels: Intuition How

FP-growth Mining of Frequent Itemsets + Constraint-based Mining Francesco Bonchi e-mail:

Analisi dei dati ed estrazione di conoscenza Mastering Data Mining Fosca Giannotti Pisa KDD

A Machine Learning Approach A Machine Learning Approach A Machine Learning Approach A Machine

Welcome to the Machine Learning Toolbox! Machine Learning Toolbox Supervised learning caret

Introduction to Machine Learning COMPSCI 371D Machine Learning COMPSCI 371D Machine

INTRODUCTION TO MACHINE LEARNING Joseph C. Osborn CS 51A Spring 2020 Machine Learning is

Human and Machine Learning Tom Mitchell Machine Learning Department Carnegie Mellon University

Machine Learning Algorithms for Classification Machine Learning Algorithms for Classification

Machine Learning - Intro Aarti Singh Machine Learning 10-701/15-781 Sept 8, 2010 You tell me

MACHINE LEARNING Kernel Canonical Correlation Analysis 1 ADVANCED MACHINE LEARNING ADVANCED

Customer Centric Software Project Management Tomas Nystrm 21.4.2005 Accenture Company

Apprenticeship funding (frameworks and standards) 10:30 start 15:30 finish Nick Linford

On Highly Efficient Methods for Pricing Options with and without Early Exercise Cornelis W.

Funding of High Tech Start-Ups Telecom Forum 2003 Helsinki University of Technology, 14 October

The Local Amsterdam Cultural Heritage Linked Open Data Network Lukas Koster ( Library of the

Syntactic Translation Lattices Felix Stahlberg, Adria de Gispert, Eva Hasler, and Bill Byrne

Syntactically Guided Neural Machine Translation Felix Stahlberg, Eva Hasler, Aurelien Waite, and

Unsupervised Morpheme Analysis Competition 3: Statistical Machine Translation Mikko Kurimo, Sami

Sambuz

Useful Links

Newsletter

Mail Us