Datenanalyse mit Hadoop Quelle: Apache Software Foundation - PowerPoint PPT Presentation

Gideon Zenz – Frankfurter Entwicklertag 2014 19.02.2014 Datenanalyse mit Hadoop Quelle: Apache Software Foundation

Datenanalyse mit Hadoop – Gideon Zenz – Frankfurter Entwicklertag 2014 Agenda Hadoop – Intro Map/Reduce – Parallelisierung des Datenflows Exkurs: M/R mit Java, Python, Pig Aufbereitung der Daten, Auswahl der Algorithmen 2

Datenanalyse mit Hadoop – Gideon Zenz – Frankfurter Entwicklertag 2014 Zielstellung von Hadoop  Verarbeitung von großen Datenmengen (hunderte Terabytes)  System soll günstig aufzubauen sein  Viele billige Rechner  Diese sind nicht zuverlässig  Redundanz  Effizienz und Zuverlässigkeit: Generische Infrastruktur Hadoop ist:  Open Source Apache Projekt  Kern: – Map/Reduce als Verteilungsalgorithmus (mehr mit YARN und Hadoop 2.0) – Hadoop Distributed Filesystem zur Datenverteilung 3

Datenanalyse mit Hadoop – Gideon Zenz – Frankfurter Entwicklertag 2014 Standardhardware statt Großrechner  Architektur typischerweise auf 2 Ebenen  Datenlokalität wird ausgenutzt  Typischerweise 3 Replikate (einstellbar) in 64 MB Blöcken, append-only  Optimiert für Streaming großer Dateien (z.B. Web Crawl) Source: Owen O’Malley, Yahoo ! 4

Datenanalyse mit Hadoop – Gideon Zenz – Frankfurter Entwicklertag 2014 Map/Reduce  Ursprünglich von Google Inc. entwickelt  Programmierungsmodell für effizientes verteiltes Berechnen  Batchbetrieb für lineare Bearbeitung großer Datenmengen, ähnlich Unix Pipeline: – cat input | grep abc | sort | uniq -c | cat > output – Input | Map | Shuffle & Sort | Reduce | Output  Effizient für: – Erstanalyse großer Datenmengen – Parallele, gleichförmige Verarbeitung  Beispiel: – Clicklog Analyse – Indizierung von Webseiten – Topic/Entity/Sentiment Analysis – Data mining – … Source: Owen O’Malley, Yahoo!, 6

Datenanalyse mit Hadoop – Gideon Zenz – Frankfurter Entwicklertag 2014 Map/Reduce Dataflow Input Dateien Map Mix&Sort Reduce Output Kleine Elefanten ganz groß Mapper Daten, 2 Elefanten, 2 ganz, 1 groß, 1 Reducer Große, 2 kleine, 1 kleinen, 1 Große Daten schnell Skew Verarbeitet Mapper schnell, 1 verarbeitet, 1 Reducer von, 1 Große Daten von kleinen Elefanten Mapper  Inputdateien werden auf Mapper verteilt  Mapperoutput wird (hashbasiert) auf Reducer verteilt – im Beispiel am halben Alphabet  Diese aggregieren Daten und schreiben Ergebnisse in Outputdateien 7

Datenanalyse mit Hadoop – Gideon Zenz – Frankfurter Entwicklertag 2014 Word Count in Python import dumbo def mapper(key,value): for word in value.split(): yield word,1 def reducer(key,values): yield key,sum(values) if __name__ == "__main__": dumbo.run(mapper,reducer) Source: Owen O’Malley , Yahoo! 9

Datenanalyse mit Hadoop – Gideon Zenz – Frankfurter Entwicklertag 2014 Dataflow programmieren mit Apache PIG Szenario:  Datei 1: Userdaten Load Users Load Pages  Datei 2: Webseiten Filter by age Ziel: Top 5 Webseiten von Benutzern zwischen 18-25 Jahren Join on name Group on url Count clicks Order by clicks Take top 5 Source: Alan F. Gates, Yahoo! 10

Datenanalyse mit Hadoop Quelle: Apache Software Foundation - PowerPoint PPT Presentation

Gideon Zenz Frankfurter Entwicklertag 2014 19.02.2014 Datenanalyse mit Hadoop Quelle: Apache Software Foundation Datenanalyse mit Hadoop Gideon Zenz Frankfurter Entwicklertag 2014 Agenda Hadoop Intro Map/Reduce

SAS Data Loader for Hadoop Agenda Intro What is Hadoop? What do I get from Hadoop?

Hadoop on HPC: Integrating Hadoop and Pilot-based Dynamic Resource Management Andre Luckow,

COMP9313: Big Data Management Hadoop and HDFS Hadoop Apache Hadoop is an open-source

MIT MIT S EMINAR ON S EMINAR ON MIT ESD.69 EMINAR ON EMINAR ON MIT HST.926 H EALTH EALTH C ARE

BY SRIJHA REDDY GANGIDI What is Hadoop ? Evolution of Hadoop Created by dough cutting, a part

Spark and Hadoop at Yahoo: Brought to you by YARN Andy Feng Yahoo! Hadoop (afeng@yahoo-inc.com)

HDFS Under the Hood Sanjay Radia Sradia@yahoo-inc.com Grid Computing, Hadoop Yahoo Inc.

Apache Hadoop 3.x State of The Union and Upgrade Guidance Wei-Chiu Chuang Wangda Tan

Hadoop Jrg Mllenkamp Principal Field Technologist Sun Microsystems Agenda Introduction

Big Data with R and Hadoop Jamie F Olson June 11, 2015 ; R and Hadoop Review various tools

Working With Hadoop Mostly based on Tom Whites book Hadoop: Now that we covered the

Extension: Combiner Functions import org.apache.hadoop.io.IntWritable; import

Marcel Dettling Institute fr Datenanalyse und Prozessdesign Zrcher Hochschule fr Angewandte

Marcel Dettling Institute fr Datenanalyse und Prozessdesign Zrcher Hochschule fr Angewandte

Justin Solomon Sebastian Claici MIT MIT Justin Solomon Sebastian Claici MIT MIT Client

Fault Tolerance, Replication, and Consistency 1 Motivation: Hadoop Cluster 2 Motivation:

Transport Performance Metrics MIB draft-ietf-rmonmib-tpm-mib-06.txt Robert Cole, Russell Dietz

Many-Core Scheduling of Data Parallel Applications using SMT Solvers Pranav Tendulkar Peter

Parallelization and Parallelization and Proling Proling Programming for Statistical

Quickest Quickest Exam 1 Extra Credit: Exam 1 Extra Credit: either either show up and watch

CS 101: Computer Programming and Utilization Puru with CS101 TAs and Staff Course webpage:

CSCI 5832 Natural Language Processing Lecture 1 Jim Martin 1/23/07 CSCI 5832 Spring 2007

Confidence inter v als P R AC TIC IN G STATISTIC S IN TE R VIE W QU E STION S IN P YTH ON Conor

Status Report - Light Charged Higgs t t ( [had] b )( l b ) Thies Ehrich, Susanne

Sambuz

Useful Links

Newsletter

Mail Us