A travs de una implementacin Li Lic. c. Dieg ego o Kr Krauthame - PowerPoint PPT Presentation

Big data A través de una implementación Li Lic. c. Dieg ego o Kr Krauthame uthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana – Facultad de T ecnología Informática Buenos Aires. Argentina Email: diego.Krauthamer@uai.edu.ar

Agenda  ¿Cómo llegamos a Big Data?  ¿Qué es Big Data?  Hadoop  ¿Qué es Hadoop?  HDFS  MapReduce  Ecosistema Hadoop.  Hive  Pig  Hbase  Flume  Big SQL  Horton Works Data Platform  Demostración  Cierre 2

¿Cómo llegamos a Big Data/1?  Bases de Datos Transaccionales (OLTP) ERP CRM Base de datos (OLTP) SCM 3

¿Cómo llegamos a Big Data/2?  Datawarehousing (Bases de Datos OLAP) Datawarehouse (Base de Datos OLAP) 4

¿Cómo llegamos a Big Data/3?  ¿Cuánta información y de que tipo se genera en la Web en un mínuto? 5

¿Qué es Big Data?  “Toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales”. 6

Las tres “v” de Big data Los proyectos de Big Data, involucran desde terabytes hasta petabytes de información. La tecnología Big Data fue diseñada para trabajar con diversos y distintos orígenes de datos (Bases de Datos Relacionales, Bases de Datos NoSQL, archivos planos, planillas de cálculo, etc. Se refiere a “la velocidad con la que la información se carga, se analiza, y se procesa”. 7

¿Qué es Hadoop?  “Es un sistema de código abierto que se utiliza para almacenar, procesar, y analizar grande volúmenes de datos, aislando a los desarrolladores de todas las dificultades presentes en la programación paralela”  Fue creado por Doug Coutting mientras trabaja para Yahoo.  Se desarrolló con el objetivo del procesamiento de búsquedas e indexaciones de las millones de páginas que constituyen la Web.  El logo y el nombre”Hadoop” fue inspirado en uno de los juguetes del hijo de Doug Coutting.  Se implementa en distintas “distribuciones” (Apache, Cloudera, Hortonworks, etc.) 8

HDFS (Hadoop Distributed File System)  Es un sistema de archivos diseñado para almacenar archivos de gran tamaño, con acceso a datos vía streaming, que se ejecuta en hardware existente .  El funcionamiento básico de HDFS es procesar en forma paralela un archivo, dividiéndolo en bloques (blocks), y ejecutándolo en varios equipos (nodos). 9

¿Que és MapReduce? 1/2  “Es un modelo de programación para el procesamiento de datos”.  Aprovecha las capacidades de la “programación en paralelo”, ideales para el procesamiento de “ Petabytes de información”.  Hadoop ejecuta programas codificados en distintos lenguajes de programación como Java, Python, C++, o C#.  En Hadoop existen dos programas “ Map ” y “Reduce” que contienen las “consultas” o “ querys ” a los datos y se ejecutan en una unidad de trabajo que se denomina “ Mapreduce Job”. 10

¿Cómo funciona MapReduce? 2/2  Problema: Determinar la frecuencia de una palabra  A partir de un archivo de texto, se necesita extraer cada palabra y contar las ocurrencias de cada una de ellas. 11

Ecosistema Hadoop 12

Hive  Hive es un “ Datawarehouse Distribuido”.  Fue creado por el equipo de desarrollo de Facebook y surgió de la necesidad de la red social de administrar y analizar los miles de millos de datos que genera diariamente.  Permite realizar la explotación de los datos a través de un lenguaje de consulta basado en SQL denominado “ HiveQL ” o “ Hive Query Language ”  Posibilita analistas que tienen el “ Know How ” en Lenguaje SQL ejecutar consultas de datos almacenados en HDFS.  Hive no debe ser utilizado como Base de Datos OLTP .  Si Hive no existiera “todos” deberíamos ser desarrolladores…. 13

Pig  Es una plataforma para el análisis de grandes conjuntos de datos que consta de un lenguaje de alto nivel para expresar programas de análisis, junto con la infraestructura para la evaluación de los mismos.  Fue creado por Yahoo en 2006 y a partir del 2007 fue adoptado por la apache software foundation.  Es utilizado por empresas como Yahoo, Linkedin y Twitter.  Pig Latin es un lenguaje de flujos de datos en paralelo, por este motivo es ideal para analistas de datos. Caso contrario todos deberíamos ser desarrolladores para escribir programas “ Map ” y “Reduce”  La filosofía detrás de Pig es:  Pigs eat anything : Al igual que cualquier cerdo que come cualquier cosa, Pig puede operar con cualquier tipo de dato, sea éste estructurado, semi-estructurado o no estructurado.  Pigs live anywhere: A pesar de que Pig fue inicialmente implementado en Hadoop, no está orientado solamente a esta plataforma. Su propósito es ser un lenguaje de procesamiento paralelo  Pigs are domestic animals : Pig está diseñado para ser controlado y modificado fácilmente por sus usuarios. Pig puede enriquecerse a través de funciones definidas por el usuario (UDF). Con el uso de UDFs se puede extender Pig para un procesamiento personalizado.  Pigs Fly : procesa datos rápidamente. La intención es mejorar el rendimiento y no las características, lo que evita que demasiada funcionalidad le impida “volar”. 14

 Es una base de datos de código abierto, NoSQL y distribuida que ha sido desarrollada como un subproyecto de Hadoop y que usa HDFS como su sistema de almacenamiento de archivos.  Caracteristicas:  Orientado a columnas. la información se almacena en celdas agrupadas en columnas que a su vez se agrupan en familias de columnas, pudiendo ser las columnas creadas en tiempo de ejecución. Además los registros se identifican mediante una clave que relaciona una o varias columnas, dando lugar a una representación de los datos en forma de mapas. Las columnas permanecen siempre ordenadas.  Distribuida. Los datos se particionan y fragmentan sobre múltiples servidores.  Escalable. Se pueden añadir nuevos Region Servers que son añadidos al cluster de manera automática.  Las tablas de HBase se pueden utilizar como input o como output de jobs MapReduce. 15

Flume  Es una solución Java distribuida y de alta disponibilidad para recolectar, agregar y mover grandes cantidades de datos desde diferentes orígenes de datos a un data store centralizado de manera eficiente.  En otras palabras permite “subir datos” al HDFS.  Su Arquitectura se basa en flujos de streaming de datos, ofrece mecanismos para asegurar la entrega y mecanismos de recuperación.  Ofrece una gestión centralizada. 16

Big SQL  Es una interface SQL desarrollada por IBM que facilita a los desarrolladores SQL la explotación de datos utilizando sentencias de Lenguaje SQL.  Si bien utiliza el lenguaje SQL standard , en ciertos casos se require el uso de extensiones desarrolladas por IBM.  Principal desventaja: no es una tecnología standard y en consecuencia funciona solamente sobre la plataforma Big Data de IBM “ Infosphere Biginsights ”. 17

Hortonworks Data Platform(HDP)  Es una de las “distribuciones” de Hadoop existentes en el mercado.  HDInsight de Microsoft esta basada en HortonWorks.  Hortonworks sandbox es una distribución de “ Hadoop virtualizada ” que permite testear el producto en forma gratuita en una máquina virtual de “1 nodo” Hadoop. Arquitectura – Hortonworks Data Platform 18

Referencias & Links Hadoop the Definitive Guide • White, T. O ’ Reilly /Yahoo Press (2011) Big Data Analytics Infrastructure for Dummies • Schoenborn, B. Wiley (2014) Introducing Microsoft HDInsight • Chauhan, A., Fontama, V., Hart M, M.S . Microsoft Press (2014) Hortonworks Data Platform • http://hortonworks.com/hdp/downloads/ Tutorial de Hive • https://cwiki.apache.org/confluence/display/Hive/Home IBM BIG SQL • http://www.ibm.com/developerworks/library/bd-bigsql/ 19

A travs de una implementacin Li Lic. c. Dieg ego o Kr Krauthame - PowerPoint PPT Presentation

Big data A travs de una implementacin Li Lic. c. Dieg ego o Kr Krauthame uthamer Profesor Adjunto Interino del rea Base de Datos Universidad Abierta Interamericana Facultad de T ecnologa Informtica Buenos Aires. Argentina

SMART LOGISTICS Una logstica nica. Una nica logstica. ABOUT US Smart Logistics SA is a

Fattori Causali di una Patologia Varianza Totale di una Malattia Multifattoriale Genetica

Dispositivi medici software una sfida globale: una nuova era dei dispositivi medici La sicurezza

Computer S Science Tou our t to S Silicon on V Valley, CA inf nformation n meeting ng 6

Th The t e trav avel o of hea eat i in solids Kamr mran Behni nia Ec Ecole Suprieure

CS 225 Data Structures No Novem ember er 15 Gr Graph aph Trav aversal als G G Carl

Preparing the CMC section of IMPD for biological/ biotechnology derived substances Dr. Una Moore

ALL Isabella Armon Arveen Una Hannah INTRO- MOVIE Intro of Ourselves: What is YOUR perspective on

{ narrating it. Either as a first person, second person or third person. By: Una Bach Billy

PRC PROCESS (Best Practice) UNA October 18, 2018 United Nurses of Alberta PRC Professional

PROGRAMA CONFERENCIA-COLOQUIO EL REAL COLEGIO COMPLUTENSE Y LA COLABORACIN CON HARVARD / EL

WHY THE FOCUS ON BULLYING? School wide f focus and nd stance on n una unacceptable behaviour.

REOVIRUS Neira- Una Hrapovi Kanita abanovi Contents: Introduction to Reovirus

2020 Open Enrollment Active Employees Kenny Teruya Una Cuffy Sr. Benefits Administrator Manager

What is Global Classrooms? http://www.youtube.com/watch?v=UTKdsb wv8pI A UNA-USA project

3Q15 Financial Results November 30, 2015 El Reconocimiento IR otorgado por la Bolsa de Valores de

Tips of malloc & free Making your own malloc library for troubleshooting 2013.2.22 Embedded

Mobile Application Security Testing ASSES SESSMENT NT & CODE REVIEW EW st 2014 Sept. t.

SQL with C Test Program 1: Select a row with one column #include <stdio.h> #include

The motion of emptiness Dynamics and evolution of cosmic voids Laura Ceccarelli IATE,

UML Diagrams Tuesday, October 30 1 Announcements Sprint 3 overview 2 Software Diagramming

MIKE COLLINS MIKE COLLINS USAT Certified Triathlon Coach 2002 ITU Aquathlon World Champion

B 1.7384 RM Mini Slide with optional position monitoring double acting, max. operating pressure

In Infrastructure for SCRF Cavity Development at RRCAT Satish Chandra Joshi Raja Ramanna Centre

Sambuz

Useful Links

Newsletter

Mail Us

A travs de una implementacin Li Lic. c. Dieg ego o Kr Krauthame - PowerPoint PPT Presentation

Big data A travs de una implementacin Li Lic. c. Dieg ego o Kr Krauthame uthamer Profesor Adjunto Interino del rea Base de Datos Universidad Abierta Interamericana Facultad de T ecnologa Informtica Buenos Aires. Argentina

SMART LOGISTICS Una logstica nica. Una nica logstica. ABOUT US Smart Logistics SA is a

Fattori Causali di una Patologia Varianza Totale di una Malattia Multifattoriale Genetica

Dispositivi medici software una sfida globale: una nuova era dei dispositivi medici La sicurezza

Computer S Science Tou our t to S Silicon on V Valley, CA inf nformation n meeting ng 6

Th The t e trav avel o of hea eat i in solids Kamr mran Behni nia Ec Ecole Suprieure

CS 225 Data Structures No Novem ember er 15 Gr Graph aph Trav aversal als G G Carl

Preparing the CMC section of IMPD for biological/ biotechnology derived substances Dr. Una Moore

ALL Isabella Armon Arveen Una Hannah INTRO- MOVIE Intro of Ourselves: What is YOUR perspective on

{ narrating it. Either as a first person, second person or third person. By: Una Bach Billy

PRC PROCESS (Best Practice) UNA October 18, 2018 United Nurses of Alberta PRC Professional

PROGRAMA CONFERENCIA-COLOQUIO EL REAL COLEGIO COMPLUTENSE Y LA COLABORACIN CON HARVARD / EL

WHY THE FOCUS ON BULLYING? School wide f focus and nd stance on n una unacceptable behaviour.

REOVIRUS Neira- Una Hrapovi Kanita abanovi Contents: Introduction to Reovirus

2020 Open Enrollment Active Employees Kenny Teruya Una Cuffy Sr. Benefits Administrator Manager

What is Global Classrooms? http://www.youtube.com/watch?v=UTKdsb wv8pI A UNA-USA project

3Q15 Financial Results November 30, 2015 El Reconocimiento IR otorgado por la Bolsa de Valores de

Tips of malloc &amp; free Making your own malloc library for troubleshooting 2013.2.22 Embedded

Mobile Application Security Testing ASSES SESSMENT NT &amp; CODE REVIEW EW st 2014 Sept. t.

SQL with C Test Program 1: Select a row with one column #include &lt;stdio.h&gt; #include

The motion of emptiness Dynamics and evolution of cosmic voids Laura Ceccarelli IATE,

UML Diagrams Tuesday, October 30 1 Announcements Sprint 3 overview 2 Software Diagramming

MIKE COLLINS MIKE COLLINS USAT Certified Triathlon Coach 2002 ITU Aquathlon World Champion

B 1.7384 RM Mini Slide with optional position monitoring double acting, max. operating pressure

In Infrastructure for SCRF Cavity Development at RRCAT Satish Chandra Joshi Raja Ramanna Centre

Sambuz

Useful Links

Newsletter

Mail Us

Tips of malloc & free Making your own malloc library for troubleshooting 2013.2.22 Embedded

Mobile Application Security Testing ASSES SESSMENT NT & CODE REVIEW EW st 2014 Sept. t.

SQL with C Test Program 1: Select a row with one column #include <stdio.h> #include