uma introdu c ao a minera c ao de informa c oes na era do
play

Uma Introdu c ao ` a Minera c ao de Informa c oes na era do - PowerPoint PPT Presentation

Uma Introdu c ao ` a Minera c ao de Informa c oes na era do Big Data Fabr cio J. Barth VAGAS Tecnologia e Faculdades BandTec Setembro de 2012 Palestrante Fabr cio J. Barth . Formado em Ci encia da Computa


  1. Uma Introdu¸ c˜ ao ` a Minera¸ c˜ ao de Informa¸ c˜ oes na era do Big Data Fabr´ ıcio J. Barth VAGAS Tecnologia e Faculdades BandTec Setembro de 2012

  2. Palestrante • Fabr´ ıcio J. Barth . Formado em Ciˆ encia da Computa¸ c˜ ao pela FURB . Mestrado e Doutorado em Engenharia da Computa¸ c˜ ao pela USP. • Recupera¸ c˜ ao e minera¸ c˜ ao de informa¸ c˜ oes para dom´ ınios de investiga¸ c˜ ao; Identifica¸ c˜ ao de temas emergentes e especialistas em bases de patentes e artigos; Desenvolvimento e gest˜ ao de uma plataforma de busca georeferenciada (www.apontador.com.br). • Data Scientist na VAGAS Tecnologia (www.vagas.com.br). Professor da Faculdade BandTec (www.bandtec.com.br). Uma Introdu¸ c˜ ao ` a Minera¸ c˜ ao de Informa¸ c˜ oes na era do Big Data — Palestrante 2

  3. Objetivo Apresentar a importˆ ancia do tema, os conceitos relacionados e alguns exemplos de aplica¸ c˜ oes. Uma Introdu¸ c˜ ao ` a Minera¸ c˜ ao de Informa¸ c˜ oes na era do Big Data — Objetivo 3

  4. Sum´ ario • Importˆ ancia do Tema • Manipulando dados estruturados • Manipulando dados n˜ ao-estruturados (textos) ⋆ Agrupamento ⋆ Classifica¸ c˜ ao • Web Data Mining • Considera¸ c˜ oes Finais • Referˆ encias Uma Introdu¸ c˜ ao ` a Minera¸ c˜ ao de Informa¸ c˜ oes na era do Big Data — Sum´ ario 4

  5. Importˆ ancia do Tema 5

  6. Problema http://investingcaffeine.com/2010/01/07/tmi-the-age-of-information-overload/ Importˆ ancia do Tema — Problema 6

  7. Alguns dados... Relação Horário x Dia x Quantidade de Notícias Produzidas 500 450 500 400 350 400 300 250 Notícias 300 200 150 200 100 100 50 0 0 0 10 20 30 40 50 60 70 80 90 0 2 4 6 8 10 12 14 16 18 20 22 Dia Horário Quantidade de not´ ıcias publicadas na Web por apenas seis ve´ ıculos de not´ ıcias ( D 0 = 17/07/2007) Importˆ ancia do Tema — Alguns dados... 7

  8. Mais dados... Notícias publicadas na Internet 160000 Estadão Folha G1 140000 Globo Online Terra Último Segundo Total 120000 Quantidade (Notícias) 100000 80000 60000 40000 20000 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Tempo (Dias) D 0 = 17/07/2007 Importˆ ancia do Tema — Mais dados... 8

  9. Big Data “We collect an astonishing amount of digital information... ...we’ve long since surpassed our ability to store and process it all. Big data is here, and it’s causing big problems...” [1] Importˆ ancia do Tema — Big Data 9

  10. Mais n´ umeros • A380: Heathrow → JFK: 640 TBs de log • Twitter: 12+ TBs of tweet every day • Facebook: 25+ TBs of log data every day • Sistemas baseados em RFID • Smartphones com GPS, aceler´ ometro, ... http://www.ibmbigdatahub.com/ Mitchell. Mining our reality. Science. 2009 Importˆ ancia do Tema — Mais n´ umeros 10

  11. Por que minerar informa¸ c˜ oes? • Explicitar conhecimento m´ edico a partir de registros m´ edicos. • Identificar comportamento anˆ omalo (i.e., fraudes, falhas) • Sumarizar tendˆ encias de publica¸ c˜ oes de artigos e patentes sobre um determinado tema. • Sumarizar e filtrar not´ ıcias relevantes. Importˆ ancia do Tema — Por que minerar informa¸ c˜ oes? 11

  12. • Sumarizar a opini˜ ao expressa na Web sobre a sua empresa. • Identificar padr˜ oes de navega¸ c˜ ao em sites. • Identificar conte´ udo impr´ oprio em sites. • Recomenda¸ c˜ ao de livros, filmes, restaurantes e empregos . Importˆ ancia do Tema — Por que minerar informa¸ c˜ oes? 12

  13. Explicitar conhecimento m´ edico a partir de registros m´ edicos 13

  14. Diagn´ ostico para o uso de lentes de contato O setor de oftalmologia de um hospital da cidade de S˜ ao Paulo possui, no seu banco de dados, um hist´ orico de pacientes que procuraram o hospital queixando-se de problemas na vis˜ ao. A conduta, em alguns casos, realizada pelo corpo cl´ ınico de oftalmologistas do hospital ´ e indicar o uso de lentes ao paciente. Problema: Extrair do banco de dados do hospital uma hip´ otese que explica que paciente deve usar ou n˜ ao lente de contatos. Explicitar conhecimento m´ edico a partir de registros m´ edicos — Diagn´ ostico para o uso de lentes de contato 14

  15. Banco de dados do ambiente de produ¸ c˜ ao Explicitar conhecimento m´ edico a partir de registros m´ edicos — Banco de dados do ambiente de produ¸ c˜ ao 15

  16. Por onde come¸ car? 16

  17. Responder as seguintes perguntas: • Que objetos/atributos s˜ ao relevantes para a cria¸ c˜ ao da hip´ otese? • Como represent´ a-los? • Que linguagem de representa¸ c˜ ao de conhecimento deve-se utilizar para representar a hip´ otese? • Que algoritmo utilizar para gerar a hip´ otese? Por onde come¸ car? — Responder as seguintes perguntas: 17

  18. • Que objetos s˜ ao relevantes? ⋆ Depois de um estudo detalhado do problema com especialistas da ´ area... ⋆ Idade do paciente. ⋆ Se o paciente tem ou n˜ ao miopia . ⋆ Se o paciente tem ou n˜ ao astigmatismo . ⋆ Qual ´ e a taxa de lacrimejamento dos olhos do paciente. • Como represent´ a-los? Atributo/Valor Por onde come¸ car? — Responder as seguintes perguntas: 18

  19. Atributos • idade (jovem, adulto, idoso) • miopia (m´ ıope, hiperm´ etrope) • astigmatismo (n˜ ao, sim) • taxa de lacrimejamento (reduzido, normal) • lentes de contato (forte, fraca, nenhuma) Por onde come¸ car? — Atributos 19

  20. Dados Idade Miopia Astigmat. Lacrimej. Lentes jovem m´ ıope n˜ ao reduzido nenhuma jovem m´ ıope n˜ ao normal fraca jovem m´ ıope sim reduzido nenhuma jovem m´ ıope sim normal forte jovem hiper n˜ ao reduzido nenhuma jovem hiper n˜ ao normal fraca jovem hiper sim reduzido nenhuma jovem hiper sim normal forte adulto m´ ıope n˜ ao reduzido nenhuma Por onde come¸ car? — Dados 20

  21. Idade Miopia Astigmat. Lacrimej. Lentes adulto m´ ıope n˜ ao normal fraca adulto m´ ıope sim reduzido nenhuma adulto m´ ıope sim normal forte adulto hiper sim reduzido nenhuma adulto hiper n˜ ao normal fraca adulto hiper sim reduzido nenhuma adulto hiper sim normal nenhuma Por onde come¸ car? — Dados 21

  22. Idade Miopia Astigmat. Lacrimej. Lentes idoso m´ ıope n˜ ao reduzido nenhuma idoso m´ ıope n˜ ao normal nenhuma idoso m´ ıope sim reduzido nenhuma idoso m´ ıope sim normal forte idoso hiper n˜ ao reduzido nenhuma idoso hiper n˜ ao normal fraca idoso hiper sim reduzido nenhuma idoso hiper sim normal nenhuma Por onde come¸ car? — Dados 22

  23. Extra¸ c˜ ao de “conhecimento” • O que foi apresentado nos slides anteriores pode ser considerado como conhecimento? N˜ ao • Pode ser apresentado como uma informa¸ c˜ ao que consegue explicar a tomada de decis˜ ao dos especialistas? N˜ ao • O que fazer? Por onde come¸ car? — Extra¸ c˜ ao de “conhecimento” 23

  24. Extra¸ c˜ ao de “conhecimento” • Extrair a informa¸ c˜ ao realmente relevante. • Utilizar uma linguagem de representa¸ c˜ ao compreens´ ıvel ao ser humano. (mostrar exemplo no RapidMiner - www.rapid-i.com) Por onde come¸ car? — Extra¸ c˜ ao de “conhecimento” 24

  25. ´ Arvore de decis˜ ao ´ Por onde come¸ car? — Arvore de decis˜ ao 25

  26. Algoritmos Indutores de ´ Arvores de Decis˜ ao • Que algoritmo utilizar para gerar hip´ oteses na forma de ´ arvores de decis˜ ao? • ID3, C4.5[7]: s˜ ao algoritmos indutores de ´ arvore de decis˜ ao, top-down , recursivos e que fazem uso do conceito de entropia para identificar os melhores atributos que representam o conjunto de dados. Algoritmos Indutores de ´ Por onde come¸ car? — Arvores de Decis˜ ao 26

  27. Resultado: Sistema Especialista (none, soft, hard) Por onde come¸ car? — Resultado: Sistema Especialista 27

  28. Organizar documentos 28

  29. O que fazer com grandes quantidades de documentos? • Not´ ıcias, patentes, artigos, mensagens de twitter, quest˜ oes abertas de um question´ ario de pesquisa, ... • Para tirar proveito desta informa¸ c˜ ao ´ e necess´ ario organiz´ a-la de alguma forma : ⋆ Agrupamento de not´ ıcias, patentes, artigos e mensagens. ⋆ Classifica¸ c˜ ao, Recomenda¸ c˜ ao e Filtragem de documentos (not´ ıcias, relat´ orios, mensagens do twitter, avalia¸ c˜ ao de itens). Organizar documentos — O que fazer com grandes quantidades de documentos? 29

  30. Exemplo de classifica¸ c˜ ao/agrupamento Organizar documentos — Exemplo de classifica¸ c˜ ao/agrupamento 30

  31. Etapas • Pr´ e-processamento dos dados. • Modelagem (supervisionada ou n˜ ao supervisionada). • Avalia¸ c˜ ao do modelo. • Utiliza¸ c˜ ao Organizar documentos — Etapas 31

  32. Pr´ e-processamento dos dados 32

Recommend


More recommend