ori pontua c ao e o modelo de espa co vetorial
play

ORI: Pontua c ao e o modelo de espa co vetorial Marcelo Keese - PowerPoint PPT Presentation

ORI: Pontua c ao e o modelo de espa co vetorial Marcelo Keese Albertini Faculdade de Computa c ao Universidade Federal de Uberl andia 1/1 Indice 2/1 Veremos hoje Ordenando resultados de busca: import ancia (ao


  1. ORI: Pontua¸ c˜ ao e o modelo de espa¸ co vetorial Marcelo Keese Albertini Faculdade de Computa¸ c˜ ao Universidade Federal de Uberlˆ andia 1/1

  2. ´ Indice 2/1

  3. Veremos hoje ◮ Ordenando resultados de busca: importˆ ancia (ao inv´ es de apresentar um conjunto desordenado de resultados) ◮ Frequˆ encia de termos : base da ordena¸ c˜ ao de resultados ( ranking ) ◮ Tf-idf ranking : esquema tradicional de ordena¸ c˜ ao 3/1

  4. Recupera¸ c˜ ao ordenada ◮ At´ e agora, consultas foram booleanas . ◮ Documentos s˜ ao adequados ou n˜ ao para uma consulta ◮ Bom para usu´ arios especialistas com conhecimento avan¸ cado sobre a cole¸ c˜ ao ◮ Bom para programas : programas podem processar milhares de resultados ◮ N˜ ao t˜ ao bom para usu´ arios comuns ◮ Consultas booleanas s˜ ao de dif´ ıcil escrita ◮ Usu´ arios n˜ ao olham centenas de resultados 4/1

  5. Problemas com busca booleana: tudo ou nada http://www.acervobiblioteca.ufu.br:8000/cgi-bin/gw/chameleon ◮ Muito pouco ou resultados demais ◮ Exemplo consulta 1 (conjun¸ c˜ ao booleana): [recupera¸ c˜ ao AND informa¸ c˜ ao] ◮ → centenas de resultados – demais ◮ Exemplo 2 (conjun¸ c˜ ao booleana): [recupera¸ c˜ ao AND informa¸ c˜ ao AND aplica¸ c˜ ao] ◮ → 2 resultados – quase nada ◮ dif´ ıcil encontrar boa consulta para obter entre tudo ou nada 5/1

  6. Tudo ou nada: n˜ ao ´ e problema com recupera¸ c˜ ao ordenada ◮ Com ordena¸ c˜ ao, n´ umero de resultados n˜ ao ´ e problema ◮ Por exemplo, mostrar somente os 10 mais relevantes ◮ N˜ ao sobrecarrega usu´ ario ◮ O que ´ e necess´ ario? Desenvolver um algoritmo de ranking de relevˆ ancia de documentos 6/1

  7. Avalia¸ c˜ ao como base de recupera¸ c˜ ao ordenada ◮ Pontuar mais os documentos mais relevantes ` a consulta ◮ Atribuir pontua¸ c˜ ao em [0 , 1] para cada par consulta-documento ◮ Medida num´ erica e objetiva da relevˆ ancia do documento para a consulta 7/1

  8. Pontuando consultas-documentos ◮ Como pontuamos um par consulta-documento? ◮ Come¸ camos com um consulta de um s´ o termo ◮ Se o termo n˜ ao ocorre no documento, pontua¸ c˜ ao 0 ◮ Quanto maior a frequˆ encia do termo no documento, maior pontua¸ c˜ ao ◮ Veremos alternativas 8/1

  9. Alternativa 1: coeficiente de Jaccard ◮ Mede sobreposi¸ c˜ ao de 2 conjuntos: A e B ◮ Coeficiente de Jaccard: jaccard ( A , B ) = | A ∩ B | | A ∪ B | ( A � = ∅ ou B � = ∅ ) ◮ jaccard ( A , A ) = 1 ◮ jaccard ( A , B ) = 0 se A ∩ B = 0 ◮ A e B n˜ ao tem que ser do mesmo tamanho ◮ Sempre obt´ em n´ umero entre 0 e 1 9/1

  10. Exemplo: coeficiente de Jaccard ◮ Qual ´ e a pontua¸ c˜ ao pelo coeficiente de Jaccard para: ◮ Consulta: “´ aguas de mar¸ co” ◮ Documento “Pedro ´ Alvares Cabral chegou nas ´ aguas brasileiras em mar¸ co” ◮ jaccard ( q , d ) = 2 / 10 10/1

  11. Onde Jaccard falha? ◮ N˜ ao considera frequˆ encia dos termos ◮ Termos raros s˜ ao mais informativos que os frequentes ◮ Precisamos de modos para normalizar pelo tamanho do documento ◮ um documento grande provavelmente tem boa sobreposi¸ c˜ ao com a maior parte das consultas mas n˜ ao ´ e necessariamente relevante 11/1

  12. Matriz de incidˆ encia bin´ aria Marco J´ ulio A Hamlet Otelo Macbeth . . . Antˆ onio C´ esar Tempestade Ant^ onio 1 1 0 0 0 1 1 1 0 1 0 0 Brutus C´ esar 1 1 0 1 1 1 0 1 0 0 0 0 Calp´ urnia Cle´ opatra 1 0 0 0 0 0 . . . ario ∈ { 0 , 1 } | V | . Cada documento ´ e representado como um vetor bin´ 12/1

  13. Matriz de contagem Marco J´ ulio A Hamlet Otelo Macbeth . . . Antˆ onio C´ esar Tempestade Ant^ onio 157 73 0 0 0 1 4 157 0 2 0 0 Brutus C´ esar 232 227 0 2 1 0 0 10 0 0 0 0 Calpurnia Cle´ opatra 57 0 0 0 0 0 . . . e representado como vetor de contagem ∈ N | V | . Cada documento ´ 13/1

  14. Modelo Bag of words / cole¸ c˜ ao de palavras ◮ Desconsidera ordem dos termos em um documento. ◮ Jo˜ ao ´ e mais r´ apido que Jos´ e tem mesma representa¸ c˜ ao que Jos´ e ´ e mais r´ apido que Jo˜ ao ◮ Isso ´ e chamado de modelo bag of words . ◮ Seguiremos com mais detalhes do modelo bag of words. 14/1

  15. Frequˆ encia de termo tf ◮ A frequˆ encia de termo tf t , d do termo t no documento d ´ e definido como o n´ umero de vezes que t ocorre em d . ◮ Podemos usar tf para pontuar combina¸ c˜ ao consulta-documento. ◮ Por´ em, somente frequˆ encia n˜ ao ´ e bom porque: ◮ Um documento com tf = 10 ocorrˆ encias de um termo ´ e mais relevante que um documento com apenas uma ocorrˆ encia tf = 1. ◮ Mas n˜ ao 10 vezes mais relevante ◮ Relevˆ ancia n˜ ao aumenta proporcionalmente com a frequˆ encia do termo. ◮ Um documento com diversos termos da consulta ´ e mais relevante que outro documento com muitas repeti¸ c˜ oes de apenas um termo 15/1

  16. Em vez de frequˆ encia: log da frequˆ encia ◮ O log da frequˆ encia do termo t em d ´ e definido: � 1 + log 10 tf t , d se tf t , d > 0 w t , d = 0 caso contr´ ario ◮ tf t , d → w t , d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4 etc. ◮ Pontua¸ c˜ ao para um par consulta-documento: soma em rela¸ c˜ ao a termos t em q e d : ao-tf ( q , d ) = � t ∈ q ∩ d (1 + log tf t , d ) pontua¸ c˜ ◮ A pontua¸ c˜ ao ´ e 0 se nenhum dos termos est´ a presente no documento. 16/1

  17. Exerc´ ıcio ◮ Calcular a pontua¸ c˜ ao de Jaccard e pontua¸ c˜ ao de tf para os pares consulta-documento: q: [informa¸ c˜ ao sobre carros] d: “tudo o que vocˆ e sempre quis ◮ saber sobre carros” q: [informa¸ c˜ ao sobre carros] d: “informa¸ c˜ ao sobre caminh˜ oes, ◮ informa¸ c˜ ao sobre avi˜ oes, informa¸ c˜ ao sobre trens” q: [carros verdes e caminh˜ oes verdes] d: “a pol´ ıcia para ◮ carros verdes mais frequentemente” 17/1

  18. Frequˆ encia no documento vs. frequˆ encia na cole¸ c˜ ao ◮ Frequˆ encia de termo no documento ◮ Frequˆ encia de termo na cole¸ c˜ ao 18/1

  19. Peso desejado para termos raros ◮ Termos raros s˜ ao mais informativos ◮ Considere um termo em uma consulta que ´ e raro na cole¸ c˜ ao, e.g. estoicismo ◮ Um documento com esse termo ´ e muito provavelmente relevante ◮ → N´ os queremos pesos altos para termos raros ◮ → N´ os queremos pesos baixos para termos frequentes 19/1

  20. Peso idf ◮ df t ´ e a frequˆ encia na cole¸ c˜ ao de documentos, ou seja,´ e o n´ umero de documentos em que t aparece ◮ df t ´ e uma medida inversa da informa¸ c˜ ao do termo t ◮ Define-se peso idf do termo t como segue: N idf t = log 10 df t ( N ´ e o n´ umero de documentos na cole¸ c˜ ao.) ◮ idf t ´ e a medida de informa¸ c˜ ao do termo [log N / df t ] em vez de [ N / df t ] para amenizar o efeito de idf ◮ 20/1

  21. Exemplos de idf 1 , 000 , 000 Calcular idf t usando a f´ ormula: idf t = log 10 df t termo df t idf t calpurnia 1 6 animal 100 4 domingo 1000 3 voar 10,000 2 sobre 100,000 1 o 1,000,000 0 21/1

  22. Efeito de idf no ranking ◮ A medida idf influencia na ordena¸ c˜ ao quando h´ a pelo menos 2 termos ◮ Por exemplo, na consulta “estoicismo antigo”, peso idf aumenta o peso relativo de estoicismo e reduz peso relativo de antigo . ◮ O idf tem pouco efeito em consultas com um termo . 22/1

  23. Frequˆ encia na cole¸ c˜ ao vs. frequˆ encia no documento termo frequˆ encia na cole¸ c˜ ao frequˆ encia no documento 10440 3997 seguro tentar 10422 8760 ◮ Frequˆ encia de t na cole¸ c˜ ao: n´ umero de ocorrˆ encias de t na cole¸ c˜ ao ◮ Frequˆ encia de t em documentos: n´ umero de documentos em que t ocorre ◮ Qual termo ´ e melhor como termo de busca? ◮ Este exemplo sugere que df (e idf) ´ e melhor como peso que cf (e “icf”) 23/1

  24. Peso tf-idf ◮ O peso tf-idf de um termo ´ e o produto de peso tf e seu peso idf . ◮ w t , d = (1 + log tf t , d ) · log N df t ◮ peso tf ◮ peso idf ◮ Esquema bastante conhecido em RI. ◮ Outros nomes: tf.idf, tf x idf 24/1

  25. Resumo: tf-idf ◮ Atribuir peso tf-idf para cada termo t em cada documento d : w t , d = (1 + log tf t , d ) · log N df t ◮ O peso tf-idf . . . ◮ . . . aumenta com o n´ umero de ocorrˆ encia em um documento. (frequˆ encia do termo) ◮ . . . aumenta com a raridade do termo na cole¸ c˜ ao. (frequˆ encia em document inversa) 25/1

  26. Exerc´ ıcio: frequˆ encia de termo, cole¸ c˜ ao e documento Quantidade S´ ımbolo Defini¸ c˜ ao frequˆ encia de termo tf t , d n´ umero de ocorrˆ encias de t em d frequˆ encia de documentos df t n´ umero de documentos em que t ocorre frequˆ encia de cole¸ c˜ ao cf t n´ umero total de ocorrˆ encias de t na cole¸ c˜ ao (incluindo re- peti¸ c˜ oes em documentos) ◮ Rela¸ c˜ ao entre df e cf? ◮ Rela¸ c˜ ao entre tf e cf? ◮ Rela¸ c˜ ao entre tf e df? 26/1

  27. Matriz de incidˆ encia bin´ aria Marco J´ ulio A Hamlet Otelo Macbeth . . . Antˆ onio C´ esar Tempestade Ant^ onio 1 1 0 0 0 1 1 1 0 1 0 0 Brutus C´ esar 1 1 0 1 1 1 0 1 0 0 0 0 Calp´ urnia Cle´ opatra 1 0 0 0 0 0 . . . ario ∈ { 0 , 1 } | V | . Cada documento ´ e representado como um vetor bin´ 27/1

Recommend


More recommend