inf3800 inf4800 s keteknologi
play

INF3800/INF4800 Sketeknologi 2015.01.19 - PowerPoint PPT Presentation

INF3800/INF4800 Sketeknologi 2015.01.19 h0p://nlp.stanford.edu/IR-book/informaAon-retrieval-book.html Pensum + Introduksjon The Sweetspot Distributed Systems


  1. INF3800/INF4800 ¡ Søketeknologi ¡ ¡ 2015.01.19 ¡

  2. h0p://nlp.stanford.edu/IR-­‑book/informaAon-­‑retrieval-­‑book.html ¡ Pensum ¡ + ¡

  3. Introduksjon ¡

  4. The ¡Sweetspot ¡ Distributed ¡ Systems ¡ InformaAon ¡ Language ¡ Retrieval ¡ Technology ¡

  5. Web ¡Search ¡

  6. alltheweb.com ¡ 1999-­‑2003 ¡

  7. Enterprise ¡Search ¡ Much ¡more ¡than ¡intranets ¡

  8. Data ¡Centers ¡ alltheweb.com ¡2000 ¡

  9. Data ¡Centers ¡ MicrosoQ ¡2010 ¡ h0p://www.youtube.com/watch?v=K3b5Ca6lzqE ¡ h0p://www.youtube.com/watch?v=PPnoKb9fTkA ¡

  10. Search ¡PlaYorm ¡Anatomy ¡ The ¡50,000 ¡Foot ¡View ¡ Document ¡ Crawler ¡ Indexer ¡ Processing ¡ Result ¡ Data ¡Mining ¡ Index ¡ Processing ¡ Query ¡ Search ¡ Front ¡End ¡ Processing ¡

  11. Scaling ¡ Content ¡Volume ¡ • How ¡many ¡documents ¡are ¡there? ¡ – How ¡large ¡are ¡the ¡documents? ¡ – Content ¡Complexity ¡ • How ¡many ¡fields ¡does ¡each ¡document ¡have? ¡ – How ¡complex ¡are ¡the ¡field ¡structures? ¡ – ¡ Query ¡Traffic ¡ • How ¡many ¡queries ¡per ¡second ¡are ¡there? ¡ – What ¡is ¡the ¡latency ¡per ¡query? ¡ – ¡ ¡ Update ¡Frequency ¡ • How ¡oQen ¡does ¡the ¡content ¡change? ¡ – ¡ Indexing ¡Latency ¡ • How ¡quickly ¡must ¡new ¡data ¡become ¡searchable? ¡ – ¡ Query ¡Complexity ¡ • How ¡many ¡query ¡terms ¡are ¡there? ¡ – What ¡is ¡the ¡type ¡and ¡structure ¡of ¡the ¡query ¡terms? ¡ ¡ –

  12. Scaling ¡ Scale ¡through ¡replicaAng ¡the ¡parAAons ¡ Query ¡Traffic ¡ Content ¡Volume ¡ Scale ¡through ¡parAAoning ¡the ¡data ¡

  13. Crawling ¡The ¡Web ¡

  14. Processing ¡The ¡Content ¡ HTML, ¡PDF, ¡Word, ¡ UTF-­‑8, ¡ISCII, ¡ ¡KOI8-­‑ English, ¡Polish, ¡ Title, ¡headings, ¡ Excel, ¡PowerPoint, ¡ R, ¡ShiQ-­‑JIS, ¡ Danish, ¡Japanese, ¡ body, ¡navigaAon, ¡ XML, ¡Zip, ¡… ¡ ISO-­‑8859-­‑1, ¡… ¡ Norwegian, ¡… ¡ ads, ¡footnotes, ¡… ¡ Format ¡detecAon ¡ Encoding ¡detecAon ¡ Language ¡detecAon ¡ Parsing ¡ “buljongterning”, ¡ “RindfleischeAke “30,000”, ¡ Go, ¡went, ¡gone ¡ serungsüberwac “L’Hôpital’s ¡rule”, ¡ Øhrn, ¡Ohrn, ¡ Car, ¡cars ¡ hungsaufgabenüb “ 台湾研究 “, ¡… ¡ ¡ Oehrn, ¡Öhrn, ¡… ¡ Silly, ¡sillier, ¡silliest ¡ ertragungsgesetz” ¡ ¡ ¡ , ¡… ¡ TokenizaAon ¡ Character ¡normalizaAon ¡ LemmaAzaAon ¡ Decompounding ¡ Persons, ¡ Sports, ¡Health, ¡ Who ¡said ¡what, ¡ companies, ¡ PosiAve ¡or ¡ World, ¡PoliAcs, ¡ who ¡works ¡where, ¡ events, ¡locaAons, ¡ negaAve, ¡liberal ¡or ¡ Entertainment, ¡ what ¡happened ¡ dates, ¡quotaAons, ¡ conservaAve, ¡… ¡ Spam, ¡Offensive ¡ when, ¡… ¡ … ¡ Content, ¡… ¡ EnAty ¡extracAon ¡ RelaAonship ¡extracAon ¡ SenAment ¡analysis ¡ ClassificaAon ¡

  15. CreaAng ¡The ¡Index ¡ Word Document Position tea 4 22 4 32 4 76 8 3 teacart 8 7 teach 2 102 2 233 8 77 teacher 2 57

  16. Deploying ¡The ¡Index ¡

  17. Processing ¡The ¡Query ¡ “I ¡am ¡looking ¡for ¡ “LED ¡TVs ¡between ¡ fish ¡restaurants ¡ $1000 ¡and ¡$2000” ¡ near ¡Majorstua” ¡ “hphotos-­‑snc3 ¡ vcdn” ¡ “brintney ¡speers ¡ pics” ¡ “23445 ¡+ ¡43213” ¡

  18. Searching ¡The ¡Content ¡ h0p://www.stanford.edu/class/cs276/handouts/lecture2-­‑dicAonary.pdf ¡ Assess ¡relevancy ¡as ¡we ¡go ¡along ¡

  19. Searching ¡The ¡Content ¡ FederaAon ¡ Query ¡processing ¡ Result ¡processing ¡ Dispatching ¡ Merging ¡ Searching ¡ CapAon ¡generaAon ¡ “Divide ¡and ¡conquer” ¡

  20. Searching ¡The ¡Content ¡ Tiering ¡ Organize ¡the ¡search ¡nodes ¡in ¡a ¡row ¡into ¡mulAple ¡ • Aers ¡ ¡ Tier ¡1 ¡ Top ¡Aer ¡nodes ¡may ¡have ¡fewer ¡documents ¡and ¡ • run ¡on ¡be0er ¡hardware ¡ ¡ Fall ¡through? ¡ Keep ¡the ¡good ¡stuff ¡in ¡the ¡top ¡Aers ¡ • ¡ Only ¡fall ¡through ¡to ¡the ¡lower ¡Aers ¡if ¡not ¡enough ¡ • Tier ¡2 ¡ good ¡hits ¡are ¡not ¡found ¡in ¡the ¡top ¡Aers ¡ ¡ Analyze ¡query ¡logs ¡to ¡decide ¡which ¡documents ¡ • Fall ¡through? ¡ that ¡belong ¡in ¡which ¡Aers ¡ Tier ¡3 ¡ “All ¡search ¡nodes ¡are ¡equal, ¡but ¡some ¡are ¡more ¡equal ¡than ¡others” ¡

  21. Searching ¡The ¡Content ¡ Context ¡Drilling ¡ Body, ¡headings, ¡Atle, ¡ click-­‑through ¡queries, ¡ anchor ¡texts ¡ Headings, ¡Atle, ¡click-­‑ through ¡queries, ¡ anchor ¡texts ¡ Title, ¡click-­‑through ¡ queries, ¡anchor ¡texts ¡ Click-­‑through ¡queries, ¡ anchor ¡texts ¡ “If ¡the ¡result ¡set ¡is ¡too ¡large, ¡only ¡consider ¡the ¡superior ¡contexts” ¡

  22. Relevancy ¡ Anchor ¡texts, ¡click-­‑ through ¡queries, ¡tags, ¡ … ¡ Page ¡rank, ¡link ¡ Title, ¡anchor ¡texts, ¡ cardinality, ¡item ¡profit ¡ headings, ¡body, ¡… ¡ margin, ¡popularity, ¡… ¡ ¡Crowdsourced ¡annotaAons ¡ ¡Document ¡quality ¡ ¡Match ¡context ¡ Term ¡frequency, ¡ inverse ¡document ¡ Freshness, ¡date ¡of ¡ frequency, ¡ publicaAon, ¡buzz ¡ completeness ¡in ¡ factor, ¡… ¡ superior ¡contexts, ¡ proximity, ¡… ¡ Basic ¡staAsAcs ¡ ¡Timeliness ¡ Relevancy ¡score ¡ “Maximize ¡the ¡normalized ¡discounted ¡cumulaQve ¡gain ¡(NDCG)” ¡

  23. Processing ¡The ¡Results ¡ Faceted ¡browsing ¡ • – What ¡are ¡the ¡distribuAons ¡of ¡data ¡across ¡ the ¡various ¡document ¡fields? ¡ – “Local” ¡versus ¡“global” ¡meta ¡data ¡ ¡ Result ¡arbitraQon ¡ • – Which ¡results ¡from ¡which ¡sources ¡should ¡ be ¡displayed ¡in ¡a ¡federaAon ¡sesng? ¡ – How ¡should ¡the ¡SERP ¡layout ¡be ¡rendered? ¡ Unsupervised ¡clustering ¡ • – Can ¡we ¡automaAcally ¡organize ¡the ¡results ¡ set ¡by ¡grouping ¡similar ¡items ¡together? ¡ Last-­‑minute ¡security ¡trimming ¡ • – Does ¡the ¡user ¡sAll ¡have ¡access ¡to ¡each ¡ result? ¡ ¡

  24. Data ¡Mining ¡

  25. ApplicaQons ¡

  26. h0p://www.google.com/jobs/britney.html ¡ Spellchecking ¡

  27. Spellchecking ¡ britnay ¡ spears ¡ vidios ¡ Generate ¡candidates ¡ britney ¡ shears ¡ videos ¡ bridney ¡ speaks ¡ vidoes ¡ birtney ¡ vidies ¡ Find ¡the ¡best ¡path ¡ 1. Generate ¡a ¡set ¡of ¡candidates ¡per ¡query ¡term ¡using ¡approximate ¡matching ¡techniques. ¡Score ¡each ¡ candidate ¡according ¡to, ¡e.g., ¡“distance” ¡from ¡the ¡query ¡term ¡and ¡usage ¡frequency. ¡ 2. Find ¡the ¡best ¡path ¡in ¡the ¡lasce ¡using ¡the ¡Viterbi ¡algorithm. ¡Use, ¡e.g., ¡candidate ¡scores ¡and ¡ bigram ¡staAsAcs ¡to ¡guide ¡the ¡search. ¡

  28. EnAty ¡ExtracAon ¡ … ¡ … ¡ … ¡ … ¡ … ¡ Levels ¡of ¡abstracAon ¡ MAN ¡ FOOD ¡ N/proper ¡ V/past/eat ¡ DET ¡ ADJ ¡ N/singular ¡ Richard ¡ ate ¡ some ¡ bad ¡ curry ¡ 1. Logically ¡annotate ¡the ¡text ¡with ¡zero ¡or ¡more ¡computed ¡layers ¡of ¡ meta ¡data. ¡The ¡original ¡surface ¡form ¡of ¡the ¡text ¡can ¡be ¡viewed ¡as ¡ trivial ¡meta ¡data. ¡ 2. Apply ¡a ¡pa0ern ¡matcher ¡or ¡grammar ¡over ¡selected ¡layers. ¡Use, ¡e.g., ¡ handcraQed ¡rules ¡or ¡machine-­‑trained ¡models. ¡Extract ¡the ¡surface ¡ forms ¡that ¡correspond ¡to ¡the ¡matching ¡pa0erns. ¡

More recommend