back office web traffic on the internet
play

Back-Office Web Traffic on the Internet Enric Pujol - PowerPoint PPT Presentation

Back-Office Web Traffic on the Internet Enric Pujol TU-Berlin Philipp Richter TU-Berlin Balakrishnan Chandrasekaran Duke University Georgios


  1. Back-Office Web Traffic on the Internet ¡ Enric ¡Pujol ¡ ¡ ¡ TU-­‑Berlin ¡ ¡ Philipp ¡Richter ¡ ¡ ¡ TU-­‑Berlin ¡ ¡ Balakrishnan ¡Chandrasekaran ¡ ¡ Duke ¡University ¡ ¡ Georgios ¡Smaragdakis ¡ ¡ MIT ¡/ ¡TU-­‑Berlin ¡/ ¡Akamai ¡ ¡ Anja ¡Feldmann ¡ ¡ TU-­‑Berlin ¡ ¡ Bruce ¡Maggs ¡ ¡ ¡ Duke ¡University ¡/ ¡Akamai ¡ ¡ Keung-­‑Chi ¡Ng ¡ ¡ ¡ Akamai ¡ IMC ¡2014 ¡ Vancouver, ¡BC, ¡CANADA ¡ November ¡5-­‑7, ¡2014 ¡

  2. The Web for an end user Search$engine Front-­‑office ¡Web ¡traffic: ¡ Web ¡traffic ¡between ¡end ¡users ¡and ¡servers HTTP$GET End$user CDN AdPublisher The ¡front-­‑office 2 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  3. Behind the scenes... Search$engine Back-­‑office ¡Web ¡traffic: ¡ Machine-­‑to-­‑machine ¡Web ¡traffic HTTP$GET ? End$user CDN AdPublisher The ¡front-­‑office The ¡back-­‑office 3 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  4. Search engines: crawlers HTTP$GET Search$engine Crawlers Content HTTP$GET End$user CDN AdPublisher The ¡front-­‑office The ¡back-­‑office 4 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  5. Content delivery: proxies HTTP$GET Search$engine Crawlers Content HTTP$GET$ HTTP$GET$ HTTP$GET End$user CDN Overlay$of$proxies Origin AdPublisher The ¡front-­‑office The ¡back-­‑office 5 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  6. AdExchanges: real-time bidding HTTP$GET Search$engine Crawlers Content HTTP$GET$ HTTP$GET$ HTTP$GET End$user CDN Overlay$of$proxies Origin AdExchange HTTP$POST Advertisers/bidders Auctioneer AdPublisher The ¡front-­‑office The ¡back-­‑office 6 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  7. Agenda 1. Introduction ¡ 2. Methodology ¡and ¡datasets ¡ 3. Characteristics ¡ 1. Traffic ¡ 2. Patterns ¡ 3. Inter-­‑domain ¡perspective ¡ 4. CDN ¡back-­‑office ¡traffic ¡ 5. The ¡end-­‑user ¡perspective ¡ 6. Summary ¡and ¡implications 7 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  8. Vantage points (VP) Type VP Daily ¡traffic Observations L-­‑IXP 11,900 ¡TB SFlow ¡(1/16K) IXPs M-­‑IXP 1,580 ¡TB BBone-­‑1 40 ¡TB Packet ¡sampled ¡(1/1K) Transit BBone-­‑2 70 ¡TB Content CDN 350 ¡TB 5 ¡locations Eyeballs RBN 35 ¡TB Packet ¡dumps Diverse ¡vantage ¡points: ¡multiple ¡perspectives 8 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  9. Candidate IPs for the back-office Send ¡and ¡receive ¡requests Dual ¡role ¡IPs ¡are ¡prime ¡candidates 9 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  10. Candidate IPs for the back-office Send ¡and ¡receive ¡requests Send ¡and ¡receive ¡requests Dual ¡role ¡IPs ¡are ¡prime ¡candidates 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 10

  11. Candidate IPs for the back-office Many ¡requests ¡to ¡many ¡servers Heavy ¡hitter ¡IPs ¡are ¡also ¡prime ¡candidates 11 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  12. Candidate IPs for the back-office Many ¡requests ¡to ¡many ¡servers Many ¡requests ¡to ¡a ¡few ¡servers Heavy ¡hitter ¡IPs ¡are ¡also ¡prime ¡candidates 12 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  13. Sources of back-office Web traffic L-­‑IXP Dual ¡role ¡IPs Heavy ¡hitters 13 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  14. Sources of back-office Web traffic L-­‑IXP L-­‑IXP Crawling? Dual ¡role ¡IPs ? Real-­‑time ¡ Heavy ¡hitters bidding? 14 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  15. Dual-role IPs: active measurements Client ¡only ¡(%) Server ¡only ¡(%) Dual-­‑role ¡(%) Passive 96.90 2.74 0.36 L-­‑IXP Passive+Active 93.85 2.74 3.40 ZMap ¡project: ¡Internet-­‑wide ¡scan ¡of ¡Web ¡Servers ¡(scans.io) Observations: ¡ Most ¡IPs ¡have ¡only ¡client ¡behavior ¡ 1. Many ¡servers ¡also ¡show ¡client ¡behavior ¡ 2. Active ¡measurements ¡augment ¡the ¡number ¡of ¡servers 15 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  16. Candidates: manual classification L -­‑ I X P Crawlers: ¡ 3.9K ¡IPs, ¡74% ¡in ¡2 ¡orgs • Reverse ¡DNS ¡+ ¡Origin ¡AS ¡ L -­‑ I X P Auctioneers: ¡ 316 ¡IPs, ¡4 ¡orgs • URL ¡+ ¡Origin ¡AS ¡ L -­‑ I X P Content ¡Delivery ¡Proxies: ¡ 36K ¡IPs, ¡8 ¡orgs • Origin ¡AS ¡+ ¡Reverse ¡DNS ¡(for ¡caches) ¡ L -­‑ I X P Other: ¡ 151K ¡IPs, ¡mostly ¡in ¡cloud ¡prov. • Rest ¡of ¡dual-­‑role ¡IPs 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 16

  17. Candidates: manual classification L -­‑ I X P Crawlers: ¡ 3.9K ¡IPs, ¡74% ¡in ¡2 ¡orgs • Reverse ¡DNS ¡+ ¡Origin ¡AS ¡ L -­‑ I X P Auctioneers: ¡ 316 ¡IPs, ¡4 ¡orgs • URL ¡+ ¡Origin ¡AS ¡ L -­‑ I X P Content ¡Delivery ¡Proxies: ¡ 36K ¡IPs, ¡8 ¡orgs • Origin ¡AS ¡+ ¡Reverse ¡DNS ¡(for ¡caches) ¡ L -­‑ I X P Other: ¡ 151K ¡IPs, ¡mostly ¡in ¡cloud ¡prov. • Rest ¡of ¡dual-­‑role ¡IPs 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 17

  18. Candidates: manual classification L -­‑ I X P Crawlers: ¡ 3.9K ¡IPs, ¡74% ¡in ¡2 ¡orgs • Reverse ¡DNS ¡+ ¡Origin ¡AS ¡ L -­‑ I X P Auctioneers: ¡ 316 ¡IPs, ¡4 ¡orgs • URL ¡+ ¡Origin ¡AS ¡ L -­‑ I X P Content ¡Delivery ¡Proxies: ¡ 36K ¡IPs, ¡8 ¡orgs • Origin ¡AS ¡+ ¡Reverse ¡DNS ¡(for ¡caches) ¡ L -­‑ I X P Other: ¡ 151K ¡IPs, ¡mostly ¡in ¡cloud ¡prov. • Rest ¡of ¡dual-­‑role ¡IPs 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 18

  19. Candidates: manual classification L -­‑ I X P Crawlers: ¡ 3.9K ¡IPs, ¡74% ¡in ¡2 ¡orgs • Reverse ¡DNS ¡+ ¡Origin ¡AS ¡ L -­‑ I X P Auctioneers: ¡ 316 ¡IPs, ¡4 ¡orgs • URL ¡+ ¡Origin ¡AS ¡ L -­‑ I X P Content ¡Delivery ¡Proxies: ¡ 36K ¡IPs, ¡8 ¡orgs • Origin ¡AS ¡+ ¡Reverse ¡DNS ¡(for ¡caches) ¡ L -­‑ I X P Other: ¡ 151K ¡IPs, ¡mostly ¡in ¡cloud ¡prov. • Rest ¡of ¡dual-­‑role ¡IPs 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 19

  20. Agenda 1. Introduction ¡ 2. Methodology ¡and ¡datasets ¡ 3. Characteristics ¡ 1. Traffic ¡ 2. Patterns ¡ 3. Inter-­‑domain ¡perspective ¡ 4. CDN ¡back-­‑office ¡traffic ¡ 5. The ¡end-­‑user ¡perspective ¡ 6. Summary ¡and ¡implications 20 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  21. Traffic Transit ¡links: ¡different ¡obs. IXPs: ¡from ¡10% ¡to ¡20% At ¡least ¡10% ¡in ¡our ¡VPs 21 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  22. Traffic: Contribution per class CDPs Auctioneers Crawlers Other Bytes 12.1 ¡% 1.1 ¡% 10.3 ¡% 76.5 ¡% L-­‑IXP Requests 11.8 ¡% 22.5 ¡% 15.1 ¡% 50.6 ¡% Observations: ¡ big ¡players ¡– ¡ ¡significant ¡share ¡ ¡ 1. CDPs ¡ ¡ ¡ ¡ many ¡but ¡small ¡transactions ¡ 2. Real-­‑time ¡bidding ¡ ¡ a ¡few ¡orgs ¡– ¡significant ¡share ¡ 3. Crawlers ¡ ¡ ¡ ¡ cloud ¡service ¡providers ¡ 4. Other ¡ ¡ ¡ ¡ All ¡classes ¡contribute. ¡More ¡to ¡discover 22 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  23. Traffic patterns: bytes % ¡back-­‑office ¡Web ¡traffic ¡increases ¡during ¡off ¡hours ¡in ¡IXPs 23 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  24. Traffic patterns: requests L-­‑IXP Observations: ¡ 1. A ¡multiplicative ¡factor ¡of ¡human ¡activity ¡(e.g., ¡RTB) ¡ 2. Non-­‑human ¡triggered ¡activity ¡(e.g., ¡crawlers) 24 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  25. Inter-domain perspective L-­‑IXP Top ¡10 ¡traffic ¡carrying ¡links: ¡ 4 ¡x ¡Cloud ¡– ¡Content ¡ 3 ¡x ¡Search ¡– ¡Hosters ¡ 2 ¡x ¡CDN ¡– ¡Content ¡ ¡ 1 ¡x ¡Content ¡– ¡Advertisement ¡ Back-­‑office ¡traffic ¡appears ¡in ¡many ¡peering ¡links 25 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

  26. Agenda 1. Introduction ¡ 2. Methodology ¡and ¡datasets ¡ 3. Characteristics ¡ 1. Traffic ¡ 2. Patterns ¡ 3. Inter-­‑domain ¡perspective ¡ 4. CDN ¡back-­‑office ¡traffic ¡ 5. The ¡end-­‑user ¡perspective ¡ 6. Summary ¡and ¡implications 26 6.11.2014 Internet ¡Measurement ¡Conference ¡2014

Recommend


More recommend