Back-Office Web Traffic on the Internet ¡ Enric ¡Pujol ¡ ¡ ¡ TU-‑Berlin ¡ ¡ Philipp ¡Richter ¡ ¡ ¡ TU-‑Berlin ¡ ¡ Balakrishnan ¡Chandrasekaran ¡ ¡ Duke ¡University ¡ ¡ Georgios ¡Smaragdakis ¡ ¡ MIT ¡/ ¡TU-‑Berlin ¡/ ¡Akamai ¡ ¡ Anja ¡Feldmann ¡ ¡ TU-‑Berlin ¡ ¡ Bruce ¡Maggs ¡ ¡ ¡ Duke ¡University ¡/ ¡Akamai ¡ ¡ Keung-‑Chi ¡Ng ¡ ¡ ¡ Akamai ¡ IMC ¡2014 ¡ Vancouver, ¡BC, ¡CANADA ¡ November ¡5-‑7, ¡2014 ¡
The Web for an end user Search$engine Front-‑office ¡Web ¡traffic: ¡ Web ¡traffic ¡between ¡end ¡users ¡and ¡servers HTTP$GET End$user CDN AdPublisher The ¡front-‑office 2 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Behind the scenes... Search$engine Back-‑office ¡Web ¡traffic: ¡ Machine-‑to-‑machine ¡Web ¡traffic HTTP$GET ? End$user CDN AdPublisher The ¡front-‑office The ¡back-‑office 3 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Search engines: crawlers HTTP$GET Search$engine Crawlers Content HTTP$GET End$user CDN AdPublisher The ¡front-‑office The ¡back-‑office 4 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Content delivery: proxies HTTP$GET Search$engine Crawlers Content HTTP$GET$ HTTP$GET$ HTTP$GET End$user CDN Overlay$of$proxies Origin AdPublisher The ¡front-‑office The ¡back-‑office 5 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
AdExchanges: real-time bidding HTTP$GET Search$engine Crawlers Content HTTP$GET$ HTTP$GET$ HTTP$GET End$user CDN Overlay$of$proxies Origin AdExchange HTTP$POST Advertisers/bidders Auctioneer AdPublisher The ¡front-‑office The ¡back-‑office 6 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Agenda 1. Introduction ¡ 2. Methodology ¡and ¡datasets ¡ 3. Characteristics ¡ 1. Traffic ¡ 2. Patterns ¡ 3. Inter-‑domain ¡perspective ¡ 4. CDN ¡back-‑office ¡traffic ¡ 5. The ¡end-‑user ¡perspective ¡ 6. Summary ¡and ¡implications 7 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Vantage points (VP) Type VP Daily ¡traffic Observations L-‑IXP 11,900 ¡TB SFlow ¡(1/16K) IXPs M-‑IXP 1,580 ¡TB BBone-‑1 40 ¡TB Packet ¡sampled ¡(1/1K) Transit BBone-‑2 70 ¡TB Content CDN 350 ¡TB 5 ¡locations Eyeballs RBN 35 ¡TB Packet ¡dumps Diverse ¡vantage ¡points: ¡multiple ¡perspectives 8 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Candidate IPs for the back-office Send ¡and ¡receive ¡requests Dual ¡role ¡IPs ¡are ¡prime ¡candidates 9 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Candidate IPs for the back-office Send ¡and ¡receive ¡requests Send ¡and ¡receive ¡requests Dual ¡role ¡IPs ¡are ¡prime ¡candidates 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 10
Candidate IPs for the back-office Many ¡requests ¡to ¡many ¡servers Heavy ¡hitter ¡IPs ¡are ¡also ¡prime ¡candidates 11 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Candidate IPs for the back-office Many ¡requests ¡to ¡many ¡servers Many ¡requests ¡to ¡a ¡few ¡servers Heavy ¡hitter ¡IPs ¡are ¡also ¡prime ¡candidates 12 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Sources of back-office Web traffic L-‑IXP Dual ¡role ¡IPs Heavy ¡hitters 13 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Sources of back-office Web traffic L-‑IXP L-‑IXP Crawling? Dual ¡role ¡IPs ? Real-‑time ¡ Heavy ¡hitters bidding? 14 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Dual-role IPs: active measurements Client ¡only ¡(%) Server ¡only ¡(%) Dual-‑role ¡(%) Passive 96.90 2.74 0.36 L-‑IXP Passive+Active 93.85 2.74 3.40 ZMap ¡project: ¡Internet-‑wide ¡scan ¡of ¡Web ¡Servers ¡(scans.io) Observations: ¡ Most ¡IPs ¡have ¡only ¡client ¡behavior ¡ 1. Many ¡servers ¡also ¡show ¡client ¡behavior ¡ 2. Active ¡measurements ¡augment ¡the ¡number ¡of ¡servers 15 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Candidates: manual classification L -‑ I X P Crawlers: ¡ 3.9K ¡IPs, ¡74% ¡in ¡2 ¡orgs • Reverse ¡DNS ¡+ ¡Origin ¡AS ¡ L -‑ I X P Auctioneers: ¡ 316 ¡IPs, ¡4 ¡orgs • URL ¡+ ¡Origin ¡AS ¡ L -‑ I X P Content ¡Delivery ¡Proxies: ¡ 36K ¡IPs, ¡8 ¡orgs • Origin ¡AS ¡+ ¡Reverse ¡DNS ¡(for ¡caches) ¡ L -‑ I X P Other: ¡ 151K ¡IPs, ¡mostly ¡in ¡cloud ¡prov. • Rest ¡of ¡dual-‑role ¡IPs 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 16
Candidates: manual classification L -‑ I X P Crawlers: ¡ 3.9K ¡IPs, ¡74% ¡in ¡2 ¡orgs • Reverse ¡DNS ¡+ ¡Origin ¡AS ¡ L -‑ I X P Auctioneers: ¡ 316 ¡IPs, ¡4 ¡orgs • URL ¡+ ¡Origin ¡AS ¡ L -‑ I X P Content ¡Delivery ¡Proxies: ¡ 36K ¡IPs, ¡8 ¡orgs • Origin ¡AS ¡+ ¡Reverse ¡DNS ¡(for ¡caches) ¡ L -‑ I X P Other: ¡ 151K ¡IPs, ¡mostly ¡in ¡cloud ¡prov. • Rest ¡of ¡dual-‑role ¡IPs 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 17
Candidates: manual classification L -‑ I X P Crawlers: ¡ 3.9K ¡IPs, ¡74% ¡in ¡2 ¡orgs • Reverse ¡DNS ¡+ ¡Origin ¡AS ¡ L -‑ I X P Auctioneers: ¡ 316 ¡IPs, ¡4 ¡orgs • URL ¡+ ¡Origin ¡AS ¡ L -‑ I X P Content ¡Delivery ¡Proxies: ¡ 36K ¡IPs, ¡8 ¡orgs • Origin ¡AS ¡+ ¡Reverse ¡DNS ¡(for ¡caches) ¡ L -‑ I X P Other: ¡ 151K ¡IPs, ¡mostly ¡in ¡cloud ¡prov. • Rest ¡of ¡dual-‑role ¡IPs 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 18
Candidates: manual classification L -‑ I X P Crawlers: ¡ 3.9K ¡IPs, ¡74% ¡in ¡2 ¡orgs • Reverse ¡DNS ¡+ ¡Origin ¡AS ¡ L -‑ I X P Auctioneers: ¡ 316 ¡IPs, ¡4 ¡orgs • URL ¡+ ¡Origin ¡AS ¡ L -‑ I X P Content ¡Delivery ¡Proxies: ¡ 36K ¡IPs, ¡8 ¡orgs • Origin ¡AS ¡+ ¡Reverse ¡DNS ¡(for ¡caches) ¡ L -‑ I X P Other: ¡ 151K ¡IPs, ¡mostly ¡in ¡cloud ¡prov. • Rest ¡of ¡dual-‑role ¡IPs 6.11.2014 Internet ¡Measurement ¡Conference ¡2014 19
Agenda 1. Introduction ¡ 2. Methodology ¡and ¡datasets ¡ 3. Characteristics ¡ 1. Traffic ¡ 2. Patterns ¡ 3. Inter-‑domain ¡perspective ¡ 4. CDN ¡back-‑office ¡traffic ¡ 5. The ¡end-‑user ¡perspective ¡ 6. Summary ¡and ¡implications 20 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Traffic Transit ¡links: ¡different ¡obs. IXPs: ¡from ¡10% ¡to ¡20% At ¡least ¡10% ¡in ¡our ¡VPs 21 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Traffic: Contribution per class CDPs Auctioneers Crawlers Other Bytes 12.1 ¡% 1.1 ¡% 10.3 ¡% 76.5 ¡% L-‑IXP Requests 11.8 ¡% 22.5 ¡% 15.1 ¡% 50.6 ¡% Observations: ¡ big ¡players ¡– ¡ ¡significant ¡share ¡ ¡ 1. CDPs ¡ ¡ ¡ ¡ many ¡but ¡small ¡transactions ¡ 2. Real-‑time ¡bidding ¡ ¡ a ¡few ¡orgs ¡– ¡significant ¡share ¡ 3. Crawlers ¡ ¡ ¡ ¡ cloud ¡service ¡providers ¡ 4. Other ¡ ¡ ¡ ¡ All ¡classes ¡contribute. ¡More ¡to ¡discover 22 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Traffic patterns: bytes % ¡back-‑office ¡Web ¡traffic ¡increases ¡during ¡off ¡hours ¡in ¡IXPs 23 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Traffic patterns: requests L-‑IXP Observations: ¡ 1. A ¡multiplicative ¡factor ¡of ¡human ¡activity ¡(e.g., ¡RTB) ¡ 2. Non-‑human ¡triggered ¡activity ¡(e.g., ¡crawlers) 24 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Inter-domain perspective L-‑IXP Top ¡10 ¡traffic ¡carrying ¡links: ¡ 4 ¡x ¡Cloud ¡– ¡Content ¡ 3 ¡x ¡Search ¡– ¡Hosters ¡ 2 ¡x ¡CDN ¡– ¡Content ¡ ¡ 1 ¡x ¡Content ¡– ¡Advertisement ¡ Back-‑office ¡traffic ¡appears ¡in ¡many ¡peering ¡links 25 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Agenda 1. Introduction ¡ 2. Methodology ¡and ¡datasets ¡ 3. Characteristics ¡ 1. Traffic ¡ 2. Patterns ¡ 3. Inter-‑domain ¡perspective ¡ 4. CDN ¡back-‑office ¡traffic ¡ 5. The ¡end-‑user ¡perspective ¡ 6. Summary ¡and ¡implications 26 6.11.2014 Internet ¡Measurement ¡Conference ¡2014
Recommend
More recommend