Large Crawls of the Web for Linguistic Purposes Marco Baroni - PowerPoint PPT Presentation

Introduction Selecting seed urls Crawling Post-processing Conclusion Large Crawls of the Web for Linguistic Purposes Marco Baroni SSLMIT, University of Bologna Birmingham, July 2005 Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Crawling Post-processing Conclusion Outline Introduction 1 Selecting seed urls 2 Crawling 3 Basics Heritrix My ongoing crawl Post-processing 4 Filtering and cleaning Language identification Near-duplicate spotting Conclusion 5 Annotation Indexing, etc. Summing up and open issues Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Crawling Post-processing Conclusion The WaCky approach http://wacky.sslmit.unibo.it Current target: 1-billion token English, German, Italian Web-corpora by 2006. Use existing open tools, make developed tools publicly available. Please join us (for other languages as well!) Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Crawling Post-processing Conclusion The basic steps Select “seed” urls. Crawl. Post-processing. Linguistic annotation. Indexing, etc. Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Crawling Post-processing Conclusion Outline Introduction 1 Selecting seed urls 2 Crawling 3 Basics Heritrix My ongoing crawl Post-processing 4 Filtering and cleaning Language identification Near-duplicate spotting Conclusion 5 Annotation Indexing, etc. Summing up and open issues Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Crawling Post-processing Conclusion Selecting seed urls Use queries for random word combinations to Google search engine. Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Crawling Post-processing Conclusion Selecting seed urls Use queries for random word combinations to Google search engine. Start crawl from urls discovered in this way. Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Crawling Post-processing Conclusion Selecting seed urls Use queries for random word combinations to Google search engine. Start crawl from urls discovered in this way. Which random words? Middle-frequency words from general/newspaper corpus (“public”). Basic vocabulary list (“private”). Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Crawling Post-processing Conclusion Selecting seed urls Use queries for random word combinations to Google search engine. Start crawl from urls discovered in this way. Which random words? Middle-frequency words from general/newspaper corpus (“public”). Basic vocabulary list (“private”). How random are the urls collected in this way? Ongoing work with Massimiliano Ciaramita (ISTC, Rome). Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Outline Introduction 1 Selecting seed urls 2 Crawling 3 Basics Heritrix My ongoing crawl Post-processing 4 Filtering and cleaning Language identification Near-duplicate spotting Conclusion 5 Annotation Indexing, etc. Summing up and open issues Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Crawling Fetch pages, extract links. Follow links, fetch pages. Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Important in a good crawler Honoring robots.txt, politeness Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Important in a good crawler Honoring robots.txt, politeness Efficiency, multi-threading, robust “Frontier” Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Important in a good crawler Honoring robots.txt, politeness Efficiency, multi-threading, robust “Frontier” Avoid spider traps Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Important in a good crawler Honoring robots.txt, politeness Efficiency, multi-threading, robust “Frontier” Avoid spider traps Control over crawl scope Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Important in a good crawler Honoring robots.txt, politeness Efficiency, multi-threading, robust “Frontier” Avoid spider traps Control over crawl scope Progress monitoring Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Important in a good crawler Honoring robots.txt, politeness Efficiency, multi-threading, robust “Frontier” Avoid spider traps Control over crawl scope Progress monitoring Intelligent management of downloaded text Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Important in a good crawler Honoring robots.txt, politeness Efficiency, multi-threading, robust “Frontier” Avoid spider traps Control over crawl scope Progress monitoring Intelligent management of downloaded text Works out of the box, reasonable defaults Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Heritrix http://crawler.archive.org/ Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Heritrix http://crawler.archive.org/ Free/open crawler of Internet Archive Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Heritrix http://crawler.archive.org/ Free/open crawler of Internet Archive Very active, supporting community. . . Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Heritrix http://crawler.archive.org/ Free/open crawler of Internet Archive Very active, supporting community. . . that includes linguists and machine learning experts Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion The Heritrix WUI Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion The outpuf of Heritrix Documents distributed across gzipped “arc” files not larger than 100 MB. Info about retrieved docs (fingerprints, size, path) in arc file headers and in log files. Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion My German crawl On server running RH Fedora Core 3 with 4 GB RAM, Dual Xeon 4.3 GHz CPUs, about 1.1 TB hard disk space. Seeded from random Google queries for SDZ and basic vocabulary list terms. 8631 urls, all from different domains. SURT scope: http:(at, http:(de, Tom Emerson’s regexp to “focus on HTML ” For most settings, Heritrix defaults. Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Basics Crawling Heritrix Post-processing My ongoing crawl Conclusion Current status of crawl In about a week: Retrieved about 265 GB, about 54 GB of arc files In earlier experiments, 7 GB arc files yielded about 250M words after cleaning. Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Filtering and cleaning Crawling Language identification Post-processing Near-duplicate spotting Conclusion Outline Introduction 1 Selecting seed urls 2 Crawling 3 Basics Heritrix My ongoing crawl Post-processing 4 Filtering and cleaning Language identification Near-duplicate spotting Conclusion 5 Annotation Indexing, etc. Summing up and open issues Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Filtering and cleaning Crawling Language identification Post-processing Near-duplicate spotting Conclusion Post-processing Various forms of filtering, boilerplate stripping Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Filtering and cleaning Crawling Language identification Post-processing Near-duplicate spotting Conclusion Post-processing Various forms of filtering, boilerplate stripping Language identification Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Filtering and cleaning Crawling Language identification Post-processing Near-duplicate spotting Conclusion Post-processing Various forms of filtering, boilerplate stripping Language identification Near-duplicate identification Marco Baroni Linguistic Crawls

Introduction Selecting seed urls Filtering and cleaning Crawling Language identification Post-processing Near-duplicate spotting Conclusion Filtering as you crawl. . . Wouldn’t it be nice to filter as you crawl? Marco Baroni Linguistic Crawls

Large Crawls of the Web for Linguistic Purposes Marco Baroni - PowerPoint PPT Presentation

Introduction Selecting seed urls Crawling Post-processing Conclusion Large Crawls of the Web for Linguistic Purposes Marco Baroni SSLMIT, University of Bologna Birmingham, July 2005 Marco Baroni Linguistic Crawls Introduction Selecting

Grape growing crawls to the North Situation in Finland Ari Markkula ari.markkula@omenakumpu.com

Inference in OSNs via Lightweight Partial Crawls Jithin K. Sreedharan Inria, France Konstantin

Google Hacking 19 September 2013 Updated August 2015 #s Google's cache is over 95 Petabytes

Master EmLex CiTIUS Design and use of linguistic tools Introduction Linguistic Analysis

LCS 11: Cognitive Science Linguistic relativity Linguistic relativity GQ # 4.3 discussions

Acquiring second language proficiency - D. Pietropaolo The types of linguistic skills in a second

Modelling Cognition SE 367 : Cognitive Science Group C Nature of Linguistic Sign Linguistic

Combining linguistic and non- linguistic information in likelihood-ratio-based forensic voice

Large Customer Workshop: Understanding the Drainage Charge September 2016 For Discussion

FLST08-09 Linguistic Foundations Exercise of week 1 of Linguistic Foundations (31.10.2008)

Towards Linguistic Steganography: A Systematic Investigation of Approaches, Systems, and Issues

Authorship identification in large email collections: Experiments using features that belong to

OVERVIEW OF RESIDENCY FOR TAX PURPOSES Is Residency for tax purposes a choice? NO We do not

COMP 6611B: Topics on Cloud Computing and Data Analytics Systems Wei Wang Department of

Ling 555 Programming for Linguists Python Linguistic Examples and Functions (part I)

Corpus Creation for Disfluency Research Stephanie Strassel Linguistic Data Consortium

Neural representation of linguistic feature Neural representation of linguistic feature hierarchy

BMA-ANGD-A2 Linguistic Theory 1. Morphology and morphophonology (phonological) relations

function of musico-linguistic shifts in Kisii folktales Daniel W. Hieber University of

Dialogue Modelling, Language Processing Dynamics and Linguistic Knowledge Eleni

Overview Grammars, or: how to specify linguistic knowledge Towards more complex grammar

Elicitation in linguistic fieldwork or how to capture a speakers view of the world Annika

Selection procedures 2016 Linguistic Assistants Translators April 21, 2016 Please note -

Discovery of Linguistic Relations Using Lexical Attraction Deniz Yuret Overview Motivation