Semantic Web Mining Bettina Berendt Humboldt-Universität zu Berlin – Institut für Wirtschaftsinformatik www.wiwi.hu- berlin.de/~berendt
Semantic Web Mining = Semantic Web Mining = Semantic Web Mining
AGENDA 1. Grundkonzepte 2. Vor- und Nachteile 1. Web Mining 2. Semantic Web 3. Semantic Web Mining – eine Vision 4. Ein Mikrokosmos 5. Bsp. 1: Web Usage 6. Bsp. 2: Web Content 7. Bsp. 3: Web Content 8. Ausblick
AGENDA 1. Grundkonzepte 2. Vor- und Nachteile 1. Web Mining 2. Semantic Web 3. Semantic Web Mining – eine Vision 4. Ein Mikrokosmos 5. Bsp. 1: Web Usage 6. Bsp. 2: Web Content 7. Bsp. 3: Web Content 8. Ausblick
Web Mining Knowledge discovery (aka Data mining): “the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1 Web Mining: die Anwendung von Data- Webmining-Gebiete: Mining-Techniken auf Inhalt, Web content mining (Hyperlink-) Struktur und Web structure mining Nutzung von Webressourcen. Web usage mining 1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining . Boston, MA: AAAI/MIT Press
Wissens- entdeckung ist iterativ Pattern discovery Pattern analysis Adaptiert nach http://www.crisp-dm.org/Images/187343_CRISPart.jpg
Das Semantic Web 2004-02-10: RDF and OWL are W3C Recom- mendations “The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation.” 1 “The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource 1 Berners-Lee, T., Hendler, J., & Lassila, O. (2001). Description Framework (RDF), The Semantic Web. Sci. American, May. which integrates a variety of 2 http://www.w3.org/2001/sw/ applications using XML for syntax 3 Berners-Lee, T. (2000). Semantic Web XML2000 . and URIs for naming.” 2 www.w3.org/2000/Talks/1206-xml2k-tbl/
Semantic Web Mining: Eine Kurzdefinition Semantic Web Mining is the combination of two complementary families of methods: Semantic Web methods and Web Mining Data methods. Semantic Web Mining is one of the following three: understanding (1) "Mining of the Semantic Web": Using Web Mining approaches on semantically enriched data as a standardised form of background knowledge. (2) "Mining for the Semantic Web": Building the Semantic Web by means of Web Mining - using methods of Web Mining in order to infer Semantic Web structures. (3) The iterative process of (1) and (2), in which the semantics obtained by mining are re-used for mining again. Stumme, G., Hotho, A., & Berendt, B. (in preparation). Semantic Web Mining – State of the Art and Future Directions.
AGENDA 1. Grundkonzepte 2. Vor- und Nachteile 1. Web Mining 2. Semantic Web 3. Semantic Web Mining – eine Vision 4. Ein Mikrokosmos 5. Bsp. 1: Web Usage 6. Bsp. 2: Web Content 7. Bsp. 3: Web Content 8. Ausblick
Warum Web Structure Mining? Bsp. PageRank bei Google „Eine Seite ist wichtig, wenn viele andere wichtige Seiten auf sie verweisen.“
Warum Web Content Mining? Bsp. Clustering bei Kartoo
Findet Web Mining semantische Relationen? (1)
Warum Web Usage Mining? Bsp. Empfehlungssysteme Re-Ranking gemäß Click-Häufigkeit Joachims, T. (2002). Optimizing search engines using clickthrough data. In z.B. Mobasher, B., Dai, H., Luo, T., & Nakagawa, M. (2002). Discovery and Proc. of SIGKDD-2002 (pp. 133-142). evaluation of aggregate usage profiles for Web personalization. Data NY: ACM Mining and Knowledge Discovery, 6, 61-82.
Hauptprobleme des Web Mining “Der Sinn findet nicht – oder nicht nur – an der syntaktischen Oberfläche statt.”: Synonyme, Homomyme, …; verschiedene Zielgruppen haben unterschiedliche Sprachen und Konzeptwelten. Verknüpfung von Informationen aus verschiedenen Quellen / Inferenzen > Muster-Erkennung
Findet Web Mining semantische Relationen? (2): Homonyme
Findet Web Mining semantische Relationen? (3): Homonyme u. Metaphern
AGENDA 1. Grundkonzepte 2. Vor- und Nachteile 1. Web Mining 2. Semantic Web 3. Semantic Web Mining – eine Vision 4. Ein Mikrokosmos 5. Bsp. 1: Web Usage 6. Bsp. 2: Web Content 7. Bsp. 3: Web Content 8. Ausblick
Warum Semantic Web? Bsp. strukturierte Suche RDF introduction filetype:.ppt .site:.edu Syntactic approach: Content (Keyword matching) “Metadata approach“ Didactic function: presentation or course material Didactic function: presentation \ business_presentation Didactic function: applicable for Western education system Resource language: English Quality measure: endorsed by employment / admission criteria to a US university � � � � all vague; need background knowledge
Standardisierte Metadaten zur Verbesserung der strukturierten Suche DC : Dublin Core A metadata standard specifying a minimal set <HTML><HEAD> of properties of a resource <META NAME="DC.Creator" CONTENT="(Scheme=Freetext) Thomas Seilnacht <seilnach@i-st.net>"> <META NAME="DC.Title" CONTENT="(Scheme=Freetext) 10 Schritte zum Bau der eigenen Homepage"> <META NAME="DC.Date.Created" CONTENT="(Scheme=Freetext) 1998-10-02"> <META NAME="DC.Form" CONTENT="(Scheme=IMT) text/html"> <META NAME="DC.Identifier" CONTENT="(Scheme=URL) http://www.seilnacht.tuttlingen.com/HTML/Homepage.htm"> <META NAME="DC.Description" CONTENT="(Scheme=Freetext) Anleitung zum Bau einer Homepage mit dem Netscape Communicator"> <META NAME="DC.Subject.Keywords" CONTENT="(Scheme=Freetext) Homepage, HTML, Internet, FTP, Polyview, Programmieren, Frames, JavaScript, CGI-Script, Grundbegriffe, Grafik, Freeware, INFORMATISCHE GRUNDBILDUNG"> <META NAME="DC.Type" CONTENT="Kurs/Onlinekurs/Virtuelles Seminar"> <META NAME="DC.Language" CONTENT="Deutsch"> <META NAME="DC.Description" CONTENT="(Scheme=URL) http://dbs.schule.de/db/mlesen.html?Id=7915&KATEGORIE=medien">
Semantische Suche: Bsp. healthcybermap.semanticweb.org/multiaxial.htm Dieses ist ein Konzept aus einer Ontologie von Krankheiten!
Was ist eine Ontologie? An ontology is „an explicit specification of a shared conceptualisation.“ (Gruber, 1993) Gruber, T.R. (1993). Towards principles for the design of ontologies used for knowledge sharing. In N. Guarino & R. Poli (Eds.), Formal Ontologies in Conceptual Analysis and Knowledge Representation Deventer, NL: Kluwer. Bozsak, Ehrig, Handschuh, Hotho, Maedche, Motik, Oberle, Schmitz, Staab, Stojanovic, Stojanovic, Studer, Stumme, Sure,Tane, Volz, & Zacharias (2002). KAON - Towards a Large Scale Semantic Web. In Kurt Bauknecht, A. Min Tjoa, & Gerald Quirchmayr (Eds.), E-Commerce and Web Technologies, Third International Conference, EC-Web 2002, Aix-en-Provence, France, September 2-6, 2002, Proceedings (pp. 304-313). Springer: LNCS 2455
Ontologie-basierte cooperateswith ( X,Y ) OBJECT NAME Website-Modellierung ⇒ cooperateswith ( Y,X ) PERSON PERSON TITLE PROJECT COOPERATES COOPERATES -- -- WITH WITH Ontology WORKS-IN RESEARCHER RESEARCHER Semantic Andreas Web Mining Hotho WORKS-IN URI-SWMining DAMLPROJ - Relational URI-AHO Metadata WORKS-IN COOPERATES- COOPERATES- WITH WITH URI-GST WWW
Hauptprobleme des Semantic Web “Wer soll das alles machen?” � Anreize und Anomalien
Strategien zur Schaffung des Semantic Web � “institutionell”: Zwang � “sozial”: Verteilte Autorenschaft à la Open Source (example: dmoz.org) � “informatisch / HCI”: Tool-Support � “informatisch / Informationsverarbeitung” � Semantic Web Mining! Zwei interessante Anwendungsgebiete mit gemischten Strategien: o Medizin o Bildung
The Open Directory Project � http://www.dmoz.org o Directory of Web-accessible resources o Human-maintained (people add resources) � Uses RDF to: o Describe category structure o Describe resources in each category o See http://dmoz.org/Computers/Internet/Searching/Directories/- Open_Directory_Project/Sites_Using_ODP_Data/desc.html � Used as taxonomy (“light-weight ontology”) for Google’s Web index
<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> <Topic r:id="Top"> <tag catid="1"/> <d:Title>Top</d:Title> <narrow r:resource="Top/Arts"/> .... Category Category </Topic> <Topic r:id="Top/Arts"> Structure Structure <tag catid="2"/> <d:Title>Arts</d:Title> <narrow r:resource="Top/Arts/Books"/> ... <narrow r:resource="Top/Arts/Artists"/> <symbolic r:resource="Typography:Top/Computers/Fonts"/> </Topic> .... </RDF>
Recommend
More recommend