Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing...

42
- 1 - Von der Clickstream Analyse zur Linkstream Analyse. Clickstream Analyse und ihre Anwendung, Evaluierung von Clickstream Analyse Tools, Entwicklung eines Konzepts einer Linkstream Analyse für derstandard.at Bakkalaureatsarbeit im Rahmen des Seminars 0648 Seminar aus Informationswirtschaft SE/PI SS 2005 o. Univ. Prof. Dkfm. Dr. Wolfgang H. Janko Univ.-Ass. Dr. Michael Hahsler Abteilung für Informationswirtschaft WU Wien Barbara Krumay (Matr.-Nr. 8605492) Studium Wirtschaftsinformatik an der WU-Wien Betreuer: Dr. Michael Hahsler

Transcript of Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing...

Page 1: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 1 -

Von der Clickstream Analyse zur Linkstream Analyse. Clickstream Analyse und ihre Anwendung, Evaluierung von Clickstream Analyse Tools,

Entwicklung eines Konzepts einer Linkstream Analyse für derstandard.at

Bakkalaureatsarbeit im Rahmen des Seminars 0648 Seminar aus Informationswirtschaft SE/PI SS 2005

o. Univ. Prof. Dkfm. Dr. Wolfgang H. Janko Univ.-Ass. Dr. Michael Hahsler

Abteilung für Informationswirtschaft WU Wien

Barbara Krumay (Matr.-Nr. 8605492) Studium Wirtschaftsinformatik an der WU-Wien

Betreuer: Dr. Michael Hahsler

Page 2: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 2 -

Inhaltsverzeichnis Inhaltsverzeichnis...................................................................................................................2 Abbildungsverzeichnis ...........................................................................................................4 Vorwort..................................................................................................................................5

Ziel und Motivation der Arbeit ...........................................................................................5 Dank...................................................................................................................................5 Hinweis auf geschlechterspezifische Benennung.................................................................5

1 Zusammenfassung, Stichworte und Kernpunkte für das Management .............................6 1.1 Zusammenfassung...................................................................................................6 1.2 Abstract ..................................................................................................................6 1.3 Stichworte...............................................................................................................6 1.4 Keywords................................................................................................................6 1.5 Kernpunkte für das Management.............................................................................6

2 Einleitung .......................................................................................................................8 3 Grundlagen Web Mining ................................................................................................9

3.1 Definition................................................................................................................9 3.1.1 Web Content Mining .......................................................................................9 3.1.2 Web Structure Mining ...................................................................................10 3.1.3 Web Usage Mining........................................................................................10

4 Phasen im Web Usage Mining ......................................................................................12 4.1 Data Collection .....................................................................................................12

4.1.1 Logfiles .........................................................................................................12 4.2 Use- Identifizerung ...............................................................................................15

4.2.1 Cookies .........................................................................................................15 4.2.2 Registrierung und Login ................................................................................15 4.2.3 1-Pixel-Bilder................................................................................................16

4.3 Identifizierung von Sessions bwz. Transaktionen ..................................................16 4.3.1 Identifizierung von Sessions ..........................................................................16

4.4 Data Mining Methoden im Web Mining................................................................18 4.4.1 Assoziations- und Sequenzanalyse.................................................................18 4.4.2 Segmentierung ..............................................................................................18 4.4.3 Methoden zur Klassifikation und Prognose im Web Mining ..........................18

5 Clickstream Analyse .....................................................................................................20 5.1 Clickstream...........................................................................................................20 5.2 Definition Clickstream Analyse.............................................................................20

5.2.1 Clickstream Analyse - Web Traffic Analyse ..................................................20 5.2.2 Clickstream Analyse - E-Commerce basierte Analyse ...................................20 5.2.3 Data Webhouse Architecture .........................................................................20

5.3 Clickstream Analyse - Unterschiedliche Ansätze...................................................21 5.3.1 Markov Models .............................................................................................21 5.3.2 PACT............................................................................................................21 5.3.3 Golden Path Analyzer (GPA) ........................................................................22 5.3.4 Clickstream Tree Model ................................................................................22

5.4 Privacy und Datenschutz .......................................................................................22 5.4.1 Privacy Preferences Project - P3P..................................................................23

6 Evaluierung unterschiedlicher Clickstream Analyse Tools ............................................24

Page 3: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 3 -

6.1 Webalizer..............................................................................................................24 6.2 Sawmill.................................................................................................................26 6.3 Clicktracks............................................................................................................27 6.4 Web Utilization Miner (WUM) .............................................................................28

7 Linkstream Analyse ......................................................................................................29 7.1 Definition..............................................................................................................29 7.2 Bestehende Architektur bei Online Zeitungen .......................................................29 7.3 Exkurs: IVW bzw. ÖWA ......................................................................................30

7.3.1 Allgemein......................................................................................................30 7.3.2 Technologie der IVW bzw. ÖWA-Analyse....................................................31 7.3.3 Implementierung ...........................................................................................32

7.4 Besonderheiten bei derstandard.at .........................................................................32 7.4.1 Livestat .........................................................................................................32 7.4.2 Kritikpunkte an Livestat und Motivation für ein zusätzliches Analyse Tool...34

7.5 Möglicher Lösungsansatz für eine Linkstream Analyse .........................................35 7.5.1 Zusätzliche Daten..........................................................................................35 7.5.2 Methodik der Datenerfassung ........................................................................35 7.5.3 Methodik der Datenauswertung .....................................................................36 7.5.4 Visualisierung ...............................................................................................36 7.5.5 Mögliche Probleme .......................................................................................37

8 Ausblick .......................................................................................................................38 8.1 Clickstream Analyse, Linkstream Analyse und Recommender Systems ................38

9 Literaturverzeichnis ......................................................................................................39 10 Dictionary.................................................................................................................42

Page 4: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 4 -

Abbildungsverzeichnis Abbildung 1: Phasen des Web Usage Mining [Perr04, S. 6]..................................................10 Abbildung 2: Screenshot „The Common Logfile Format“ [W3C95] .....................................13 Abbildung 3: Logfile Einträge des Webservers vio.at ...........................................................13 Abbildung 4: Combined Logfile Format [Apac05]................................................................14 Abbildung 5: Extended Logfile Format [Micr05]..................................................................14 Abbildung 6: IIS Logfile [Micr05]........................................................................................15 Abbildung 7: Zeitorientierte Heurisitk h1 [vgl. BMSW01, S. 3]............................................17 Abbildung 8: Zeitorientierte Heuristik h2 [vgl. BMSW01, S. 3]............................................17 Abbildung 9: Navigationsorientierte Heuristik h-ref [vgl. BMSW01, S. 3] ...........................17 Abbildung 10: Architektur eines Data Webhouse [Saty02] ...................................................21 Abbildung 11: Monatliche Statistik Webalizer (Quelle: VIO.at) ...........................................25 Abbildung 12: Stündliche Statistik Webalizer (Quelle: VIO.at) ............................................25 Abbildung 13: Visualisierung von Session-Pfaden in Sawmill (Quelle:

http://www.sawmill.net/samples) ..................................................................................27 Abbildung 14: Visualisierung der Click-Häufigkeit von benutzten Links in Clicktracks .......28 Abbildung 15: Visualisierung der Pfade in Clicktracks .........................................................28 Abbildung 16: Schematische Darstellung der Web-Infrastruktr von Online-Medien (Quelle:

ixware.at)......................................................................................................................30 Abbildung 17: ÖWA Daten April 2005 (Auszug), [vgl. ÖWA05, Menüpunkt Daten] ...........31 Abbildung 18: Aufbau des SZM-Verfahrens (Quelle: http://www.oewa.at/index.php?id=1041)

.....................................................................................................................................32 Abbildung 19: Schematische Darstellung der Web-Infrastruktr bei derstandard.at (Quelle:

ixware.at)......................................................................................................................33 Abbildung 20: Auswertungszeitraum 24.00 h = 1 Tag Livestat über alle Resorts (Quelle:

Livestat) .......................................................................................................................34 Abbildung 21: Auswertungszeitraum 15 min Livestat über alle Resorts (Quelle: Livestat)....34

Page 5: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 5 -

Vorwort

Ziel und Motivation der Arbeit Die Arbeit wird im Rahmen der IT-Spezialisierung „Informationswirtschaft“ des Studiums Wirtschaftsinformatik – Bakkalaureat an der WU-Wien erstellt. Die in den bereits absolvierten Lehrveranstaltungen erarbeiteten Themen können in der Arbeit verwendet und weiterentwickelt werden. Für das vorliegende Thema besteht ein Anknüpfungspunkt zum Information Retrieval. Die Arbeit ist gleichzeitig eine Möglichkeit, wissenschaftliches Arbeiten zu praktizieren und aktuelle Themen aufzubereiten. Ziel der konkreten Arbeit ist, ein Konzept für ein Linkstream Analyse Tool zu entwickeln, das in weiterer Folge für derstandard.at programmiert und entwickelt werden kann. Ausgangspunkt ist die theoretische Basis der Clickstream Analyse und nach Vergleich unterschiedlicher Clickstream Analyse Tools soll aus den gewonnenen Erkenntnissen das Konzept für eine Linkstream Analyse entstehen. Dabei soll aber berücksichtigt werden, dass das Tool auch wieder verwendbar (Reuse von Code) ist. Die Programmierung und Implementierung des Tools sind nicht Teil der Arbeit.

Dank Mein besonderer Dank gilt meinem Sohn Clemens, der mir viel mehr Verständnis für mein Studium entgegengebracht hat, als man es von einem 5-jährigen erwarten kann. Weiters danke ich Alex, der mir immer mit Rat und Tat zur Verfügung stand und durch sein fundamentales Informatikwissen so manche fachliche Diskussion in Gang gebracht hat. Und ich danke meiner Mutter, die viel Zeit dafür verwendet hat, Clemens zu beschäftigen, damit ihm die Mama nicht ganz so fehlt. Weiters danke ich Mag. Alexander Mitteräcker von derstandard.at, der mir den praktischen Nutzen des theoretisch Erarbeiteten vor Augen geführt hat.

Hinweis auf geschlechterspezifische Benennung

Aufgrund der besseren Lesbarkeit wurde immer dann die männliche Form verwendet und wurden damit beide Geschlechter gemeint, wenn keine konkrete Person damit angesprochen war.

Page 6: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 6 -

1 Zusammenfassung, Stichworte und Kernpunkte für das Management

1.1 Zusammenfassung Die vorliegende Arbeit zeigt einen Überblick über den Einsatz des Web Usage Mining und die verschiedenen Ansätze der Clickstream Analyse. Da existierende Clickstream Analyse Tools vor allem auf die Bedürfnisse von Webshops eingehen, können diese nur schwerlich an die Anforderungen von Online-Zeitungen angepasst werden. Die hier vorgestellte Linkstream Analyse beobachtet nicht nur den Weg des Users durch eine Website, sondern auch die Links, die dabei verwendet werden. Dies ist vor allem im Online-Zeitungs-Bereich relevant, da zwei Seiten durch unterschiedliche Links, platziert in verschiedenen Link-Lokationen, verbunden sein können. Die User können anhand ihrer präferierten Link-Lokation Clustern zugeordnet und beobachtet werden. Die Analyse des Linkstream hat zum Ziel, dem Sitebetreiber die Attraktivität verschiedener Link-Lokationen anzuzeigen. Daraus können unterschiedliche Handlungsweisen abgeleitet werden. Von Umgestaltung der Seite über Banner-Platzierung bis hin zu personalisierte Links in der bevorzugten Link-Lokation.

1.2 Abstract This article gives an overview of the usage of Web Usage Mining and the different approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers have totally different requirements, which can’t be satisfied by existing tools. In this paper we introduce a Linkstream Analysis, which fits more to the needs of Online Newspapers. The Linkstream Analysis gives the possibility to watch a users behaviour, not only across a website, but also the links he uses too. This is important for Online Newspapers, since they offer their users different link location to the same destination. The users can be clustered by their preferred link locations and the Online Newspapers can react. The reaction can be the positioning of banners near to the preferred link location or redesign of the whole site or recommendations in this area.

1.3 Stichworte Web Mining, Web Usage Mining, Clickstream Analyse, Evaluierung von Clickstream Tools, Linkstream Analyse

1.4 Keywords Web Mining, Web Usage Mining, Clickstream Analysis, Evaluation of Clickstream Tools, Linkstream Analysis

1.5 Kernpunkte für das Management Dieser Beitrag beschreibt, wie Web Usage Mining eingesetzt werden kann. Clickstream Analyse als Spezialgebiet des Web Usage Mining steht dabei im Vordergrund.

• Vorstellung von Clickstream Analyse und verschiedene Ansätze • Es werden drei am Markt befindliche Logfile– bzw. Clickstream Analyse Tools

(Webalizer, Sawmill, Clicktracks) kurz evaluiert, WUM als kurz vorgestellt

Page 7: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 7 -

• Die Möglichkeit einer Linkstream Analyse wird unter Berücksichtigung der besonderen Anforderung von Online Zeitungen als möglicher Lösungsansatz entworfen.

Page 8: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 8 -

2 Einleitung Im Jahr 2005 ist es für ein großes Unternehmen kaum noch möglich, ohne Webauftritt existieren zu können. Ob Unternehmenswebsite, Produktkataloge, Online Shop – in allen Branchen wurde das „Netz“ als Marketinginstrument entdeckt. Doch der Webauftritt allein verschafft dem Unternehmen heutzutage keinen strategischen Vorteil mehr. Viel wichtiger ist, wie dieser Webauftritt beim Kunden ankommt. Web Usage Mining ist eine Möglichkeit, um zu analysieren, wie die User sich auf der Seite bewegen. Anhand von ausgeklügelten Heuristiken können die Websites dem Userverhalten angepasst werden. Die Clickstream Analyse bietet vor allem die Möglichkeit zu ermitteln, wie sich die User über die Website bewegen. Dadurch können wertvolle Informationen für die Websitegestaltung und die Platzierung von Werbung, Produkten etc. gewonnen werden. Die vorliegende Arbeit soll Auskunft geben, wie eine Clickstream Analyse durchgeführt werden kann, welche Voraussetzungen dafür notwendig sind und wie diese abgewandelt werden kann, um eine den Anforderungen einer Online-Zeitung entsprechende Linkstream Analyse entwickeln zu können.

Page 9: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 9 -

3 Grundlagen Web Mining

3.1 Definition “Web mining can be broadly defined as the discovery and analysis of useful information from the World Wide Web“ [CMSr97, S 1] „Web mining is the use of date mining techniques to automatically discover and extract information from Web documents and services“[KoBl00, S. 2] Wird beim herkömmlichen Data Mining vor allem auf ein meist strukturiertes oder zumindest wohlbekanntes Data Warehouse zugegriffen, so liegen die Daten für Web Mining im unstrukturierten, unüberschaubaren Internet vor. Grob kann man die im Internet auftretenden Daten einteilen in Content: die tatsächlichen Daten in Webseiten (meist Text und Grafiken, aber auch Video, Musik ...)

• Struktur: Daten, die die Organisation des Content beschreiben • Usage: Daten, die die Verwendungsmuster von Webseiten repräsentieren • User Profile: Daten, die demographische Information enthalten

All diese Daten liegen in unterschiedlichen Datenquellen vor, serverseitig (z.B. HTML-Files, Server Logfiles, Proxy Logfiles ...) und clientseitig (Remote Agents, Modified Browsers). Aus den gegebenen Daten und den unterschiedlichen Zielrichtungen haben sich drei Forschungsgebiete des Web Mining entwickelt:

• Web Content Mining • Web Structure Mining • Web Usage Mining

3.1.1 Web Content Mining Web Content Mining befasst sich mit der Analyse der im Web vorhandenen Daten. Hierbei wird in der gängigen Literatur zwischen Information Retrieval View Database Approach (DB-View) unterschieden, wobei Agenten Teile oder den gesamten Web Mining Prozess übernhemen können (Agent Based Approach). [siehe CoMS97, S. 2 f und KoBl00, S. 4ff] “The goal of Web content mining from the IR view is mainly to assist or to improve the information finding or filtering the information to the users usually based on either inferred or solicited user profiles, while the goal of Web content mining from the DB view mainly tries to model the data on the Web and to integrate them so that more sophisticated queries other than the keywords base search could be performed” [KoBl00, S.4] Allgemein kann man sagen, dass der IR-View und auch der Agent Based Approach sich mit den unstrukturierten oder semi-strukturierten Daten im Web beschäftigt, also mit Hypertext-und Textdokumenten, während der DB-View von semi-strukturierten Daten und datenbankgestützten Webseiten ausgeht. Der Agent Based Approach unterscheidet

• Intelligente Suchagenten • Informations-Filterung und Kategorisierung • Personalisierte Webagenten

Mehr zum Web Content Mining siehe auch [CoMS97].

Page 10: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 10 -

3.1.2 Web Structure Mining Das Web Structure Mining beschäftigt sich mit den Hyperlinks, die das World Wide Web ausmachen. Inspiriert ist dieses Forschungsfeld durch Untersuchungen zum Thema soziales Netzwerk und Zitationsanalyse. So können mittels Web Structure Mining anhand der hinführenden und wegführenden Links spezielle Seiten kategorisiert werden (z.B. Hubs, Authorities). Web Structure Mining hat insofern hohe Bedeutung, da sich Googles Page Rank Verfahren darauf begründet [KoBl00].

3.1.3 Web Usage Mining

3.1.3.1 Definition „Mit Web Usage Mining bezeichnet man die Analyse des Nutzungsverhaltens von Websites.“ [Rahm02, S. 1] Die Kernfragen des Web Usage Mining sind dabei, wie sich der User auf der Webseite verhält, welche Inhalte ihn zu welchem Handeln anregen. Das Verhalten der User kann aus Logfiles mit Hilfe von statistischen und Data Mining Methoden analysiert werden. Die folgende Abbildung zeigt eine Darstellung der Phasen des Web Usage Mining:

Abbildung 1: Phasen des Web Usage Mining [Perr04, S. 6]

Häufiger kann in der Literatur aber auch folgende Phaseneinteilung gefunden werden: Preprocessing Pattern Discovery Pattern Analysis Im Vergleich kann man sagen, dass bei Perry [Perr04] die Phase Data Collection ebenfalls berücksichtigt wurde und die Phasen Pattern Discovery und Pattern Analysis in der Phase Data Analysis zusammengefasst sind. Da für die Clickstream Analyse die Phase „Data Collection“ eine wichtige Rolle spielt, werden die Phasen hier anhand der Einteilung von Perry kurz erläutert

3.1.3.2 Data Collection “In order to be able to mine any information, an accurate and reliable method of recording data is required. … The basis of any statistical analysis is a reliable source of data, as representative of real use as possible, without introducing any bias or significant overhead; ….” [Perr04, S. 7]

Page 11: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 11 -

Webseiten werden über das http Protokoll abgerufen und jeder Abruf oder Hit (siehe Kapitel 10) wird in einem Logfile (siehe Kapitel 4.1.1) gespeichert. Allerdings kann man aufgrund von Hits keinerlei Aussage über die Usage – also die Verwendung – einer Seite treffen, da Hits die über den Webserver abgerufenen Dokumente wiedergeben (z.B. Grafiken, Frames ...). Für die Usage sind Page Views die aussagekräftigen Daten, das ist die Anzahl von komplett ausgelieferten Seiten.. Abgesehen von den serverseitigen Logfiles ist es aber möglich, dass Usage Informationen auf Client-Seite gespeichert werden. Dafür sind eigene Agenten oder modifzierte Browser notwendig. Eine weitere Möglichkeit, Daten über das Verhalten von Usern auf einer Website zu sammeln ist das sogenannte „Packet Sniffing“. Dabei werden Datenpakete, die zwischen Server und Client hin und her geschickt werden „mitgesnifft“. Diese Daten können zur Analyse herangezogen werden (in der Praxis nicht sehr relevant, wird vorwiegend in Testumgebungen eingesetzt).

3.1.3.3 Preprocessing Ziel des Preprocessing ist die Aufbereitung der Daten, das heißt all jene Einträge in Logfiles, die für die Analyse keine Aussagekraft haben werden entfernt, fehlende Daten aus anderen Logfiles werden hinzugefügt, User und Sessions werden identifiziert. Am Ende des Preprocessing sollen die Daten in der Form vorliegen, dass sie so genau wie möglich die Aktivitäten der User wiedergeben. Die dabei entstehenden Probleme ergeben sich vor allem aus Caching-Mechnismen und Proxy-Servern.

3.1.3.4 Data Analysis Im Pattern Discovery wird versucht, mit Hilfe von statistischen und Data Mining Methoden, Muster (Pattern) zu erkennen. Die Data Mining Methoden, die im Web Mining Anwendung finden werden im Kapitel 4.4 genauer erläutert. In der Phase der Pattern Analysis wird versucht, die gefundenen Muster zu analysieren.

Page 12: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 12 -

4 Phasen im Web Usage Mining

4.1 Data Collection

4.1.1 Logfiles Wie bereits in Kapitel 3.1.3 Web Usage Mining erörtert, werden Logfiles herangezogen, um darin Pattern zu finden und zu analysieren. Die meisten Logfiles werden als ASCII Zeichen in einem File ohne Formatierung gespeichert, um Analyse Tools zur Verfügung zu stehen. Von Webservern werden unterschiedliche Logfiles (error-log, access-log ...) in unterschiedlichen Formaten (CLF, DLF …) geschrieben. Für die Analyse wird meist das access-log herangezogen, in dem der Zugriff der User protokolliert wird.

4.1.1.1 Definition “W3C httpd can log all the incoming requests to an access log file. It also has an error log where internal server errors are logged. All log files are generated using the common log file format that several WWW servers use.” [W3C95] Logfileeinträge werden immer dann Mal geschrieben, wenn eine Seite von einem Webserver abgerufen wird.

4.1.1.2 CLF Das Common Logfile Format (CLF) kann von den meisten Webservern geschrieben und daher auch von den meisten Analyse Tools bearbeitet werden. Das CLF hat eine fixe Form und genaue Vorgaben, was in welche Felder geschrieben werden darf. Werden Felder nicht belegt, so wird das Zeichen „-„ eingefügt, zwischen den Feldern ist ein Leerzeichen oder Tabulator gesetzt, die Zeile endet mit einem Linefeed (LF). Folgender Screenshot zeigt den fixen Aufbau des CLF:

Page 13: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 13 -

Abbildung 2: Screenshot „The Common Logfile Format“ [W3C95]

Gespeichert werden Namen oder die IP-Adresse, von der der User zugreift, den Remote Logname des Users (identD nach RFC931 – wird nur selten verwendet), seinen Usernamen, falls er sich über htaccess authentifiziert hat, Datum und Uhrzeit des Zugriffs inkl. Zeitzone, den Request – also die Anfrage, die der User im Browser über einen Link oder direkt in der Address-Zeile eingetragen hat, den http Status-Code und die Größe des übertragenen Dokuments in Bytes. Die nächste Abbildung zeigt einen Auszug aus einem Logfile des Webserver der Autorin, die Zeilennummer wurden für die bessere Verständlichkeit hinzugefügt. 1 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET / HTTP/1.1" 200 7749 2 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /vio.css HTTP/1.1" 200 1338 3 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /img/favicon.ico HTTP/1.1" 200

318 4 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /img/spacer.gif HTTP/1.1" 200 43 5 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /img/draht.gif HTTP/1.1" 200

36438 6 194.152.96.130 - - [27/Apr/2005:18:13:27 +0200] "GET /img/vio-logo.gif HTTP/1.1" 200

8343 7 194.152.96.130 - - [27/Apr/2005:18:14:43 +0200] "GET /index.php?page=4 HTTP/1.1"

200 7056 8 194.152.96.130 - - [27/Apr/2005:18:14:43 +0200] "GET /img/vio_fingers.gif HTTP/1.1"

200 26810

Abbildung 3: Logfile Einträge des Webservers vio.at

Page 14: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 14 -

Man kann erkennen, • dass in diesem Fall die Felder Remote Logname und Username nicht verwendet

wurden • dass viele Logfileeinträge keinerlei Relevanz für Web Usage Mining enthalten (Zeilen

2, 3, 4, 5, 6, 8), die daher im Preprocessing entfernt werden können. • dass die Zeilen 1 und 7 zeigen, welche Requests der User an den Webserver geschickt

hat. Wenn die Felder Username und Remote Logname nicht gesetzt sind ist es sehr schwierig, Sessions und User zu identifizieren. Ist der User aus Zeile 1 der gleiche User wie der aus Zeile 7, hat er sich lediglich durch einen Link in der Seite bewegt oder ist ein anderer User von der gleichen IP-Adresse direkt bei Zeile 7 eingestiegen?

4.1.1.3 Combined Logfile Format (DLF) Das Combined Logfile Format entspricht weitgehend dem CLF, enhält aber zwei weitere zusätzliche Felder, die für die Bildung von Sessions und Clickstream Analysen sehr entscheidend sind. Das DLF ist ebenfalls fix vorgegeben, nicht belegte Felder müssen mit _ gekennzeichnet werden. Diese zusätzlichen Felder sind Referrer (Seite, von der der User auf die soeben aufgerufenen Seite gelangt ist) und User Agent (Browser). Die folgende Abbildung zeigt einen Auszug aus einem Combined Logfile Format, welches den Referrer (http://www.example.com/start.html) und den User Agent (Mozilla/4.08[en] ...) enthält. 127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

Abbildung 4: Combined Logfile Format [Apac05]

4.1.1.4 eCLF Das in Kapitle 4.1.1.2 CLF vorgestellte Common Logfile Format ist starr und daher limitiert, so dass vom W3C im Jahr 1996 ein Extended Common Logfile Format definiert wurde. Dieses Logfile-Format bietet dem Administrator die Möglichkeit, die zu speichernde Loginformation im Rahmen des HTTP-Protokolls zu konfigurieren. Das eCLF kann sowohl directives (Richtlinien) wie auch Logfileeinträge enthalten. [siehe W3C96] #Software: Internet Information Services 6.0 #Version: 1.0 #Date: 2001-05-02 17:42:15 #Fields: time c-ip cs-method cs-uri-stem sc-status cs-version 17:42:15 172.16.255.255 GET /default.htm 200 HTTP/1.0

Abbildung 5: Extended Logfile Format [Micr05]

4.1.1.5 Proprietäre Logfiles am Beispiel des IIS Logfile Format Einige Webserverhersteller verwenden proprietäre Logfile-Formate. Als Beispiel soll hier das Logfile des IIS (Internet Information Server) von Microsoft vorgestellt werden. Der IIS kann – abhängig von der Version – jedoch auch Logfiles in gängigen Logfile-Formaten speichern (z.B. CLF, DLF, eCLF). Ein Logfile-Eintrag besteht aus 15

Page 15: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 15 -

vorgegebenen Feldern, die teilweise mit dem CLF ident sind und durch Beistriche getrennt werden. “In addition, IIS format includes detailed items, such as the elapsed time, number of bytes sent, action (for example, a download carried out by a GET command), and target file.” [Micr05] Die definierten Felder sind:

• IP-Adresse des Clients • Benutzername • Datum • Uhrzeit • Dienst (W3SVC z.B. für WWW-Server, MSFTPSVC für FTP-Server ...) • Computername (NetBIOS-Name) • IP-Adresse des Servers • Verarbeitungszeit • Erhaltene Bytes • Gesendete Bytes • Service-Statuscode • Windows-Statuscode • Name der Opteration (GET, POST) • Ziel der Operation • Parameter

192.168.114.201, -, 03/20/01, 7:55:20, W3SVC2, SALES1, 172.21.13.45, 4502, 163, 3223, 200, 0, GET, /DeptLogo.gif, -, 172.16.255.255, anonymous, 03/20/01, 23:58:11, MSFTPSVC, SALES1, 172.16.255.255, 60, 275, 0, 0, 0, PASS, /Intro.htm, -, Abbildung 6: IIS Logfile [Micr05]

4.2 Use- Identifizerung Wie im Kapitel 4.1.1 erwähnt, kann aus Logfiles kaum eine Session- oder Useridentifizierung erfolgen. Daher gibt es unterschiedliche Möglichkeiten, um die Usersessions erkennen zu können

4.2.1 Cookies Cookies (siehe Kapitel 10) werden vom Server ausgegeben und beim Client (meist ein Browser) des User gespeichert. Mit jedem Aufruf werden die im Cookie hinterlegten Daten an den Server zurück übergeben. Wenn diese Cookies persistent sind, also auch nach dem Schließen des Clients gespeichert bleiben, so können User erkannt werden, die immer wieder auf die Seite zurückkehren. In den Cookies können aber auch Daten gespeichert werden können, daher werden sie häufigt eignesetzt, um einem wiederkehrenden User ein nochmaliges Login zu ersparen.

4.2.2 Registrierung und Login Durch Registrierung von Usern (Username/Password) kann mehr Information über den einzelnen User gesammelt werden. Dies bezieht sich nicht nur auf Web Usage Mining, es können auch demographische Daten erhoben werden. Das Login und die damit verbundene

Page 16: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 16 -

Session sind unanbhängig von Browser und Computer – der User kann immer eindeutig identifiziert werden. Allerdings können User dadurch auch abgeschreckt werden, da sie entweder keine Lust zur Registrierung haben oder vor Nachverfolgbarkeit Angst haben.

4.2.3 1-Pixel-Bilder 1-Pixel-Bilder werden vor allem von großen Unternehmen verwendet, die eine verläßliche, standardisierte Logfileauswertung benötigen. Auf jeder Seite wird ein 1-Pixel großes Bild platziert und mit Daten – zum Beispiel im Namen – versehen. Der Abruf dieser Bilder in einer Seite löst einen Logfile-Eintrag aus. Dies ist auch die von der ÖWA für Online Medien vorgegebene Technologie (siehe Kapitel 7.3).

4.3 Identifizierung von Sessions bwz. Transaktionen Um die vorliegenden Daten in Hinblick auf Web Usage Mining und Clickstream Analyse analysieren zu können, müssen Sessions und Transaktionen eindeutig identifiziert werden. “Some authors propose dividing or joining the session into meaningful clusters, i.e. transaction.” [Grca03, S. 2]

4.3.1 Identifizierung von Sessions „Session Identification is carried out using the assumption that if a certain predefined period of time between to accesses is exceeded, a new session starts at that point.“ [Grca03, S.2] User und damit ihre Sessions können anhand von Cookies, Login und 1-Pixel-Bildern erkannt werden (siehe Kapitel 4.2). Für die Zuordnung von Sessions zu einem User gibt es spezielle Lösungsansätze. Da eine Session ein Set von Aktivitäten des Users auf einer Website ist, hängt die Art des “sessionizing” von der nachfolgenden Analyse ab. Für Marketing-Analysen reicht meist das Zählen der von einem User besuchten Seiten und die Verweildauer aus, für Analysen, die das Navigieren des Users auf der Website zum Ergebnis haben sollen ist die Reihenfolge ein wichtiges Kriterium. [vgl. BMSW01, S. 2] “A sessionizing heuristic partitions the user activity log into a set of “constructed sessions” therby deciding which activities of the same user belong together. A “real session” on the other hand, contains the activities, that the user performed together accourding to a reference modell, ...” [BMSW01, S. 2]

4.3.1.1 Zeitorientierte Heuristiken Zeitorientierte Heuristiken gehen von einer maximalen Session-Zeit aus (z.B. 30 Minuten), die “Real Sessions” in “Constructed Sessions” teilt (einige Autoren setzen “Constructed Sessions” mit Transaktionen gleich). Die Verweildauer auf einer Website ist abhängig von Content und Struktur sowie Zweck einer Website. So kann es auch dazu kommen, dass eine “Constructed Session” durch den Ablauf einer gewissen Zeitspanne vor dem nächsten Request beendet wird und dieser Request zum ersten einer neuen Session wird. Zwei dieser zeitorientierten Heuristiken sollen hier kurz vorgestellt werden. Zeitorientierte Heuristik h1 θ = Maximale Dauer einer Session t0 = timestamp des ersten URL-Requests in einer “Constructed Session” Ein Request gehört dann zur Session wenn t – t0 ≤ θ

Page 17: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 17 -

Das heißt in Konsequenz daraus beginnt eine neue “Constructed Session” wenn t ≥≥≥≥ t0 + θθθθ

Abbildung 7: Zeitorientierte Heurisitk h1 [vgl. BMSW01, S. 3]

Zeitorientierte Heuristik h2 δ = Maximale Verweildauer auf einer Website t’ = Timestamp eines URL-Requests der zuletzt einer “Constructed Session” zugeordnet wurde Der nächste Request mit dem Timestamp t’’ gehört dann zur gleichen Session wenn t’ – t’’ ≤≤≤≤ δδδδ Ansonsten wird dieser Request zum ersten einer neuen “Constructed Session”.

Abbildung 8: Zeitorientierte Heuristik h2 [vgl. BMSW01, S. 3]

4.3.1.2 Navigationsorientierte Heuristiken Navigationsorientierte Heuristiken basieren darauf, das User eher Links verwenden, um zwischen Seiten zu navigieren als URLs einzutippen. Daher kann der Referrer für diese Heuristik herangezogen werden. Referrer, die auf keine vorhergehende Seite verweisen sind der Beginn einer neuen Session. Navigationsorientierte Heuristik h-ref (Referrer-based) p, q = aufeinanderfolgende Page Requests mit einem Timestamp tp und tq ∆ = definierter Zeitrahmen für Verzögerung (Delay) S = “Constrcuted Session” p ∈ S q wird zur Session S hinzugefügt wenn der Referrer für q in der Session S bereits aufgerufen wurde oder wenn der Referrer undefiniert ist und (tq – tp) ≤≤≤≤ ∆∆∆∆

Abbildung 9: Navigationsorientierte Heuristik h-ref [vgl. BMSW01, S. 3]

Page 18: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 18 -

4.4 Data Mining Methoden im Web Mining Data Mining Methoden, die im Web Mining Einsatz finden:

• Assoziations- und Sequenzanalyse • Segmentierung • Klassifikation und Prognose • Kausale Netze

[vgl. HiMW02, S. 20 ff]

4.4.1 Assoziations- und Sequenzanalyse “Die Assoziationsanalyse bildet Regeln, die Beziehungen zwischen Elementen aus einer Transaktionsmenge wiedergeben ... Gesucht werden Elemente, die verstärkt gemeinsam innerhalb von Transaktionen auftreten.” [HiMW02, S. 20] In Bezug auf Web Usage Mining heißt das, dass Seiten identifiziert werden, die in einer Sessions gemeinsam aufgerufen werden. Grundlage sind immer Sessions oder Tranksaktionen mit bestimmten Attributen (z.B. Transaktionszeitpunkt, Useridentifikation). Für jeden User wird eine Sequenz zeitlich angeordneter Tranksaktionen gebildet, häufige Sequenzen werden gesucht. “Eine Sequenz <a,b,c> mit dem Support von x% bedeutet, daß x% aller betrachteteten Sequenzen in zeitlich aufeinanderfolgenden Transaktionen die Elemente a, b und c enthalten” [HiMW02, S. 21] “Mit Hilfe der Sequenzanalyse lassen sich im Netz typische Bewegungspfade der Besucher, das so gennante Clickstream Behavior, analysieren.” [HiMW02, S. 21]. Pfade, auf denen sich die User häufig bewegen, können so analyisert werden.

4.4.2 Segmentierung User lassen sich anhand ihrer Eigenschaften in verschiedene Segmente einteilen. Dies kann mittels Clusteranalyse oder Self Organizing Maps (SOMs) geschehen. Aus der heterogenen Usermasse sollen homogene Teilmengen gebildet werden, die Teilmengen sollen möglichst voneinander abgegrenzt sein. Die Segmentierung kann nach unterschiedlichen Kriterien – abhängig von der Zielsetzung der Analyse – erfolgen.

4.4.3 Methoden zur Klassifikation und Prognose im Web Mining Dazu eigenen sich besonders Eintscheidungsbäume, künstliche neuronale Netze und die logistische Regression

4.4.3.1 Entscheidungsbäume Entscheidungsbäume dienen der Zuordnung eines Objekts zu einer oder mehreren Klassen anhand dessen Merkmalsausprägung. Im Verfahren wird versucht, jene Merkmalskombinationen zu finden, die eine möglichst gute Zuordnung der Objekte zu den einzelnen Klassen zulassen. Die Teilmengen werden Schritt für Schritt kleiner, abhängig von dem Merkmal, das zum Zeitpunkt am besten zur Klassifikation geeignet ist. Dadurch entsteht ein sich verzeigender Baum. Aus den Verzweigungskriterien werden Regeln gebildet und dadurch können nicht zugeordnete Objekte den Teilmengen zugeordnet werden.

Page 19: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 19 -

4.4.3.2 Künstliche Neuronale Netze Künstliche Neuronale Netze bestehen aus Schichten miteinander verbundener Neuronen. In der Eingabeschicht (Input Layer) werden Signale aufgenommen und an die verborgenen Schichten weitergegeben (Hidden Layer). Dort findet die eigentliche Verarbeitung statt. Über den Output Layer werden diese verarbeiteten Daten ausgegeben. Anhand von Trainingsdaten “lernt” das Neuronale Netz. Das einzelnen Neuronen werden gewichtet und so lange wird so lange justiert, bis die bekannten Inputdaten den gewünschten Output ergeben. Werden dem Netz unbekannte Input-Daten übergeben, behandelt es diese auf die “gelernte” Weise und produziert Output den Vorgaben entsprechende. Neuronale Netze werden vor allem zur Analyse nichtlinearer Datenstrukturen herangezogen.

4.4.3.3 Regressionsanalyse “Die Regressionsanalyse ist ein vielseitig einsetzbares und weithin anerkanntes statistisches Verfahren, das sich sowohl zur Wikungsabschätzung von Einflussgrößen als auch zur Prognose eignet.” [Mathias Meyer in HiMW02, S. 195] Die Regressionsanalyse ermöglicht es, Scoring Modelle zu entwerfen, z.B Scoring zur Zielgruppenbestimmung und Entscheidungsunterstützung beim gezielten Marketingeinsatz. Allerdings unterliegt der Einsatz der Regressionsanalyse im Web Mining bestimmten Einschränkungen. [vgl. HiMW02, S. 195 ff]

Page 20: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 20 -

5 Clickstream Analyse

5.1 Clickstream „A clickstream is a sequential series of pageview requests, made from a single user.“ [EiVa00, S. 9] Der Unterschied zwischen Clickstream und navigationsorientierte Heuristiken wie in Kapitel 4.3.1.2 besprochen liegt vor allem darin, dass navigationsorientierte Heuristiken „Constructed Sessions“ in den Vordergrund stellen, Clickstreams sozusagen den Weg durch die Seite in einer „Real Session“ abbilden. Man könnte auch sagen, dass eine „Constructed Session“ der Teil eines Clickstream ist. Beim Clickstream oder den „Real Sessions“ treten ähnliche aber auch zusätzliche Probleme auf, z.B. die Identifizierung des Verlassens einer Website, Erkennen von Back-Button und Reloads, der Startpunkt eines Clickstream.

5.2 Definition Clickstream Analyse “Clickstream analysis is a special type of web usage mining which provides information essential to understanding users’ behavior.” [Bray03, Kap. 4.4] “Clickstream data analysis describes the analysis of the streams of requests (clicks) users generate as they move from page to page within a web site.” [Saty02] Aus den in den Logfiles gespeicherten Daten kann mittels Clickstream Analyse festgestellt werden, wie der User sich durch die Seiten bewegt, woher er gekommen ist und wie lange er auf welcher Seite geblieben ist. Die Analyse gibt Antwort auf viele Fragen, z.B: was sind die populärsten Seiten, welche sind die unpopulärsten, welche Pfade verwendet der User auf einer Seite, wie lange bleiben Besucher, die über ein Banner auf meine Seite gekommen sind, wie oft kommen User wieder und viele mehr. [vgl. Saty02] Clickstream Analysen werden vor allem im Bereich von Webshops eingesetzt.

5.2.1 Clickstream Analyse - Web Traffic Analyse Die Web Traffic Analyse konzentriert sich auf die Frage, wie User sich durch eine Website bewegen. Sie misst die PageViews, wieviel der Seite ausgeliefert wurde wenn ein User den Stop-Butten clickt und wie lange der User gewartet hatte, bevor er den Stop-Butten gedrückt hat. Auch die Performance einer Webseite kann gemessen werden. All dieser Messungen werden auf dem Server-Level einer Webseite durchgeführt. [vgl. Saty02]

5.2.2 Clickstream Analyse - E-Commerce basierte Analyse Die E-Commerce basierte Analyse verwendet Clickstream-Daten um herauszufinden, wie effektiv die Website als Marketinginstrument eingesetzt werden kann. Die User werden aufgrund Ihres Verhaltens quantifiziert solange sie sich auf der Webseite befinden. Ein typischer Anwendungsbereich sind Webshops, um herauszufinden, welche Produkte ein User betrachtet, in den Einkaufskorb legt und eventuell wieder herausnimmt. [vgl. Saty02]

5.2.3 Data Webhouse Architecture Clickstream Analysen können am besten mittels Data Webhouse durchgeführt werden. Dabei wird der erzeugte Clickstream in einem Data Webhouse hinterlegt, das als Grundlage für den Data Mining Process dient.

Page 21: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 21 -

Abbildung 10: Architektur eines Data Webhouse [Saty02]

5.3 Clickstream Analyse - Unterschiedliche Ansätze In der Literatur findet man unterschiedliche Ansätze, wie Clickstream Analysen realisiert werden können. Die wichtigsten sollen hier kurz erwähnt werden. Die vorgestellten Modelle zielen vor allem auf Personalisierung und Recommender Systeme ab.

5.3.1 Markov Models “Hidden Markov Models oder meist kurz HMMs sind stochastische Modelle, die sich durch zwei Zufallsprozesse beschreiben lassen. Der erste Zufallsprozess entspricht dabei einer Markow-Kette, die durch Zustaende und Übergangswahrscheinlichkeiten gekennzeichnet ist. Die Zustaende der Kette sind von aussen jedoch nicht direkt sichtbar (sie sind versteckt, ''hidden''). Stattdessen erzeugt ein zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemaess einer zustandsabhaengigen Wahrscheinlichkeitsverteilung. Die Aufgabe besteht haeufig darin, aus der Sequenz der Ausgabesymbole auf die Sequenz der versteckten Zustaende zu schliessen.” [Comp05] Unter einer Markov Kette versteht man einen speziellen stochastischen Prozess mit folgender speziellen Eigenschaft: “Kennt man erst einmal die Gegenwart des Prozesses, dann lassen sich Prognosen über die Zukunft des Prozesses nicht durch zusätzliche Kenntnisse seiner Vergangenheit verbessern” [Wiki05] Markov Models werden im Web Usage Mining verwendet, um das Verhalten des Users zu modellieren und den nächsten Click des Users vorhersagen zu könen. Abhängig vom Level (z.B. first-order Markov model, Kth-order Markov model) werden mehr oder weniger Schritte in der Vergangenheit herangezogen, um den nächsten Schritt vorherzusagen. Markov Models können im Web Usage Mining aber auch verwendet werden, um Sessions in unterschiedliche Kategorien zu klassifizieren. Mehr Informationen dazu in [DeKa05].

5.3.2 PACT Bei diesem in [JiZM04] vorgestellten Modell handelt es sich um die Miteinbeziehung des Semantic Web in den Web Usage Mining Prozess. Transaktionen (oder Sessions) werden geclustered und als multidimensionale Vektoren aus Page Views abgebildet. Diese Vektoren werden geclustert. Jeder Cluster repräsentiert ein Set an Usern mit gleichen Navigationsverhalten. Darüber hinaus ist jeder Cluster mit einem einzigen Punkt verbunden,

Page 22: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 22 -

der ein aggregiertes Profile aller User in diesem Cluster repräsentiert. Ein neuer User wird mit diesem aggregierten Profil verglichen und je nach Übereinstimmungsgrad werden Empfehlungen (Recommendations) angezeigt. [vgl. Bray03, Kapitel 4.4]

5.3.3 Golden Path Analyzer (GPA) Der Golden Path Analyzer analysiert Clickstreams von Usern, die versuchen den selben Task zu erfüllen bzw. die selbe Zielseite einer Website zu erreichen. Der GPA findet den besten Pfad, der vom User genommen werden kann - den goldenen Pfad – und verwendet ihn als “Seed” für Clickstream Clusters. Andere User werden zu einem Cluster hinzugefügt, wenn ihr Clickstream eine Supersequence des goldenen Pfades ist. Der Vorteil dieser Methode ist,

• dass die Cluster leicht verstanden werden können, • dass wenige Cluster ausreichen, • dass sie zu unterschiedlichen Strategien der User passen und • gemeinsam alle Clickstreams abdecken.

[vgl. AlKe03, S. 349 f]

5.3.4 Clickstream Tree Model Das Clickstream Tree Model wird in [GüÖz05] vorgestellt. Es beruht auf der Vorgabe, dass sowohl die Sequenz – also die Reihenfolge in der ein User die Seiten besucht – als auch die Verweildauer eines Users auf einer Seite wichtige Informationen für angeschlossenene Recommender Systeme sind. Die Neuheit dieses Ansatzes liegt in der Art und Weise, wie Cluster erzeugt und Übereinstimmungen berechnet werden Dieser spezielle Ansatz kann zuerst die User Sessions anhand ihrer Ähnlichkeit. Wird ein neuer Request von einem User abgesetzt, so wird ein Set an Empfehlungen mit Vorschlägen zu drei weiteren Seiten, die der User noch nicht besucht hat, abgesetzt. Dafür wird die am besten passende Usersession verwendet. Für die ersten zwei Requests einer neuer Usersession werden alle Cluster herangezogen, um den besten Match zu finden. Danach werden die top-N Clusters, die die höchste N-Übereinstimmung haben Ausgegeben.. [vgl. GüÖz05]

5.4 Privacy und Datenschutz Die Sammlung von userbezogenen Daten im Internet ist immer wieder Diskussionsstoff in den Medien. In Österreich ist Datenschutz bereits seit 1978 gesetzlich geregelt. Das österreichische Datenschutzgesetz und die entsprechenden Novellen bestimmen, welche Daten wie gesammelt, aufbewahrt und verwendet werden dürfen. So heißt es zum Beispiel in §1, Abs. 1 „Jedermann hat, insbesondere auch im Hinblick auf die Achtung seines Privat- und Familienlebens, Anspruch auf Geheimhaltung der ihn betreffenden personenbezogenen Daten, soweit ein schutzwürdiges Interesse daran besteht“ [DSG00] Daraus lässt sich schließen, dass jede Art von Daten, die einen User persönlich betreffen, schutzwürdig sind. Im §4 DSG werden verschiedene Begriffe definiert , z. B. in $4 Z1 sind „”Daten” (”personenbezogene Daten”): Angaben über Betroffene (Z 3), deren Identität bestimmt oder bestimmbar ist; ”nur indirekt personenbezogen” sind Daten für einen Auftraggeber (Z 4), Dienstleister (Z 5) oder Empfänger einer Übermittlung (Z 12) dann, wenn der Personenbezug der Daten derart ist, daß dieser Auftraggeber, Dienstleister oder Übermittlungsempfänger die Identität des Betroffenen mit rechtlich zulässigen Mitteln nicht bestimmen kann; [DSG00] Und in Z2

Page 23: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 23 -

”sensible Daten” (”besonders schutzwürdige Daten”): Daten natürlicher Personen über ihre rassische und ethnische Herkunft, politische Meinung, Gewerkschaftszugehörigkeit, religiöse oder philosophische Überzeugung, Gesundheit oder ihr Sexualleben;“ [DSG00] Im $ 6 Abschnitt 1 wird weiter definiert, wie Daten verwendet werden dürfen. Als Ausnahme kennt der Gesetzgeber die $$ 46 und 47 DSG, die die Verwendung von Daten zur wissenschaftlichen Forschung und Statistiken regeln. Der für Clickstream Analysen relevanteste Teil ist dabei $ 46 Abs. 1 „Für Zwecke wissenschaftlicher oder statistischer Untersuchungen, die keine personenbezogenen Ergebnisse zum Ziel haben, darf der Auftraggeber der Untersuchung alle Daten verwenden, die 1. öffentlich zugänglich sind oder 2. der Auftraggeber für andere Untersuchungen oder auch andere Zwecke zulässigerweise ermittelt hat oder 3. für den Auftraggeber nur indirekt personenbezogen sind. Andere Daten dürfen nur unter den Voraussetzungen des Abs. 2 Z 1 bis 3 verwendet werden.“ [DSG00] Nach dieser Definition kann man schließen, dass reine Logfile-Daten keine Daten sind, die dem Datenschutz unterliegen. Aus Logfile-Daten ist die Identität eines Users nur schwer bestimmbar. Vor allem der in § 46 erwähnte Passus „die keine personenbezogenen Ergebnisse zum Ziel haben“ unterstützt die Meinung, dass Logfile-Daten keine personenbezogenen Daten sind. Anders sieht es bei Daten aus, die durch Registrierung oder Eingabe von persönlichen Informationen erlangt werden. Diese können durchaus Daten im Sinne des DSG sein. Für diesen Zweck ist es üblich, den User ein entsprechendes Formular im Internet ausfüllen zu lassen, das die Unternehmen hinsichtlich datenschutzrechtlicher Ansprüche schützen soll. Hier sollte aus Sicht des Users vor allem darauf geachtet werden, dass diese Daten vom Website-Betreiber nicht weitergegeben werden. Unter Privacy versteht man die Privatsphäre eines Menschen. Während im allgemeinen damit ein „In-Ruhe-gelassen-werden“ verstanden wird, geht Privacy im Internet weiter. Einige Autoren meinen, dass Privacy das Recht zu bestimmen, welche Daten über sich von anderen gebraucht werden aber auch welche Daten auf den User einwirken dürfen, ist. Die meisten Website-Betreiber legen offen, welche Daten sie über Ihre User speichern. Diese Informationen finden sich in der Privacy Policy einer Website. Unter diesem Aspekt sind auch Cookies zu sehen, da dadurch der wiederkehrende User erkannt werden kann. Aus Sicht des Users ist es daher ratsam, Cookies nicht automatisch sondern nur auf Nachfrage zuzulassen.

5.4.1 Privacy Preferences Project - P3P „The Platform for Privacy Preferences Project (P3P), developed by the World Wide Web Consortium, is emerging as an industry standard providing a simple, automated way for users to gain more control over the use of personal information on Web sites they visit.” [W3C02] P3P ist ein standardisiertes Set an Fragen, das alle wichtigen Aspekte der Privacy Policy abfrägt. Dadurch sollen die User davor geschützt werden, dass beim Besuch einer Webseite ihre Daten anders als erwünscht verwendet werden. Websites mit P3P stellen Privacy Information zu Verfügung, P3P-fähige Browser können diese Abrufen und mit den vom User konfigurierten Policies vergleichen. Der Browser gibt nur jene Informationen preis, die vom User konfiguriert wurden. [vgl. W3C02]

Page 24: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 24 -

6 Evaluierung unterschiedlicher Clickstream Analyse Tools

Aufgrund des aktuellen Themas und der Möglichkeiten des Einsatzes sind am Markt eine reihe unterschiedliche Clickstream Analyse Tools verfügbar. Diese sollen hier kurz vorgestellt werden.. Im Internet findet man zahlreiche Clickstream Analyse Tools, die als Services bei dem anbietenden Unternehmen laufen. Dies hat zur Folge, dass dem Service-Betreiber die Logfiles übergeben werden müssen. Für diese Evaluierung wurden ausschließlich Tools herangezogen, die vom Sitebetreiber betrieben werden können.

6.1 Webalizer “The Webalizer is a fast, free web server log file analysis program. It produces highly detailed, easily configurable usage reports in HTML format, for viewing with a standard web browser.” [Weba05] Der Webalizer ist ein einfach zu konfigurierendes und zu installierendes Tool. Er kann sowohl Logfiles im Common Logfile Format als auch Combined Logfile Format auswerten, zusätzlich auch noch wu-ftpd xferlog FTP und squid-Logfiles. Die Installation erfolgt nach den Unix-üblichen Installationsroutinen. Nach der Installation muß Webalizer gestartet werden. Für den Import der Logfiles hat sich in der Praxis am praktikabelsten erwiesen, die periodische Verarbeitung mittels Shellscript und Eintrag im Crontab zu steuern. Webalizer ist in seiner ursprünglichen Form nur für Unix-Systeme verfügbar, da er in Perl programmiert wurde, kann er auch auf Windows portiert werden. Die Konfiguration kann über ein Konfigurations-File oder beim Starten des Webalizer auf der Kommandozeile vorgenommen werden. Webalizer erzeugt die Auswertungen in Form von HTML-Seiten, die in einem vorkonfiguriertem Directory abgelegt werden und über einen Browser abgerufen werden können. Die Visualisierung erfolgt sowohl in Listenform (siehe Abbildung 11) als auch in grafischer Form (siehe Abbildung 12). Der Webalizer erzeugt monatliche, tägliche und stündliche Statstiken sowie Statistiken über abgerufene URLs, Top-Einstiegsseiten, Top-Ausstiegsseiten, Sites (von denen aus zugegriffen wurde) und Länder anhand der Top-Level-Domains. Der Webalizer in seiner Ursprungsform kann nicht als Clickstream Analyse Tool bezeichnet werden. Der Webalizer nimmt weder Clustering noch Patternmatching vor und gibt keine Auskunft über das Verhalten von Usern auf einer Website. Einziger Output sind Häufungen. Der Webalizer ist für alle Unix-Plattformen sowie MaxOSX und BeOS etc. Erhältlich, nicht jedoch für Windows. Die letzte aktuelle Version ist 2.01-10.

Page 25: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 25 -

Abbildung 11: Monatliche Statistik Webalizer (Quelle: VIO.at)

Abbildung 12: Stündliche Statistik Webalizer (Quelle: VIO.at)

Page 26: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 26 -

6.2 Sawmill Sawmill ist ein kommerzielles Tool, das rund 600 Logfile-Formate verarbeiten kann. Neben den üblichen CLF, DLF, eCLF auch Router-Logfiles (z.B. Cisco) und andere. Sawmill vertreibt Produkte für unterschiedliche Zielgruppen (ISP, Unternehmen, Privatanwender mit einer Homepage). Es ist für alle gängigen Plattformen erhältlich. Die Installation erfolgt mittels Installer oder bei Unix-System durch Entpacken und Starten des Executables, dieses kann wahlweise auch im CGI-BIN-Directory abgelegt werden. Sawmill benötigt eine kommerzielle Datenbank. Es besitzt ein webbasiertes Userinterface, über das auch die Konfiguration erfolgt. Sämtliche Outputs können über das graphische Interface abgerufen werden. Die Auswertungen werden in folgende Kategorien eingeteilt

• Date and time – Einfache Zählung von Page Views in einem bestimmten Zeitraum • Content • Visitor demographics – Statistiken über Hostnames, Domains, Geographische

Zuordnung, authentifizierte User • Visitor systems – Statistiken über die von den Usern verwendeten Systeme (Browser,

OS ...) • Referrers – Auswertung der Referrers • Other – Worms, Spiders … • Sessions – Entry / Exit Pages, Pfad durch eine Page, Session Pfade, Session Pages,

Session User, Individuelle Sessions • Log detail – Einblick in die Ursprungs-Logfiles

In Zusammenhang mit Clickstream Analyse und Web Usage Mining ist vor allem die Kategorie Sessions interessant. „Sawmill computes session information by tracking the page, date/time, and visitor id (which is usually the hostname (client IP)) for each page view. When a session view is requested, it processes all of these page views at the time of the request” [Sawm05, Kapitel How Sawmill calculates sessions] Beim Abrufen einer Session Statistik werden alle Pageviews zu diesem Zeitpunkt abgerufen, die Pageviews werden anhand der Client IP in initiale Sessions gruppiert, dabei wird angenommen, dass ein User zu einer Session gehört. Die Hits werden nach dem Datum sortiert und daraus ergibt sich ein Click-by-Click Eintrag. Die Sessions werden in bestimmten Intervallen gesplittet (Standardwert 30 Minuten, konfigurierbar). Sessions, die länger als 2 Stunden dauern werden verworfen, da man dahinter Sessions unterschiedlicher User über einen Proxy vermutet. Anhand von konfigurierbaren Filtern können weitere Sessions verworfen werden (z.B. interne User) [vgl. Sawm05, Kpaitel How Sawmill calculates sessions] Die aktuelle Version ist 7.1.5.

Page 27: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 27 -

Folgende Darstellung zeigt die graphische Aufbereitung der Session Pfade:

Abbildung 13: Visualisierung von Session-Pfaden in Sawmill (Quelle: http://www.sawmill.net/samples)

6.3 Clicktracks Clicktracks ist ein kommerzielles Tool, das in unterschiedlichen Varianten vorliegt: Analyzer, Optimizer, Pro, Pro + JDC, ISP. Die Versionen Analyzer, Optimizer und Pro können auch als gehostetes Service bezogen werden. Hier wird die Version Optimizer vorgestellt, die auch als Testversion downgeloadet werden kann. Clicktracks verwendet gängige Logfile-Formate (CLF, DLF, IIS ...) Die Software ist lediglich für Windows-Systeme verfügbar, diese muss am Client-Rechner installiert werden. Dies Installation ist eine Standard-Windows-Installation, Logfile können händisch oder automatisch in vordefinierten Abständen geholt und eingespielt werden. Sämtliche Outputs können über die Client-Software abgerufen werden. Clicktrack bietet neben einfachen Auswertungen wie statistische Häufungen auch die Möglichkeit, Kampagnen zu verfolgen, Zugriffe von Robots auszuwerten und Email-Tracking. Userdaten können nach bestimmten Kriterien geclustered und zur Visualisierung eingefärbt werden.

Page 28: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 28 -

Clicktracks visualisiert auch die Click-Häufigkeit bei Links, wobei diese bei gleichen Links auf einer Seite geteilt dargestellt wird, eine echte Zuordnung kann nicht stattfinden. Die folgende Abbildung zeigt die Visualisierung der Häufigkeit von benutzten Links (Basis sind Logfiles der Website der Autorin):

Abbildung 14: Visualisierung der Click-Häufigkeit von benutzten Links in Clicktracks

Clicktracks bietet auch eine Pfadanalyse, die abhängig von den Userclustern durchgeführt wird. Hier sieht man den Pfad, den die präferierte Usergruppe (Blaues Männchen) von der abgefragen Seite gegangen sein (hin- und wegführende Links):

Abbildung 15: Visualisierung der Pfade in Clicktracks

Die aktuelle Version ist 5.5.7

6.4 Web Utilization Miner (WUM) Der Web Utilization Miner ist ein Analyse Tool beruhend auf einem Methodenset, das die Navigation eines Users auf einer Webseite beobachtet. WUM besteht aus den zwei Modulen “Aggregation Service” und MINT-Processor. Im Aggregation Service werden die Daten entsprechend aufbereitet, der MINT-Processor vollführt den eigentlichen Mining-Prozess. Die bereinigten und aggregierten Daten können über die Query-Sprache MINT abgefragt werden. Diese Sprache ist so konzipiert, dass genau jene Patterns abgefragt werden, die die gesuchten Charakteristika aufweisen. Die Interaktion durch den Experten mittels Query-Sprache und die Möglichkeit in die Analyse einzugreifen ist eine Besonderheit. Mehr Informationen zu WUM finden man in [SpFa99]

Page 29: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 29 -

7 Linkstream Analyse

7.1 Definition Die Linkstream Analyse zeigt, über welche Links sich User durch eine Website bewegen, wobei eine Seite mehrere Links auf eine andere Seite aufweisen kann. In der Linkstream Analyse werden Ansätze des Web Structure Mining und der Clickstream Analyse verbunden.

7.2 Bestehende Architektur bei Online Zeitungen In Österreich und auch in anderen europäischen Ländern ist es üblich, dass die Auflagenstärke eines Online-Mediums durch eine unabhängige Instanz festgestellt wird. In Österreich und Deutschland sind das dieÖWA bzw. IVW. Diese bedienen sich der 1-Pixel-Methode (siehe Kapitel 4.2.3) und propietären Systemen, (SMZ-Box), um die Auflagenstärke eines Online-Mediums zu messen. Durch die von der ÖWA erzeugten Auswertungen ist es den Medien jedoch nicht möglich, Auskunft über das Verhalten Ihrer User zu erlagen, lediglich Häufungen werden ermittelt. Allen Online-Medien ist gemeinsam, dass die erfolgreichsten (das sind in Österreich orf.at., a1.net, derstandard.at etc.) sich verschiedener Technologien bedienen müssen, um für ihre User Informationen in entsprechender Performance zur Verfügung stellen zu können. Dazu gehört die Verteilung der Webseiten auf unterschiedliche Server, eine ausgeklügeltes Load-Balancing sowie entsprechende Datensicherung. Das Zusammenspiel dieser Anforderungen führt zusätzliche Probleme für Datensammlung und -auswertung im Web Usage Mining. Folgende Abbildung zeigt schematisch die Infrastruktur von Online-Medien.

Page 30: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 30 -

Abbildung 16: Schematische Darstellung der Web-Infrastruktr von Online-Medien (Quelle: ixware.at)

7.3 Exkurs: IVW bzw. ÖWA

7.3.1 Allgemein Die IVW (Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V.) wurde 1949 in Deutschland mit dem Zweck gegründet, „zur Förderung der Wahrheit und Klarheit der Werbung und damit zur Sicherung eines echten Leistungswettbewerbs vergleichbare und objektiv ermittelte Unterlagen über die Verbreitung von Werbeträgern zu beschaffen und bereitzustellen“. [IVW05, Link Organisation]. Urspünglich stand die Auflagenkontrolle von Printmedien im Vordergrund, im Lauf der Zeit wurde der Tätigkeitsbereich auch auf andere Werbemedien bis hin zu Online-Medien ausgedehnt. Im April 2004 hatte der Verein 1.766 Mitgleider. [vgl. IVW05, Link Organisation]. Das österreichische Pendant dazu ist die ÖWA, die im Jahr 1998 unter dem Dach der ÖKA (Österreichische Auflagenkontrolle) gegründet wurde und seit 2001 ein eigenständiger Verein ist. Mitglieder des Vereins – also vor allem Online-Newspapers, Medienhäuser, Medienagenturen und Onlineanbieter – unterwerfen sich den vorgegebenen Messkritierien und können so miteinander verglichen werden. Ein enger Zusammenhang zwischen ÖWA und IVW besteht insofern, dass die ÖWA sich auf die technologische Lösung des IVW stützt – auch mit dem Hintergedanken, die beiden Länder vergleichbar zu machen. „Ziele der ÖWA sind die Förderung des Online-Marktes und insbesondere die Erhebung vergleichbarer und objektiver Daten zur Beurteilung der Leistungsfähigkeit von Online-

Page 31: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 31 -

Angeboten. .... Die Struktur des Mediums Internet ermöglicht - im Gegensatz zu klassischen Medien - eine unmittelbare Nutzungsmessung. Logfileprotokolle, in denen die Abrufe einzelner Seiten eines Angebotes dokumentiert werden, lassen auf die Attraktivität und die Nutzung der Inhalte schließen.“ [ÖWA05, Link Organisation] Da dies anhand der üblichen Logfile-Auswertungen kaum möglich ist, hat die ÖWA Standards definiert. Die von der ÖWA erzeugten Daten spielen eine wichtige Rolle bei der Entscheidung von Firmen, die Online Werbung in Form von Banners etc. schalten wollen. Anhand der Daten können die Entscheidungsträger feststellen, welches Medium die meisten User in welchen Ressorts hat und die Werbung zielgruppenorientiert platzieren. Die folgende Grafik zeigt einen Auszug aus den von der ÖWA erzeugten Daten vom April 2005:

Abbildung 17: ÖWA Daten April 2005 (Auszug), [vgl. ÖWA05, Menüpunkt Daten]

7.3.2 Technologie der IVW bzw. ÖWA-Analyse „Das Skalierbare Zentrale Messverfahren ist ein serverzentriertes standardisiertes Verfahren zur Erhebung objektiv vergleichbarer Zugriffsdaten für Online-Angebote. .... Das SZM-System basiert ursprünglich auf dem Prinzip der Logfile-Auswertung“ [ÖWA05, Menüpunkt Messsystem] Der Vorteil dieses Systems liegt darin, dass nicht der Abruf von Einzelfragmenten einer Seite (Z.B. Frames, Stylesheets, Grafiken ...) protokolliert und gezählt wird, sondern auf jeder Page – also die Seite, die der User ausgeliefert bekommt – wird ein Zähltag verwendet und protokolliert. „Der Zähltag verweist auf eine unsichtbare Grafik, die auf den einzelnen Seiten der Angebote implementiert wird.“ [ÖWA05, Menüpunkt Messsystem] Da der Pixel nicht im Zwischenspeicher abgelegt wird, sind zuverlässige Messungen trotz Cache und Proxies möglich und pro Nutzer wird maximal eine Page Impression gezählt. Weiters können dem Zähltag zusätzliche Informationen hinzugefügt werden, z.B. Ressorts. Diese Ressorts werden von der ÖWA vorgegeben. Die Auswertung ist im Vergleich zur herkömmlichen Logfileauswertung weniger ressourcenaufwändig. Mit Hilfe von sogenannten SZM-Boxen – das sind Server, die Anfragen beim Aufruf eines ÖWA-Pixels auf einer Mitgliedsseite beantworten und in Echtzeit verarbeiten – werden

Page 32: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 32 -

sämtliche Aufrufe in Logfiles protokolliert. Der Collector sammelt von allen angeschlossenen Boxen in bestimmten Zeitintervallen die Daten und verdichtet sie in entsprechend definierten Zeitintervallen, die Ursprungslogfiles auf den Boxen werden verworfen. Die verdichteten Daten werden von der ÖWA verarbeitet und interpretiert. Die folgende Abbildung zeigt, wie der infrastrukturelle Aufbau des SZM-Verfahrens aussieht:

Abbildung 18: Aufbau des SZM-Verfahrens (Quelle: http://www.oewa.at/index.php?id=1041)

7.3.3 Implementierung Die Implementierung des ÖWA-Pixel setzt die Mitgliedschaft beim ÖWA voraus. Dem Mitglied wird eine SMZ-Box zur Verfügung gestellt, die im Netz des Sitebetreibers integriert wird. ÖWA stellt dem Sitebetreiber ein in Javascript eingebettetes Pixel zur Verfügung, das konfiguriert und in die Seiten eingebaut werden muß. Dabei sind die ÖWA-Vorgaben (“Eine Pageimpression je Nutzeraktion”) zu berücksichtigen.

7.4 Besonderheiten bei derstandard.at Die österreichische Online-Zeitung derstandard.at hat sich die vom Verein ÖWA angewandte Technologie (1-Pixel-Methode) kombiniert mit permanenten Cookies zu Nutze gemacht, um so die Auswertung von Logfiles in Kombination mit Unique User Ids durchführen zu können. Im Folgenden soll das bestehende System Livestat kurz vorgestellt werden.

7.4.1 Livestat Für Livestat wird ein eigener Pixel verwendet. Auf den einzelnen Webservern selbst werden keine Logfiles mehr geschrieben, neben den contentauslieferenden Servern steht ein weiterer Server (die sogenannte Livestat-Box), auf dem diese 1-Pixel-Grafiken entsprechend mit Ressortnamen versehen liegen. In jeder Seite, die vom User aufgerufen wird, wird eine 1-Pixel-Grafik eingebunden, von der Livestat-Box geholt und auf der Livestat-Box wird das entsprechende Logfileeintrag geschrieben (Timestamp, Cookievalue, Ressort). Gleichzeitig werden diese Daten auch permanent in eine Datenbank am Server Livestat geschrieben (siehe Abbildung 19). Die Daten in der Datenbank sind daher zeitaktuell und können sofort die gewünschten Auswertungen liefern, wobei die Auswertung derzeit keinerlei Clickstream Analyse enthält, sondern auch hier lediglich die Häufung angibt. Die Daten in der Datenbank

Page 33: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 33 -

werden in regelmäßigen Abständen verdichtet und archiviert, die Logfiles auf der Livestat-Box werden regelmäßig gelöscht. Im Unterschied zur ÖWA-Auswertung wird von derstandard.at intern feiner granuliert, um noch besseren Überblick über die einzelnen Sub-Ressorts zu erhalten. Folgende Darstellung zeigt schematisch den Aufbau der von der Website-Auslieferung und –auswertung betroffenen Server.

Abbildung 19: Schematische Darstellung der Web-Infrastruktr bei derstandard.at (Quelle: ixware.at)

Der aktuelle Stand der Auswertung erlaubt eine Analyse der Unique User anhand eines permanenten Cookies, sowohl für die gesamte Seite als auch für einzelne Ressorts und Sub-Ressorts. Diese Auswertung beginnt zu einem bestimmten Zeitpunkt h und startet sozusagen mit dem ersten User. Kehrt dieser User innerhalb einer Zeitspanne wieder in dieses Ressort zurück, so wird er nicht nochmal gezählt. Die Auswertung erfolgt anhand einfacher Select-Statements auf der Datenbank. User, die keine permanenten Cookies erlauben, werden nur gezählt und statistisch berichtigt. User die ihre Cookies löschen, bevor sie wiederkehren, werden als neue User gezählt. Jeder neue User wird hinzugefügt, dadurch ergibt sich am Ende des Tages für den Zeitraum Tag (00:00 h bis 23:59) folgendes Bild:

Page 34: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 34 -

Abbildung 20: Auswertungszeitraum 24.00 h = 1 Tag Livestat über alle Resorts (Quelle: Livestat)

Werden diese Auswertungen auf eine geringere Zeitspanne heruntergebrochen (hier 15 Minuten), so ergeben die einzelnen Zeitintervalle in einer Grafik die Anzahl der Unique User je Zeitintervall über den gesamten Tag.

Abbildung 21: Auswertungszeitraum 15 min Livestat über alle Resorts (Quelle: Livestat)

Aus dieser Grafik geht hervor, dass die meisten Unique User in der Zeit von 12:00 – 13:00 h die Website von derstandard.at besuchen.

7.4.2 Kritikpunkte an Livestat und Motivation für ein zusätzliches Analyse Tool

Wie bereits im vorhergehenden Kapitel erwähnt, bietet Livestat keinerlei Auswertung über das Verhalten der User auf der Website. Die von Livestat im momentanen Zustand

Page 35: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 35 -

gesammelten Daten sind auch nicht ausreichend, um eine Clickstream Analyse durchzuführen, da im Pixel kein Referrer enthalten ist. Für derstandard.at ist eine einfache Clickstream Analyse jedoch nur von geringer Bedeutung, die Information, welcher User zu welcher Seite surft hat vor allem in Online-Shops und Webauftritten von Firmen seine Berechtigung. Bei derstandard.at interessiert vor allem, wie sich die User durch die Seite navigieren, das heißt, über welche Links sie von einer Seite zur nächsten gelangen. Dazu muß man wissen, dass derstandard.at auf vielen Seiten mehrere Navigationsmgölichkeiten anbietet (Navigation, Shortcuts, Link im Content). Diese können auch noch unterschiedlichen Lokationen auf einer Seite zugeordnet werden (Navigation = oben, Shortcuts = links/rechts, Links im Content = zentral unten). Diese Bereiche sind von großer Bedeutung, da die Lokationen auch mit entsprechenden Werbebannern versehen sind. Als Zusatznutzen kann eine Linkstream Analyse die Sitegestaltung beeinflussen. Darüberhinaus können weiterführende Links in Form von Recommendations an der richtigen Stelle angebracht werden. Eine Personalisierung ist ebenfalls denkbar, wenn die User anhand ihrer präferierten Navigationsmuster geclustered werden können. Weiters kann ermittelt werden, ob Seiten zu “Sackgassen” für bestimmte Usergruppen werden, weil sie nicht die gewünschte Form der Navigation anbieten. Die evaluierten Tools bieten die gesonderte Auswertung von Links nicht, obwohl z.B. Clicktracks Links anhand Ihrer Click-Häufigkeit hervorhebt. Da diese Berechnung aber nur aus dem Referrer entsteht, können keine Unterschiede zwischen zwei Links die von einer Seite auf die selbe andere Seite führen, errechnet werden.

7.5 Möglicher Lösungsansatz für eine Linkstream Analyse Unter Beibehaltung des aktuellen Systems Livestat und unter Verwendung der vorhandenen Infrastruktur soll hier ein Lösungsansatz für eine Linkstream Analyse vorgestellt werden, die aber auch für andere Online-Zeitungen von Interesse sein kann.

7.5.1 Zusätzliche Daten Wie bereits erwähnt müssen die Logfile-Daten ergänzt werden, um einen Link eindeutig zu identifizieren. Jedem Link muß eine eindeutige ID mitgegeben werden, die in Logfile und Datenbank gespeichert wird. Anhand dieser ID kann festgestellt werden, welcher Link wie oft geklickt wurde, auch wenn 1 .. n Links auf die gleiche Seite verweisen. Anhand der bisher nicht verwendeten aber im Logfile vorhandenen Referrer kann eine Kette – also ein Linkstream – erkannt werden. Der Link wird anhand seiner Lokation klassifiziert (oben, unten, links, rechts), diese Klassifizierung wird in die ID hineincodiert, um die Auswertung zu beschleunigen. Zusätzlich erhält jeder Link eine fortlaufende Nummer.

7.5.2 Methodik der Datenerfassung Die Link-IDs müssen so übergeben werden, dass sie in einem Logfile aufscheinen und ausgewertet werden können. Diese Link-ID kann jedem Link als GET-Attribute-Value-Pair hinzugefügt werden, z.B. in Form von <a href=”?ulid=1_111111111”> wobei ulid das Atribut ist und der Value vor dem Underscore den Bereich angibt, die 9 Ziffern danach die Unique Link ID. Von der Zielseite wird dieser Value mittels Javascript ausgelesen, der Value des Linkstream-Pixel wird umgeschrieben und der Pixel wird aufgerufen. Dadurch wandern die gewünschten Daten in Logfile und Datenbank und können analysiert werden.

Page 36: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 36 -

7.5.3 Methodik der Datenauswertung Die Auswertung erfolgt in klassischen Web Usage Mining-Schritten, wobei keine Datenbereinigung mehr stattfinden muß. Die Daten werden geclustered und Links werden statistisch ausgewertet.

7.5.3.1 Clustering Die User werden anhand ihres Click-Verhaltens nach den Lokation klassifiziert. Eine mögliche Variante ist: Nav-User: User die überwiegend die Navigation verwenden Shortcut-user: User die überwiegende die Shortcuts verwenden, weitere Klassifizierung in links/rechts möglich Content-User: User, die überwiegend Links im und am Ende des Contents vewenden Jeder der klassifizierten Gruppen kann in Subgruppen anhand der Häufigkeit der verwendeten Navigation unterteilt werden (zu 80 % verwendet, 50 % ...). Ein wiederkehrender User kann in diese Klassifizierung eingeordnet werden.

7.5.3.2 Statistische Auswertung der Links Die Statistische Auswertung der Links ist eine Zählung der Link-Clicks. Diese gibt im Einzelnen Auskunft über die “Beliebtheit” eines Links, kumuliert können Aussagen über die Beliebtheit einer “Lokation” getroffen werden.

7.5.3.3 Userverhalten allgemein Die Methode ist auch sehr gut geeignet, um allgemeines Userverhalten zu analysieren. So können die Verweildauer, die Top-Entry und -Exit-Pages analyisert werden. Bringt man diese in Zusammenhang mit der User-Clusterung, können wertvolle Erkenntnisse gewonnen werden, z.B. Content-User navigieren über die Navigation, wenn kein Link im Content vorhanden ist.

7.5.4 Visualisierung Für Auswertung und Analyse ist genügend Literatur vorhanden, um darauf aufbauen zu könne. Literatur zur Visualisierung fehlt großteils. Es sollen hier nur einige Visualisierungsmöglichkeiten aufgezählt werden. Auf tabellarische Darstellung von Zahlen soll hier nicht eingegangen werden. Eine mögliche Visualisierung für die statistische Auswertung der Links ist eine Art “Wärmebild” zu erzeugen, das häufig benutzte Links rot, mittelhäufig benutzte gelb und wenig oder nicht benutzte blau bzw. Schwarz darstellt. Dafür könnte man von jeder Seite eine farblose Darstellung erstellen, in der die Links entsprechend der Häufung eingefärbt werden. Eine analoge Darstellungsform ist die Angabe von “Höhenlinien”, wie sie auf Landkarten üblich ist. Zusätzlich müssen alle Links, die zu dieser Seite geführt haben, anklickbar dargestellt werden. In einem zusätzlichen Fenster können in Netzform die Links, die von und zur Seite führen, dargestellt werden, wobei die aktuelle Seite immer im Mittelpunkt steht. Von den direkt angrenzenden Seiten können aus Visualisierungsgründen nur noch die “Hauptschlagadern” gezeigt werden (z.B. die am häufigsten verwendeten Links). Die Visualisierung der Link-Kategorien erfolgt analog dazu. Beide Visualisierungen – und natürlich auch die Auswertungen – müssen kumuliert über alle Ressorts und Subressorts möglich sein.

Page 37: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 37 -

Die Visualisierung der User-Cluster kann durch die Gegenüberstellung der User-Cluster zu den Ressorts erfolgen, z.B. Shortcut-User sind überwiegend im Bereich Sport und Kultur angesiedelt. Anhand der Ressort-Struktur könnte man hier die einzelnen Präferenzen der User abbilden. Historische Vergleiche, z.B. nach Anpassung der Navigation sind ebenso möglich.

7.5.5 Mögliche Probleme Die vorgestellte Methode ist nur ein Denkmodell, das noch einige Schwachstellen enthält. Auf diese soll kurz eingegangen werden.

7.5.5.1 Back-Button, URL-Eingabe User-Interaktionen, die keinen oder einen von Browserversion abhängigen Eintrag im Logfile hervorrufen (z.B. Back-Button, URL-Eingabe in der URL-Zeile) sind wie in allen anderen vorgestellten Web Usage Mining Methoden ein Problem. Auf eine Path-Completion soll aber bei der Linkstream Analyse verzichtet werden.

7.5.5.2 Historische Links, die nicht mehr verwendet werden Eine historische Vergleichbarkeit der Daten ist nur dann möglich, wenn sämtliche Links immer bestehen bleiben. Dies ist aber bei Online-Zeitungen nicht gegeben, vor allem Content-Links verändern sich mit jedem Artikel. Dem kann man durch Clustering der Links und Vererbung der Link-ID entgegenwirken. Für zeitaktuelle Auswertungen stellt sich dieses Problem nicht.

Page 38: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 38 -

8 Ausblick Das Forschungsfeld des Web Usage Mining ist zwar bereits sehr breit gestreut, dennoch steckt die Anwendung in der Praxis noch in den Kinderschuhen.

8.1 Clickstream Analyse, Linkstream Analyse und Recommender Systems

Die Clickstream Analyse in unterschiedlichen Ausprägungen ist eine der am weitest verbreiteten Web Usage Mining Methoden. Dies liegt vor allem an der relativ einfachen Basis – den Logfiles, die jeder Webserver schreibt. Allerdings decken die derzeit am Markt befindlichen Analysetools nicht annähernd die Erfordernisse der Website-Betreiber ab. Die meisten Tools sind auf Webshops zugeschnitten. Online-Zeitungen können darauf nicht bauen. Die hier vorgestellte Linkstream Analyse ist ein Versuch, Web Usage Mining für Online-Zeitungen zugänglich zu machen. Dafür müssen die besonderen Bedürfnisse der Website-Betreiber berücksichtigt werden. Die Wünsche beschränken sich nicht ausschließlich auf ein „welchen Weg nimmt der User“ sondern beziehen auch das „über welche Links“ mit ein. Die Auswertung dieser gesammelten Daten kann zu unterschiedlichen Zwecken dienen. Sowohl interne (Umgestaltung der Navigation ...) als auch externe, businesskritische (z.B. Platzierung von Werbebannern) bis hin zu Personalisierung. Versuchen Recommender Systeme auf Basis von Clickstream Analysen vor allem die nächsten Schritte vorherzusehen, so kann ein Recommender System auf Basis einer Linkstream Analyse, wie wir sie hier vorgestellt haben, dem User einen Link in der für ihn wichtigsten Link-Lokation zur Verfügung stellen und so den Ausstieg aus der Seite verhindern.

Page 39: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 39 -

9 Literaturverzeichnis [Apac05] The Apache Software Foundation: Log Files,

http://httpd.apache.org/docs/logs.html, Abruf am 2005-04-05

[AlKe03] Ali, Kamal; Kechpel, Steven P.: Golden Path Analyzer: Using Divide-and-Conquer to Cluster Web Clickstreams, in KDD-2003 Proceedings of the Ninth CM SIGKDD Internation Conference on Knowledge Discovery and Data Mining, Washington, DC, USA, 2003, S. 349 - 359

[BaSi05] Batista, Paulo; Silva, M´ario J.: Mining Web Access Logs of an On-line Newspaper, http://xldb.fc.ul.pt/data/Publications_attach/rpec02.pdf; Datum unbekannt, Abruf am 2005-04-23

[BMSW01] Berendt, Bettina; Mobasher, Bamshad; Spiliopoulou, Myra; Wiltshire, Jim: Measuring the Accuracy of Sessionizers for Web Usage Analysis, April2001, http://maya.cs.depaul.edu/~mobasher/papers/wm-siam01.pdf, Abruf am 2005-04-17

[Bray03] Braynov, Sviatoslav: Personalization and Customization Technologies, 2003, http://www.cs.buffalo.edu/~sbraynov/seninar2003/papers/Personalization.pdf, Abruf am 2005-05-17

[BuSi01] Bucklin, Randolph E., Sismeiro, Catarina: A Model of Web Site Browsing Behavior Estimated on Clickstream Data, http://ecommerce.mit.edu/papers/ERF/ERF129.pdf, June 2001, Abruf am 2005-04-26

[Ceno03] Cenovsky, Lukas: Web Usage Mining on is.muni.cz, http://eprints.pascal-network.org/archive/00000741/01/MihaGrcar-WebUsageMining.pdf, Abruf am 2005-04-15

[CoBS99] Cooley, Robert; Mobasher, Bamshad, Srivastava, Jaideep: Data Preparation for Mining World Wide Web Browsing Patterns http://maya.cs.depaul.edu/~classes/ect584/papers/cms-kais.pdf, 1999, Abruf am 2005-04-24

[Comp05] ComputerBase – Lexikon: Verborgenes Markov Modell, http://www.computerbase.de/lexikon/Hidden_Markov_Model, Abruaf am 2005-05-17

[CoMS97] Cooley, R; Mobasher, Bamshad; Srivastava J.: Web Mining: Information and Pattern Discovery on the World Wide Web, http://maya.cs.depaul.edu/~mobasher/papers/webminer-tai97.pdf, 1997, Abruf am 2005-03-10

[DeKa00] Deshpande, Mukund; Karypis, George: Selective Markov Models for Predicting Web-Page Accesses, 30. Oktober 2000, http://www-users.cs.umn.edu/~karypis/publications/Papers/PDF/select.pdf, Abruf am 2005-05-17

[DGLP97] Dunn, Melissa; Gwertzmann, James; Layman, Andrew, Partove, Hadi: Privacy and Profiling on the Web, http://www.w3.org/TR/NOTE-Web-privacy.html, 1997, Abruf am 2005-04-20

[DSG00] Bundesgesetz über den Schutz personenbezogener Daten (Datenschutzgesetz 2000 - DSG 2000 , http://www.dsk.gv.at/, Abruf am 2005-05-12

[EiVa00] Eirinaki, Magdalini; Vazirgiannis, Michalis: Web Mining for Web

Page 40: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 40 -

Personalization, Athens University of Economics and Business, http://www.db-net.aueb.gr/magda/papers/TOIT-webmining_survey.pdf, 2000, Abruf am 2005-04-20

[FaLN05] Fathofer, Helmut; Laga, Dr. Gerhard; Nemec, Mag. Kurt: Rechtliche Probleme im Internet – Werbung im Internet, http://www.laga.at/Doks/Seminar-Werbung.pdf, Abruf am 2005-05-12

[Grca03] Grcar, Miha: User Profiling: Web Usage Mining, http://eprints.pascal-network.org/archive/00000741/01/MihaGrcar-WebUsageMining.pdf, 2003, Abruf am 2005-04-25

[GüÖs05] Gündüz, Sule; Öszu, M.Tamer: Recommendation Models for User Accesses to Web Pages (Invited Paper), http://db.uwaterloo.ca/~ddbms/publications/web/icann_ozsu.pdf, Datum unbekannt, Abruf am 2005-04-23

[HaNe02]: Hansen, Hans Robert; Neumann, Gustaf: Wirtschaftsinformatik I, 8. Auflage, Lucius & Lucius, Stuttgart 2002

[HiMW02] Hippner, Hajo; Merzenich, Melani; Wilde, Klaus D. (Hrsg.): Handbuch Web Mining im Marketing - Konzepte, Systeme, Fallstudien, 1. Auflage, Vieweg Verlag, Wiesbaden, 2002

[HiMW02] Hippner, Hajo, Merzenich, Melanie; Wilde, Klaus D. (Hrsg): Handbuch Web Mining im Marketing: Konzuepte, System, Fallstudien, Vieweg, Wiesbaden, 1. Aufl., 2002

[IVW05] IVW, http://www.ivw.de/, 2005, Abruf am 2005-04-26 [JiZM04] Jin, Xin; Zhou, Yanzan; Mobasher, Bamshad: A Unified Approach to

Personalization Based on Probabilistic Latent Semantic Models of Web Usage and Content, 2004 http://maya.cs.depaul.edu/~mobasher/papers/swp04.pdf, Abruf am 2005-05-17

[KoAD04] Koutri, Martha; Avouris, Nikolaos; Daskalaki, Sophia: A survey on web usage mining techniques for web-based adaptive hypermedia systems http://www.ee.upatras.gr/hci/papers/v13_Koutri_Avouris_Daskalaki_2004.pdf, 2004, Abruf am 2005-04-26

[KoBl00] Kosale, Raymond; Blockeel, Hendrik: Web Mining Research: A Survey, http://maya.cs.depaul.edu/~classes/ect584/papers/kosala.pdf, July 2000, Abruf am 2005-03-10

[Micr05] Microsoft: IIS Log File Formats, http://msdn.microsoft.com/library/default.asp?url=/library/en-us/iissdk/html/d577e14f-1ebd-4d24-a0d0-10989098db2d.asp, Abruf am 2005-04-25

[MLSL04] Montgomery Alan L.; Li, Shibo; Srinivasan, Kannan and Liechty, John C.:Modeling: Online Browsing and Path Analysis Using Clickstream Data, http://www.andrew.cmu.edu/user/alm3/papers/purchase%20conversion.pdf, 3. Review 2004, Abruf am 2005-04-23

[MoCS00] Mobasher, Bamshad; Cooley, Robert; Srivastava, Jaideep: Automatic Personalization Based on Web Usage Mining, 2000, http://maya.cs.depaul.edu/~mobasher/personalization/, Abruf am 2005-05-17

[ÖWA05] ÖWA, http://www.oewa.at/, 2005, Abruf am 2005-04-26 [Perr04] Perry, Andrew: Extraction of Useable Structures from Click Stream Data,

http://www-

Page 41: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 41 -

users.cs.york.ac.uk/~kimble/teaching/students/Andrew_Perry/Structures_from_Click_Stream_Data.pdf, März 2004, Abruf am 2005-04-26

[Rahm02] Rahm, Erhart: Web Usage Mining, http://mordor.prakinf.tu-ilmenau.de/papers/dbspektrum/dbs-02-75.pdf, 2002, Abruf am 2005-04-12

[Saat03] Saathoff, Carsten: Web Usage Mining, http://www.diko-project.de/dokumente/ausarbeitungen/saathoffc.pdf, 2003, Abruf am 2005-04-17

[Saty02] Satyan: Clickstream analysis: a potential information mine, 16. August 2002, http://www.ciol.com/content/search/showArticle.asp?arid=37744, Abruf am 2005-05-17

[Sawm05] Sawmill: Documentation, 2005, http://www.thesawmill.co.uk/docs/SawmillDocumentation.pdf, Abruf am 2005-05-17

[Silv02] Silverston, Len: Universal Data Models for Clickstream Analysis, http://www.dmreview.com/article_sub.cfm?articleId=4479, 2002, Abruf am 2005-04-27

[SpFa99] http://www.informatik.uni-siegen.de/~galeas/papers/web_usage_mining/WUM_-_A_Web_Utilization_Miner_(Spiliopoulou1999a).pdf

[ThHu05] Theusinger, Christiane; Huber, Klaus-Peter :Analyzing the footsteps of your customers - A case study by ASK|net and SAS Institute GmbH http://ai.stanford.edu/~ronnyk/WEBKDD2000/papers/theusinger.pdf, Datum unbekannt, Abruf am 2005-04-23

[Utzs04] Utzschneider, Rob: B2B Clickstream Analysis: Tracking the Potential, http://www.teradata.com/t/page/116284/, 2004, Abruf am 2005-04-23

[W3C04] W3C: Platform for Privacy Preferences (P3P) Project, http://www.w3c.org/p3p, 2004, Abruf am 2005-04-20

[W3C95] W3C: Logging Control In W3C httpd, http://www.w3.org/Daemon/User/Config/Logging.html, 1995, Abruf am 2005-04-25

[W3C96] W3C: Extended Logfile Format, http://www.w3.org/TR/WD-logfile.html, Abruf am 2005-04-25

[Weba05] The Webalizer, http://www.mrunix.net/webalizer/, Abruf am 2005-04-30 [Wiki05] Wikipedia: Markow-Kette, http://de.wikipedia.org/wiki/Markow-Kette, Abruf

am 2005-05-17

Page 42: Von der Clickstream Analyse zur Linkstream Analyse.approaches of Clickstream Analysis. Existing Clickstream Analysing Tools are dedicated to be used in Webshops. Online Newspapers

- 42 -

10 Dictionary Cookies “bezeichnet Informationen, die ein Webserver zu einem Browser sendet,

um dem zustandslosen HTTP-Protokoll die Möglichkeit zu geben, Information zwischen Aufrufen zu speichern” [www.wikipedia.org]

Heuristik „Als Heuristik bezeichnet man eine Strategie, die das Streben nach Erkenntnis und das Finden von Wegen zum Ziel planvoll gestaltet” [www.wikipedia.org]

Hits Abruf eines Files von einem Webserver Packet Sniffing Abhören und mitloggen von Datenströmen im Ethernet Page Impression “Eine PageImpression stellt den Sichtkontakt eines Nutzers mit einer

Seite eines Online-Angebotes dar.” [www.oewa.at] Proxy “Bezeichnung für einen Netzwerkdienst, der stellvertretend für einen

Klienten Netzwerkverbindungen aufbaut. Ein HTTP-Proxy zB besorgt sich auf Anforderung HTML-Seiten stellvertretend für ein Anzeigeprogramm. Durch dieses Prinzip kann Zwischenspeicherung und Datenflußkontrolle realisiert werden.” [gd.tuwien.ac.at/study/glossar/glossar/gloss-p.htm]

Session Siehe Visit Visits “Ein Visit definiert den Besuch eines Nutzers bei einem Online-

Angebot. Er stellt einen zusammenhängenden Nutzungsvorgang dar, bei dem zumindest eine Seite eines Online-Angebotes (PageImpression) abgerufen wird. Ein Visit umfasst daher eine oder mehrere PageImpressions.” [www.oewa.at]

Website “Mit Website (auch: Webpräsenz, Internetpräsenz, oder Internetauftritt, englisch: site = Ort, Standort, Platz, Stelle – nicht etwa Seite!) wird ein ganzes Projekt im World Wide Web bezeichnet, das meist aus mehreren Dokumenten (Dateien, Ressourcen) besteht, die durch eine einheitliche Navigation (das Hypertext-Verfahren) zusammengefasst und verknüpft werden.” [www.wikipedia.org]