User Tracking

Wechseln zu: Navigation, Suche
User Tracking
Live HTTP headers Analytics.png
Beschreibung von User-Tracking-Technologien.
Status Abgeschlossen
OrganisatorIn Basti
InteressentInnen

User Tracking beschreibt die Methodik der Nutzerverfolgung und Profilerstellung von Tracking-Diensten im Internet. Dieser Artikel soll eine Idee der Techniken vermitteln, die heutzutage schon praktisch auf fast jeder Internetseite Anwendung finden (können). Außerdem sollen Abwehrstrategien aufgezeigt werden, mit denen man sich schützen kann. Weiterhin wird am Beispiel von Google gezeigt, wie die Profile durch andere Dienste dahingehend erweitert werden, so dass ein Tracking zunehmend leichter wird und der Dienstleister letztendlich ein nahezu komplettes Profil in den verschiedensten Ausprägungen erhalten kann.

Tracking allgemein

Gemeinhin werden Daten zu Statistikzwecken gesammelt. So kann sich ein Internetseitenbetreiber komfortabel Besucherzahlen, Herkunft der Nutzer, "Klickverhalten" (wie durch die Website navigiert wird) und vieles mehr aufbereitet anzeigen lassen. Diese Aufgabe übernehmen zunehmend externe Unternehmen, die diese Dienste kostenlos zur Verfügung stellen. Der Betreiber der Seite muss nur einen kleinen Codeschnipsel in seinen Quelltext einfügen und erspart sich somit eine ganze Menge Arbeit. Problematisch ist allerdings, dass diese Nutzerdaten nicht nur zur Erstellung solcher Statistiken für den Seitenbetreiber genutzt werden, sondern gesammelt und zu Profilen zusammengeführt werden. Wenn neben solchen Verkehrsdaten wie der IP-Adresse nun noch Name, Interessen und vielleicht sogar Fotos das Profil komplettieren, wird es kritisch. Persönliche Probleme, Krankheiten und einiges mehr können aus dem Profil leicht abgelesen werden. Dadurch kann das Profil beispielsweise sehr interessant für Kreditgeber, Versicherungen und (zukünftige) Arbeitgeber werden (dazu auch 'I've Got Nothing to Hide' and Other Misunderstandings of Privacy). Diese Profile werden meist eingesetzt, um gezielt Werbung zu schalten.

Tracking Techniken

Um die Daten für Profile zu sammeln und zu verknüpfen, bedienen sich Tracking-Dienstleister verschiedenster Techniken.

User Agent String

Jeder Browser sendet beim Surfen durch das Internet einen sog. User Agent String mit, z.B.:

Mozilla/5.0 (X11; U; Linux i686; fr; rv:1.9.0.11) Gecko/2009061212 Iceweasel/3.0.6 (Debian-3.0.6-1)

Neben der Browserversion verrät dieser String z.B. auch das verwendete Betriebssystem und dessen Version. Durch diese starke Variabilität ist durchschnittlich eine Person aus 1500 Personen eindeutig identifizierbar[1].


Der User Agent String kann durch folgenden Aufruf im URL-Feld in einem Hinweisfenster angezeigt werden:

javascript:alert(navigator.userAgent);

Um eine geringe Entropie zu erhalten, kann man diesen String selbst definieren (z.B. per Firefox-Addon[2]). Man sollte dabei darauf achten, nicht etwa einen leeren oder gar selbst kreierten User Agent String zu wählen, sondern einen möglichst weit verbreiteten, da das Ziel ist, in einer möglichst breiten Masse unterzutauchen (Ranking der weit verbreitesten User Agent Strings).

Cookies

Um ein Profil erfolgreich erstellen und erweitern zu können, muss der Nutzer durch weitere Maßnahmen wiedererkennbar bleiben, selbst wenn die IP-Adresse wechselt. Zu diesem Zweck werden Cookies benutzt, in denen eine eindeutige ID gesichert wird. Cookies können, im Gegensatz zu den anderen Verfahren, relativ leicht über den Browser gelöscht werden. Außerdem kann man seine Cookie-Policy so einrichten, dass nach jeder Browsersession alle Cookies gelöscht werden.

Flash Cookies

Flash Cookies funktionieren ähnlich wie normale Cookies, allerdings werden sie außerhalb direkter Reichweite des Browsers gespeichert. Abgelegt und ausgelesen werden sie durch Flash-Objekte (Banner, Videos oder unsichtbare Objekte). Der Hauptvorteil für die Tracking-Dienste ist die weitgehende Unkenntnis der Nutzer über die Existenz dieser Art von Cookies, die unbegrenzte Lebensdauer und die Schwierigkeit, diese zu löschen. Als weitere Eigenschaft wäre noch die Nutzung aller Flash-Wiedergabe-Applikationen der nachfolgenden, zentralen Speicherorte zu nennen. D.h. selbst wenn verschiedene Browser genutzt werden, sind die gleichen Flash Cookies dennoch erreichbar. All diese Eigenschaften tragen zur Langlebigkeit bei.

Unter Linux findet man sie in

~/.macromedia/Flash_Player/#SharedObjects

und unter Mac OS X in

~/Library/Preferences/Macromedia/Flash Player/#SharedObjects

und unter Windows in

\Dokumente und Einstellungen\[Benutzername]\Anwendungsdaten\Macromedia\Flash Player\#SharedObjects\

Bei der Nutzung des NoScript-Addons werden gar keine Flash-Objekte geladen, d.h. es können auch keine Flash Cookies abgelegt werden. Mit Firefox-Addons wie BetterPrivacy lassen sich die Flash Cookies verwalten und z.B. nach jeder Browsersession oder alle x Minuten entfernen.

In diesem Zusammenhang sollte auch "Evercookie" erwähnt werden. Diese JavaScript API versucht auf aktuell 13 verschiedene Weisen Informationen abzulegen, die den Benutzer eindeutig identifizieren. Wird einer der Cookies gelöscht, versucht Evercookie den Cookie aus einem der anderen wiederherzustellen. Dies macht es sehr schwer für den Benutzer, die Identifikation zu verhindern.

Zählpixel

Indem Tracking-Dienste winzige (meist 1x1 Pixel kleine) Bilder bzw. Scripte vom Webseitenbetreiber von der eigenen Seite einbinden lassen, können IP-Adresse, Datum/Uhrzeit (für Statistikzwecke) und User Agent String der Benutzer gespeichert werden. Diese Technik findet auch oft bei Werbebannern und in E-Mails als extern eingebundenes Bild zur Verifikation der E-Mail-Adresse Verwendung. Oft treten sie auch in Form von "Share-Buttons" auf (Twitter, del.icio.us ...), sofern sie direkt vom Zielserver geladen werden.

Da bei dieser Technik nicht unbedingt JavaScript von Nöten ist, ist es recht schwer, Maßnahmen dagegen zu ergreifen. Zum einen gilt: Bilder in HTML-Mails nicht öffnen (Thunderbird, Outlook u.a. bieten entsprechende Möglichkeiten). Des weiteren können bekannte Zählpixel per Adblock Plus blockiert werden bzw. sind sogar schon Teil der abonnierten Blacklist.

Eine detailliertere Beschreibung inkl. Praxisbeispiel zu Zählpixeln in PHP gibt es hier.

sonstige

Die IP-Adresse des Seitenbesuchers ist wahrscheinlich die Information, die am einfachsten herauszubekommen ist. Je nachdem, wie viele Personen sich hinter einem privaten Subnetz (NAT) befinden und ob die IP dynamisch, also z.B. spätestens alle 24 Stunden wechselt, kann sie mehr oder weniger Informationen zur Wiedererkennung preisgeben.


Per JavaScript lassen sich noch eine ganze Reihe weiterer Eigenschaften des Browsers auslesen, die summiert eine hohe Entropie ergeben (können)[3], u.a.:

  • Browser-Plugin-Details
  • Bildschirmauflösung
  • Sprache
  • installierte Schriftarten

In letzter Zeit besonders populär ist ein "Browser-History-Abgleich". Dabei wird eine Liste von Internetadressen mit dem Browserverlauf abgeglichen, indem die besuchten Links versteckt dargestellt und auf die sog. visited-Farbe überprüft werden. Auch ohne JavaScript funktioniert so ein Abgleich, indem die ":visited"-CSS-Pseudoklasse ein Bild vom Server nachlädt, wenn der dargestellte Link bereits besucht wurde.[4] (Im Firefox können über 16.000 Links/Sekunde mit dieser Methode überprüft werden[5])


Alle Methoden, die per JavaScript realisiert werden, lassen sich durch die Benutzung des NoScript-Addons unterbinden. Wer besonders den letzten Punkt als kritisch erachtet, kann im Firefox per about:config (im URL-Feld eingeben) das Attribut "layout.css.visited_links_enabled" auf false setzen. Nun werden besuchte Links nicht mehr andersfarbig dargestellt. (Überprüfung z.B. per http://www.whattheinternetknowsaboutyou.com/)

Browser Fingerprints

Lösungen, die nicht über Proxies laufen, haben den Nachteil, dass der Browser eine Reihe von Merkmalen veröffentlicht, wie beispielsweise den User Agent. Das Gesamtbild aus User Agent, Plugins, installierten Schriftarten und anderen Details können einen Browser einzigartig werden lassen. Diese Informationen sind ohne Cookies und Spyware auslesbar und können mit dem Panopticlick-Tool der EFF überprüft werden. Besonders perfide an dieser Technik ist, dass Datenschutz-Plugins durch ihre Seltenheit zu einem höherem Widererkennungswert des Browsers führen können.

Verbindung mit sozialen Netzwerken

Besonderen Wert erreichen die Profile des Tracking-Dienstes, wenn sie mit einem sozialen Netzwerk verknüpft werden können. Fast alle sozialen Netzwerke übergeben irgendeine Art persönlicher Daten an den Tracking-Dienst und seien es "nur" Benutzername oder ID im sozialen Netzwerk. Diese wenigen Daten reichen aus, um das Profil durch weitere Informationen wie Name, Interessen etc. zu erweitern.

Dies geschieht meist auf zwei verschiedene Weisen[6]:

  • anhand Referrer Nutzername/-ID erkennen und zuordnen
  • direkte Übertragung seitens des sozialen Netzwerks per Parameter an den Tracking-Dienst

Daraufhin können alle weiteren verfügbaren Informationen über öffentliche Profile gesammelt werden.

Tor als Lösung?

Dieser Abschnitt soll nicht die Funktionsweise von Tor erklären, sondern zeigen, was man bei der Benutzung von Tor grundsätzlich beachten sollte, wenn man User Tracking vermeiden möchte.

Das Tor-Netzwerk anonymisiert zwar die IP-Adresse, allerdings überträgt es Client-seitige Sprachen wie JavaScript unverändert an den Browser und diese werden dort ganz normal ausgeführt. D.h., dass eine über JavaScript abgefragte IP-Adresse nicht anonymisiert ist. Aus diesem Grunde sollte Tor im Browser stets mit NoScript-Addon o.ä. ausgeführt werden.

Beispiel: Google

Alle Daten aus (u.a.) den nachfolgenden Google-Diensten unter Zuhilfenahme obiger Techniken gesammelt und verknüpft, ergeben (bei keinem oder unzureichendem Schutz) ein ziemlich genaues und weitreichendes Persönlichkeitsprofil, welches hauptsächlich für zielgenau geschaltete Werbung genutzt wird. Google macht aus der Verknüpfung auch kein Geheimnis, so lassen sich einige Google-Dienste über ein zentrales Googlekonto nutzen und zusammenschließen. Die Arbeit des Verknüpfens der Daten übernimmt der Benutzer selbst.

Google finanziert sich zurzeit ausschließlich über Werbeeinnahmen, daher ist es klar, dass sowohl die Werbung als auch die Suche möglichst personalisiert sein müssen, um Kunden zum besuchen der Zielseiten und User zur Nutzung der Google Suche zu bewegen.

Google Analytics

Google Analytics-Anfrage bei omgpop.com mit farbig markierter Zeichenkodierung, Bildschirmauflösung, Farbtiefe, Browsersprache, Flash Version und Referrer. (Parameter, Cookies

Analytics ist Googles Tracking-Service, der durch das Einfügen einiger weniger Zeilen in den Quelltext (Beispiel siehe Bild) kostenlose Statistiken für den Seiteninhaber bereitstellt.

Google AdSense

Adsense bietet Internetseitenbetreibern eine Möglichkeit, Textanzeigen in die eigene Seite einzubinden und dadurch Guthaben anzuhäufen, mit dem man entweder selbst Werbung schalten oder es sich auszahlen lassen kann. Auch diese Anzeigen bieten Tracking-Möglichkeiten.

Search

Die weltgrößte Suchmaschine wird täglich mit unmengen an Stichwörtern gefüttert und kann so vielfältigen Aufschluss über Vorlieben und Interessen des Users vermitteln.

Google Mail

Googles Mailservice scant alle ein- und ausgehenden E-Mails und erweitert auf diese Weise das Persönlichkeitsprofil.

sonstiges

  • Chrome Browser: Google hat in seinem Browser eine Variable namens client_id eingeführt, die eine weltweit eindeutige ID enthält, mit der der User zu jeder Zeit identifiziert werden könnte. (Variable dauerhaft entfernen)
  • YouTube: Im Oktober 2006 hat Google das große Videoportal übernommen und kann nun seine Nutzerprofile um visuelle Interessen im eigenen Hause ergänzen.
  • Blogger/Blockspot: Seit 2003 gehört Google auch der Blog-Hostingdienst Blogger.com, mit dem einiges an Content in Googles nähere Reichweite gerückt ist.
  • DoubleClick, ein anderer großer Tracking-Dienst, wurde im April 2007 von Google übernommen.
  • Per Google Health kann der User Daten über seinen gesundheitlichen Zustand eingeben und verwalten (inkl. Vorerkrankungen und Medikamenten).

Abwehrmaßnahmen

Um sich besonders vor dem Tracking-Riesen Google zu schützen, gibt es ein spezielles Firefox-Addon namens GoogleSharing. Dieses Addon schleust allen Google-Traffic über eine ssl-verschlüsselte Verbindung (bis zum Proxy) durch schnelle Proxys, die persönliche Daten anonymisieren und von vielen Usern gleichzeitig genutzt werden. Des weiteren senden die Proxys von sich aus "zufällige Suchanfragen" an Google, um das eine Profil, das Google von dem jeweiligen Proxy angelegt hat, weiter zu verfremden. Selbstverständlich funktioniert das Prinzip nur so lange wie man keine Dienste nutzt, für die ein Login notwendig ist. Außerdem bietet das Addon an, bestimmte Google-Dienste auszuschließen, z.B. wenn Maps unbenutzbar langsam laufen sollte. Es besteht auch die Möglichkeit, einen eigenen Proxy mit der frei verfügbaren Software aufzusetzen.

Um sich nur bei der Google Suche vor User-Tracking zu schützen, gibt es Scroogle. Dies ist ein ähnlicher Dienst, der die Suchanfragen über einen zentralen Proxyserver sendet und so verfremdet bzw. die richtige Verknüpfung der Daten unmöglich machen soll.


Links