Methodische Details

Wie entstehen die Auswertungen von domain-scan.net? Zugrunde liegt ein zweistufiger Prozess: In einem ersten Schritt wird eine 1%-Stichprobe aller de-Domains online aufgesucht und inhaltlich analysiert. In einem zweiten Schritt werden diese Ergebnisse mit einer Reihe von Auswertungen offline zu statistischen Merkmalen verdichtet und hier veröffentlicht. Die zugrundeliegenden Programme sind in Perl geschrieben und laufen auf einem Debian-Server.

Online-Schritt

Als Ausgangsbasis dient das ^ Open Directory Project. Aus dem dort veröffentlichten downloadbaren Link-Verzeichnis (^ Open DirectoryRDF Dump) werden die de-Domains extrahiert und hieraus eine zufällige Stichprobe im Umfang von einem Prozent der insgesamt registrierten de-Domains gezogen. Die Anzahl der de-Domains wird regelmäßig von der ^ DENIC eG bekanntgegeben. Die Stichprobe des jeweiligen Vormonats wird dabei möglichst übernommen, Domains die mehrere Monate nicht erreichbar waren, werden jedoch entfernt. Durch die im Rahmen des Internetwachstums steigenden Gesamtdomainzahlen kommen jeden Monat neue Domains zu der Stichprobe hinzu.

Jede Domain der Stichprobe wird besucht und der Inhalt ihrer Homepage sowie andere Daten wie z.B. Robots-Informationen analysiert. Neben den HTTP-basierten Informationen werden auch Eckdaten der jeweiligen Server und der ISP erfasst. Die abgerufenen Daten werden für die spätere Analyse gespeichert. Pro Monat entstehen auf diese Weise mehrere GB Rohdaten.

Offline-Schritt

Die statistische Auswertung erfolgt zeitversetzt unter Verwendung der gespeicherten Rohdaten. Hierzu wird für jedes Angebot eine Reihe von Analysen durchgeführt, die zu statistischen Aussagen über die Häufigkeit verschiedenster Parameter führen. Abschließend werden diese tabellarisch und grafisch aufbereitet und in monatlichen Auswertungen bereitgestellt. Aktuell werden dabei die folgenden 43 Themenbereiche analysiert:

  1. Grunddaten: Wieviele Angebote wurden untersucht? Wann fand die Untersuchung statt?
  2. Angebots-Cluster: Wie sind die gebildeten Angebotscluster verteilt?
  3. Domainnamen: Welche Wörter und Buchstaben kommen in den Domainnamen vor? Wie lange sind Domainnamen?
  4. Startseite: Wie groß sind die Startseiten der untersuchten Angebote? Aus welchen Teilen bestehen sie? In welchem Umfang finden Weiterleitungen statt?
  5. Seitentitel: Werden Seitentitel verwendet, welche Länge haben sie, welche Wörter und Buchstaben sind enthalten?
  6. Text: Aus welchen Wörtern und Buchstaben sind die Texte der Angebote zusammengesetzt?
  7. HTML-Zeichensatz: Welche Zeichensätze werden wie häufig verwendet? Wie wird der Zeichensatz spezifiziert?
  8. DTD: Welche Dokumenttentypen in welchen Versionen sind anzutreffen?
  9. Technologie-Nutzung: Welche Technologien wie Frames, Java, Flash werden eingesetzt?
  10. Meta-Tags: Welche Meta-Tags werden wie häufig eingesetzt?
  11. Stichwörter (Meta-Keywords): Welche Stichwörter werden verwendet um die Angebote zu beschreiben? Wie häufig wird überhaupt von dieser Möglichkeit der Beschreibung Gebrauch gemacht?
  12. Begriffe (Meta-Description): Wie häufig wird von dieser weiteren Möglichkeit, ein Angebot oder eine Seite zu beschrieben Gebrauch gemacht? Welche Begriffe werden dabei verwendet?
  13. Seitenthema (Meta-page-topic): Das Thema einer Seite kann gesondert spezifiziert werden. Wird dies genutzt?
  14. Seitentyp (Meta-page-type): Welche Angaben zum Seitentyp lassen sich identifizieren?
  15. Zielgruppe (Meta-Audience): Welche Zielgruppen werden genannt und wie häufig wird diese Möglichkeit überhaupt genutzt?
  16. Textsprache (Meta-Language): Welche Angaben über die verwendete Sprache werden gemacht?
  17. Web-Editoren (Meta-Generator): Wie häufig wird angegeben, mit welcher Software die Webseite erstellt wurde?
  18. HTML-Tags: Welche HTML-Tags werden wie häufig verwendet?
  19. Mail-Adressen: In welchem Umfang werden Mail-Adressen genannt? Welche Mail-Provider werden besonders häufig verwendet?
  20. Verlinkte Angebote: Zu welchen Angeboten Dritter führen besonders viele Links?
  21. Downloads: Wie häufig wird die Möglichkeit geboten, Dokumente herunterzuladen? Um welche Art von Dokumenten handelt es sich dabei?
  22. Eingebettete Elemente: Aus welchen Elementen sind die untersuchten Seiten zusammengesetzt? Woher stammen externe Elemente vorwiegend?
  23. Werbebanner: In welchem Umfang werden Grafiken aus anderen Domains in die Seiten integriert und welche Pixelgrößen sind hierbei vorherrschend?
  24. Webbugs: Inwieweit können unsichtbare Zählgrafiken in den Angeboten identifiziert werden? Welche Anbieter sind hierfür verantwortlich?
  25. Cookies: Wie häufig wird von welchen Cookies Gebrauch gemacht? Welche Lebensdauer haben die Cookies? Gibt es typische Namen für Cookies?
  26. Flash-Cookies: Können in Flash-Elementen Cookie-ähnliche Bestandteile erkannt werden?
  27. Formulare: Wie häufig werden Formulare und innerhalb dieser bestimmte Formularfelder eingesetzt? Werden Passwörter stets verschlüsselt übermittelt?
  28. PICS: Wie häufig enthalten Seiten Angaben zur altersgerechten Nutzung? Welche Bewertungssysteme werden dabei verwendet?
  29. P3P: Werden formalisierte Angben zum Datenschutzniveau einer Seite gemacht?
  30. Impressum / Anbieterkennzeichnung: In welchem Maß ist es möglich, eine Anbieterkennzeichnung in den Angeboten zu identifizieren?
  31. Datenschutzerklärung: Enthalten die Angebote Angaben zum Datenschutz? Wenn ja, welche?
  32. HTTP-Header: Welche Header sind in den HTTP-Antworten wie häufig enthalten?
  33. Alter von Seiten: Welche Rückschlüsse lassen sich auf die Änderungshäufigkeiten von Web-Seiten ziehen?
  34. robots.txt: Wie häufig wird von der Möglichkeit Gebrauch gemacht, Suchroboter zu steuern? Welche Roboter stehen dabei im Fokus?
  35. Sitemaps: Wird diese erweiterte Form der Robotersteuerung verwendet?
  36. SSL: In welchem Umfang sind Angebote auch per SSL erreichbar? Welche Zertifikate werden dabei verwendet? Welche Schlüssellängen sind möglich?
  37. Domain-Parking: Welcher Anteil der untersuchten Angebote wird nicht aktiv, sondern durch einen Parking-Anbieter  genutzt? Welche Anbieter sind hierbei besonders aktiv?
  38. Web-Tracking: Werden Dienst zur Nutzungsmessung der Seiten genutzt und wenn ja, welche?
  39. HTTP-Server: Welche Server-Produkte werden wie häufig eingesetzt? Welche Versionen der Produktlinien sind erkennbar?
  40. Apache-Module: Werden in der Identifikation des Apache-Servers Module genannt, die in diesen eingebunden sind? Welche Modulkombinationen sind besonders häufig?
  41. Apache-Status: Bieten Apache-Server Status-Informationen an und was ist ihnen zu entnehmen?
  42. Apache-Info: Bieten Apache-Server Systeminformationen an und was ist ihnen zu entnehmen?
  43. Hostname: Welche Namen tragen die Hosts, auf denen die Angebote laufen?
  44. Server-Ports: In welchem Umfang sind bestimmte Standardports (ftp, smtp) auf den Servern erreichbar?
  45. Uptime: Wie lange sind die verwendeten Server bereits in Betrieb? Wie häufig erfolgt ein Reboot?
  46. ISP-Marktanteil: Welche Internet-Service-Provider lassen sich identifizieren? Wer stellt die meisten Angebote bereit?
  47. Domains pro Host: Wieviele Angebote sind auf einem Host konzentriert?

Diskussion

Bei der Verwendung einer Stichprobe stellt sich immer die Frage deren Repräsentativität. Leider kann hierzu keine verlässliche Aussage getroffen werden. Sie wird vor allem durch die Repräsentativität der Auswahlbasis, dem Open Directory Project bestimmt, über die allerdings keine belastbaren Informationen existieren. Vermutlich ist diese Grundmenge insofern gerade nicht repräsentativ als das Open Directory Project ein editierter Webkatalog ist, wodurch sich eine Vielzahl von Einflussfaktoren vermuten lässt.

Die Auswahl aus dem Open-Directory-Project-Verzeichnis erfolgt jedenfalls zufällig mit anerkannt hochwertigen Verfahren (^ Mersenne Twister, siehe auch ^ Wikipedia).

Dass überhaupt auf eine Stichprobe zurückgegriffen wird, hat verschiedene Gründe:

  • Eine vollständige Liste aller de-Domains ist nicht verfügbar. Über diese Information verfügt allein die DENIC; eine Veröffentlichung scheidet aus einer Reihe rechtlicher Gründe aus.
  • Die Vollanalyse würde den Aufwand an Speicherplatz und Downloadvolumen verhundertfachen. Dies ist im Rahmen der für dieses Projekt verfügbaren Kapazitäten nicht leistbar.
  • Eine Analyse aller de-Domains würde vermutlich ein weniger aussagekräftiges Bild ergeben als die gewählte Stichprobe. Dies liegt daran, dass in der Gesamtheit aller Domains eine große Menge sog. ^ geparkter Domains enthalten ist. Die Firma ^ Sedo, ein Unternehmen, das über 3 Millionen internationale Domains parkt, ^ spricht von einem Anteil von über 45 Prozent aller registrierten de-Domains. Solche Domains verzerren das Bild insofern als sie keine eigenen, sondern standardisierte Inhalte in einheitlichen Layouts anbieten. Es ist zu erwarten, dass die im Open Directory Project enthaltenen Domains einen deutlich geringeren Parking-Anteil haben und daher die Situation der aktiv betriebenen Domain-Landschaft besser widerspiegeln. Eine Bestätigung dieser Erwartung zeigt die Auswertung "Domain-Parking".
Aktualisiert ( Donnerstag, 27. August 2009 um 22:23 )