Statistische Auswertung von Website-Quelltext

Steffen Weber
25 Kommentare

Google hat seinen riesigen Datenbestand dazu genutzt, um eine statistische Auswertung der im HTML-Quelltext von einer Milliarde Websites vorkommenden Elemente und deren Attribute vorzunehmen und präsentiert die Ergebnisse anschaulich in Form von Diagrammen.

Durchschnittlich finden in einer Website 19 verschiedene Elemente Verwendung. Logischerweise sind die vier populärsten Elemente „html“, „head“, „title“ und „body“, gefolgt von „a“ zum Setzen von Hyperlinks sowie „img“ zum Einbinden von Bildern. Traurige Ergebnisse fördert die Analyse der 20 am häufigsten verwendeten Attribute des Body-Elements zu Tage: neun davon wurden nie in einer Spezifikation erwähnt und die Verwendung weiterer fünf ist seit acht Jahren – dem halben Alter des Web – missbilligt.

Die ausführlichen Kommentare zu jedem Diagramm geben Aufschluss über Dinge, die von vielen Webmastern – bzw. den von selbigen verwendeten Programmen – nach wie vor falsch gemacht werden. Beispielsweise findet sich in fast jedem Script-Element zum Einbetten von JavaScript-Code in Websites ein „language“-Attribut, obwohl dieses seit eh und je missbilligt ist und selbst noch so rückständige Browser darauf verzichten können und stattdessen darauf schauen, ob das Attribut „type“ den Wert „text/javascript“ hat – und laut einem Entwurf der HTML5-Spezifikation soll selbst dieses optional werden.

Die zahlreichen Diagramme der Web Authoring Statistics stellt Google ausschließlich im SVG-Format zur Verfügung und musste dafür bereits Kritik einstecken. Google empfiehlt zur Betrachtung Mozilla Firefox 1.5, Anwender der Vorabversion von Opera 9 können ebenfalls ihr Glück versuchen. Mit Opera 8.5 und Konqueror 3.5 bekommt man – obwohl diese Browser SVG grundsätzlich unterstützen – nur eine schwarze Fläche zu sehen. Apples Safari-Browser wird erst in einer zukünftigen Version SVG unterstützen, Microsofts Internet Explorer bestenfalls längstfristig.