Webbstandards - hur väl lever vi upp till dem?

Olle Olsson

Svenska W3C-kontoret

, SICS

2002-04-18

Sammanfattning:
Webbplatser efterlever inte webbstandarder. En undersökning av mer än 300 företags hemsidor visade att praktiskt taget ingen av dessa använder HTML på ett helt korrekt sätt. Typiska felaktigheter är att tagg-strukturen är ogiltig, att icke understödda tecken förekommer i texten, och att dokumenten inte är typ-deklarerade.

Webben är en infrastruktur som knyter samman användare med webbplatser. Den bygger på tanken att vem som helst skall kunna komma åt information och tjänster oberoende av vilka apparater man använder. För att uppnå detta mål måste det finnas standarder, och standarder måste efterlevas. Inom webbområdet finns två huvudstandarder; HTTP-protokollet och HTML-språket.Genom att leverantörer av utrustning och aktörer på webben bekänner sig till dessa standarder kan problemfri kommunikation uppnås.

Huvudansvaret för att access över webben är smärtfri ligger hos webbplatserna. Användare utnyttjar i stort sett bara vad deras webbläsare erbjuder dem, dvs att begära att en viss utpekad webbsida skall visas. Webbplatsen, där sidan finns, skall då leverera denna till användarens webbläsare, och där ska sidan presenteras, så att användaren kan ta del av informationen i den.

En förutsättning för att användarens webbläsare skall kunna presentera sidan på ett meningsfullt sätt är att det innehåll som mottas från webbplatsen är uttryckt i ett språk som webbläsaren kan avkoda. Det är här som HTML-standarden kommer in. Om det som webbläsaren mottar är uttryckt i korrekt HTML så är webbläsaren ansvarig för att presentera detta innehåll på avsett sätt. Men om det som webbplatsen sänder inte är korrekt HTML så kommer webbläsaren att ställas inför ett problem; hur skall den kunna förstå vad webbplatsen sänder, om webbsidan är uttryckt på ett mer eller mindre oförståeligt sätt?

För att få en uppfattning om i hur stor utsträckning webbplatser levererar webbsidor som är uttryckta i korrekt HTML, har en empirisk studie genomförts. En grupp av mer än trehundra företag (fotnot 1) valdes ut, och deras hemsidor analyserades med avseende på om dessa var uttryckta i enlighet med etablerad HTML-standard. Analysen av en webbsida resulterade i en "anmärkningslista" bestående av ett antal "anmärkningar". Om antalet anmärkningar är noll så är sidan korrekt uttryckt, annars är den felaktig.

Det visade sig att det inte var möjligt att analysera alla de mer än trehundra sidorna. Exempel på faktorer som omöjliggjorde en analys var att webbplatsens server inte svarade, och att sidorna inte kunde förstås som HTML. Därför minskade den undersökta mängden sidor till 280, och för dessa insamlades information, t.ex. det antal anmärkningar som analysen av sidan gav.

Det första resultat som kom fram ur analysen är att praktiskt taget alla webbplatser brister i att informera webbläsaren om vilken typ av dokument som de sänder. I "ansvarfulla" webbsidor kan man se en inledande rad som typiskt ser ut som:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">

En sådan talar om vilken typ av dokument som följer. I detta fall påstår raden att sidan använder HTML som definierat i "HTML 4.01 Transitional". Andra alternativ som man kan se är "HTML 2.0", "HTML 3.2" och "XHTML 1.0 Transitional". Om en "DOCTYPE"-deklaration saknas, så går det, formellt sett, inte att veta hur man skall förstå dokumentet.

Ett annat vanligt förekommande generellt problem är huruvida sidorna talar om för webbläsaren vilken teckenuppsättning som sidan uttrycks i. De som har tittat bakom kulisserna vet att det tidigare var problem med svenska tecken (å, ä, ö), eftersom de inte finns definierade i ASCII, som varit normen för hur tecken skall representeras. Under senare år har dock detta standardiserats, i bemärkelsen att standardiseringsorganisationer har definierat ett antal teckenuppsättningar som täcker olika språkområdens behov. En teckenstandard som täcker svenska behov är "iso-8859-1" (också kallad "latin1").

Då en webbplats skall deklarera vilken teckenuppsättning som sidan är uttryckt i, kan den välja mellan två likvärdiga tekniker. Den första tekniken är att inkludera en rad i HTTP-headern, som talar om hur sidan skall förstås. Det är den s.k. "content-type headern", som kan se ut som:

Content-Type: text/html; charset=iso-8859-1

Alternativet är att inkludera denna information i sidan själv, som ett element i HEAD-delen. Ett sådant element kan se ut som:

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

Då en sida saknade deklaration av dokumenttyp och/eller teckenuppsättning fick vi lägga till sådana deklarationer, eftersom sidan annars inte kunde analyseras.

Information om att en sida innehåller fel är naturligtvis informativt. Men det är mer intressant att försöka fastställa mönster i felförekomster. Här ska vi beskriva en sådant mönster: sambandet mellan en webbsidas storlek och det antal anmärkningar sidan fått vid analys. Det enda vettiga måttet på en sidan fysiska storlek är antalet tecken som förekommer i sidan (fotnot 2). Sambandet mellan anmärkningar och sidstorlek anges i måttet anmärkningsfrekvens, definierat som genomsnittligt antal anmärkningar per 1000 tecken i sidan.

Resultat:

Eftersom vissa webbplatser har ägare som branchmässigt bör ha god kunskap och kompetens om webbteknologi, är det rimligt att gissa att dessa webbplatser har färre fel än andra webbplatser. För att testa denna hypotes, uppdelades mängden sidor i två kategorier: (1) hemsidor för företag med IT som en viktig del i företagets utbud, och (2) hemsidor för övriga företag, såsom verkstadsindustri, finansbolag och förvaltningsbolag.

Resultat:

Sammanfattning:
Det finns förvånansvärt stora brister i hur väl webbplatser lyckas leverera korrekta HTML-sidor. Vissa problem bör vara enkelt åtgärdbara, som att deklarera teckenuppsättning och dokumenttyp. Problem med tagg-strukturen borde aldrig uppstå, om sidan tillverkats på ett kvalitetssäkrat sätt. Resultaten visar såväl att det finns brister i de verktyg som användes för att tillverka webb-sidor, som att kvalitetssäkring av webb-sidor är eftersatt. En intressant observation är att IT-företagens egna hemsidor inte hade markant bättre teknisk kvalitet än övriga företags hemsidor.

Forsättning följer: "Webbstandarder - därför bör man efterleva dem!", som beskriver konkreta nackdelar med att inte kunna leverera webb-sidor uttryckta enligt webb-standarder.

Fotnötter

  1. Företagen var huvudsakligen svenska, men även ett mindre antal europeiska företag ingick i den undersökta mängden Tillbaka
  2. HTML är inte radorienterat. En sida kan bestå an en enda lång rad, men kan också vara "radbruten" vid varje tagg, och det förändrar inte sidans betydelse i något avseende. Allstå är antalet tecken det grundläggande storleksmåttet. Tillbaka

Statistiken

Karaktäristik av den analyserade mängden sidor

De sidor som analyserades var hemsidor för svenska företag samt för en mindre mängd utländska företag. Dessa bildade den ursprungliga mängden.

Alla sidor i den ursprungliga mängden underkastades automatisk analys. Ett antal av dessa sidor kunde, av olika skäl, inte analyseras. Dessa eliminerades från vidare undersökning, och återstoden kallas den undersökta mängden.

Några övergripande data om sidorna i den undersökta mängden är:

Sidor som är "onormala" exkluderades från vidare analys. Den återstående effektiva mängden består av sidor som är "normala", vilket betyder att de uppfyller följande villkor:

Små sidor har exkluderats, eftersom de inte innehåller speciellt mycket av intresse ur analyssynpunkt. Som illustration kan vi se följande "Hejsan världen!"-sida, som har en längd av nästan 240 tecken, men som inte kan sägas vara speciellt meningsfull som en hemsida.

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<title>Hejsan v&auml;rlden</title>
</head>
<body>
Hejsan v&auml;rlden!
</body>
</html>

Exempel på grupper av sidor som var för små för att analyseras är:

Extremt stora sidor eliminerades också från analys, eftersom de typiskt bestod av enorma inbäddade "scripts".

Sidor i den effektiva mängden utgjorde basen för den mer detaljerade analysen.

Övergripande egenskaper hos den effektiva mängden

IT-företagAndra företagTotalt
antal analyserade hemsidor76150226
genomsnittlig sidstorlek 1077986459362
anmärkningsfrekvens7.597.997.86
minimum sidstorlek100110161001
maximum sidstorlek447003743244700
minimum anmärkningar på sida111
maximum anmärkningar på187196196
antal sidor utan deklarerad doctype57116173
% av sidor utan deklarerad doctype757776

I följande sektion återges diagram som visar analysresultat.

Analysresultat i diagramform

Industri: Totalt

Anmärkningar vs. sidstorlek

graf för sektor=totalt anmärkningar vs. sidstorlek

Spridningsdiagrammet ("scatter diagram") visar också en anpassad funktion:

anmärkningsantal(sidstorlek)= 2.93255e-8*sidstorlek2+0.00200646*sidstorlek+16.1855

Anmärkningsfrekvens vs. sidstorlek

graf för sektor=totalt anmärkningsfrekvens vs. sidstorlek

Spridningsdiagrammet visar också en anpassad funktion:

anmärkningsfrekvens(sidstorlek)= 1.71825e7/sidstorlek2+4473.82/sidstorlek+3.15996

Industri: IT-företag

Anmärkningar vs. sidstorlek

graf för sektor=totalt anmärkningar vs. sidstorlek

Spridningsdiagrammet visar också en anpassad funktion:

anmärkningsantal(sidstorlek)= 4.99752e-8*sidstorlek2+0.00135656*sidstorlek+20.3984

Anmärkningsfrekvens vs. sidstorlek

graf för sektor=totalt anmärkningsfrekvens vs. sidstorlek

Spridningsdiagrammet visar också en anpassad funktion:

anmärkningsfrekvens(sidstorlek)= 4.46261e6/sidstorlek2+18194.1/sidstorlek+2.08433

Industri: Övriga företag

Anmärkningar vs. sidstorlek

Graf för sektor=totalt anmärkningar vs. sidstorlek

Spridningsdiagrammet visar också en anpassad funktion:

anmärkningsantal(sidstorlek)= -3.40185e-9*sidstorlek2+0.00288104*sidstorlek+12.9383

Anmärkningsfrekvens vs. sidstorlek

Graf för sektor=totalt anmärkningsfrekvens vs. sidstorlek

Spridningsdiagrammet visar också en anpassad funktion:

anmärkningsfrekvens(sidstorlek)= 2.35267e7/sidstorlek2+-1915.87/sidstorlek+3.66098

Appendix - mönster i sidstorlekar

Vad som inte framgår direkt i diagrammen ovan är att storlekar på sidor också uppvisar ett mönster. Att det finns fler sidor av (relativt sett) små storlekar är ett exempel på ett mer generellt samband.

I diagrammet nedan visas hur många av sidorna i vårt urval som ligger i storleksintervall:

Graf för spridning av sidstorlekar

Detta är ett exempel på det som kallas en "Zipf-spridning" (fotnot A1), då vi ser antalet sidor i en grupp som en funktion av gruppnummer, typiskt en funktion av formen:

antalet sidor = A / gruppnummerB

för fixa A och B. I vår gruppering av de sidorna i ursprungsmängden, vars sidstorlek kunde fastställas, gäller:

antalet sidor = 160 / gruppnummer1,22546

och denna kurva är också plottad i diagrammet ovan.

Den intressanta egenskapen hos denna typ av spridning framgår om data och Zipf-funktionen plottas i ett s.k. log-log-diagram. Zipf-funktionen framträder då som en rät linje, som approximerar de individuella mätpunkterna.

Graf för spridning av sidstorlekar

Detta är ett av många exempel på uppdykande mönster i "naturen", mönster som man skulle kunna tro uppstår genom regleringar och rekommendationer, men som i själva verket är s.k. "emergenta" fenomen (fotnot A2) .

Naturligvis förändras vissa statistiska egenskaper hos webben över tiden, och då inte bara rena prestanda-egenskaper, beroende på mer kraftfulla plattformar. T.ex. ökar genomsnittlig sidstorlek med tiden. Cunha, Bestavros och Crovella (fotnot A3) presenterar webb-statistik från 1995, och bl.a. nämner de att genomsnittlig sidstorlek då var 6500 tecken, medan våra data ger ett genomsnitt på 9300 tecken. Men då, likaväl som nu, framträder det Zipf-lika mönstet tydligt.

Fotnötter

  1. Man kan skulle kunna se det som en Pareto-spridning. En diskussion kring Zipf, Pareto och andra spridningar återfinns i L. A. Adamic: "Zipf, Power-laws, and Pareto - a ranking tutorial" . Tillbaka
  2. En diskussion om fler statistiska fenomen i webb-världen ges av James E. Pitkow: "Summary of WWW Characterizations" Computer Networks and ISDN Systems, vol 30, 1998, pp 551--558. Tillbaka
  3. Cunha, C. A., A. Bestavros, and M. E. Crovella (1995) "Characteristics of WWW Client-based Traces" (Technical Report TR-95-010, Boston University Department of Computer Science, July 1995). Tillbaka

Last modified: Sat Mar 06 10:45:15 W. Europe Standard Time 2004

Valid HTML 4.01!