W3C I18N FAQ: Dokuments teckenuppsättning

Avsedd läsarkrets: de som kodar XHTML/HTML (använder texteditorer eller skripts), skriptutvecklare (PHP, JSP, etc.), CSS-kodare, XSLT-utceklare, projektledare för wbbutveckling, och alla som vill förstå vad "Document Character Set" är, och hur det hänger samman med den kodning som används i ett dokument eller webbsida

Fråga

Vad menas med 'dokuments teckenuppsättning' i XML och HTML, och hur hänger det samman med den kodning jag använder i mina dokument?

Svar

För XML och HTML (4.0 eller senare) gäller att dokuments teckenuppsättning eller basteckenuppsättning är Universal Character Set (UCS) som definieras både av standarden ISO/IEC 10646 och av Unicode-standarden, vilka definierar samma koder.

Detta betyder att den logiska modell som beskriver hur XML och HTML behandlas beskrivs i termer av Unicode-teckenuppsättningen.

Anm: Av enkelhetsskäl, och enligt normal praxis, så står alla förekomster av "Unicode" i detta dokument för den teckenuppsättning som definieras av både Unicode och ISO/IEC 10646.

Det betyder dock inte att alla HTML- och XML-dokument måste kodas som Unicode, men det betyder att sådana dokument bara kan innehålla tecken som definieras av Unicode. Lägg märke till att teckenuppsättning och kodning är olika saker - t.ex. kan hela Unicode-repertoaren kodas på fler än ett sätt, bl.a. som UTF-8, UTF-16 och UTF-32. Du kan använda vilken kodning som helst, så länge som den tydligt anges och är en delmängd av Unicode-repertoaren. (Det är ganska osannolikt att man stöter på en kodning som inte är en delmängd av Unicode.)

Å andra sidan är det bra att i största möjliga utsträckning använda Unicode, eftersom det förenklar många typer av problem vad gäller webbinternationalisering, och Unicode har brett stöd av HTML-läsare och fullt stöd av alla XML-processorer.

En viktig effekt av dokumentets teckenuppsättning är att värden av numeriska teckenreferenser (såsom ǵ och ǵ som står för "litet latinskt tecken g med akut accent") tolkas som Unicode-tecken - oavsett vilken tekenkodning du använder för dokumentet. Detta är en vanlig orsak till missuppfattningar av de som inte har skillnaden klart för sig.

Dessutom

I praktiken kan inte alla Unicode-tecken användas överallt i XML och HTML. T.ex. kan vissa tecken inte användas i elementnamn och vissa kontrolltecken (eng. "control characters") kan inte användas i innehåll. Lägg dock märke till att XML 1.1, jämfört med XML 1.0, tillåter användning av många fler tecken i sådant som elementnamn.

Historisk information

För HTML 2.0 definierades att alla tecken i ett HTML-dokument skall tolkas som ISO 8859-1 (också kallad ISO Latin 1), men samtidigt kungjordes att framtida versioner av HTML kommer att använda en utvidgad mängd, dvs Unicode (eller ISO 10646), vilket betyder att en ofantlig mängd av alla världens tecken kan användas.

Diskussionen om hur man bör använda Unicode på Internet ( RFC 2130, April 1997, och RFC 2070, Jan 1997) hade inte avslutats då HTML 3.2 publicerades (Jan 1997), och därför kunde inkorporerandet av Unicode i HTML ske först i samband med HTML 4.0 (Dec 1997).

Mer att läsa

Specifikationen XML 1.0, "2.2 Characters" beskriver teckenuppsättning för dokument i XML 1.0. http://www.w3.org/TR/REC-xml#charsets
Specifikationen HTML 4.01, "5 HTML Document Representation" beskriver teckenuppsättning för dokument i HTML4. http://www.w3.org/TR/html401/charset.html
"Extensible Markup Language (XML) 1.1 W3C Recommendation" http://www.w3.org/TR/xml11/
Det finns ett mycket användbart appendix, "Character Sets, Character Encodings, and Document Character Sets" i XML Specification Guide av Ian S. Graham och Liam Quin. ISBN 0-471-32753-0.

Översättning av ett engelskt orginal daterad 9 oktober 2003. Översättningen senast modifierad 2004-11-17 11:30 GMT.

Detta dokument är en översättning av versionen http://www.w3.org/International/questions/qa-doc-charset. Översättningen kan innehålla fel och brister, och det engelska orginalet är den auktoritativa versionen. Copyright tillhör W3C, enligt nedan.

Copyright © 2004 W3C^® (MIT, ERCIM, Keio), All Rights Reserved. W3C liability, trademark, document use and software licensing rules apply. Your interactions with this site are in accordance with our public and Member privacy statements.

Relaterade länkar

FAQ: Dokuments teckenuppsättning

Fråga

Svar

Dessutom

Historisk information

Mer att läsa