Denna sida kan innehålla exempel som är angivna i ett annat språk eller skriftsystem.

Använd snabbval "n" för att hoppa till de interna navigationslänkarna i dokumentet. För närvarande kan du välja en av följande:

Gå till W3C:s hemsidaGå till Architecture Domains hemsida  Internationalization 
 

Teckenkodningar

dokuments teckenuppsättning

Teckenuppsättningen för dokument i XML och HTML 4.0 är Unicode (även kallad ISO 10646). Detta innebär att HTML-läsare och XML-processorer borde bete sig som om de använder Unicode internt. Detta betyder dock inte att dokument måste transporteras i Unicode-kodning. Så länge som klient och server är överens om kodningen så kan de använda vilken kodning som helst som kan översättas till Unicode.

Att deklarera kodningar

Det är mycket viktigt att teckenkodningen för ett XML- eller (X)HTML-dokument tydligt anges. Detta kan göras på följande sätt:

Med hjälp av denna information kan klienter lätt översätta dessa kodningar till Unicode. I praktiken är vissa kodningar att föredra, och de vanligaste är: UTF-8 , ISO-8859-1 (Latin-1), US-ASCII, UTF-16, de andra kodningarna i ISO-8859-serien, iso-2022-jp, euc-kr, och så vidare.

Förteckningar över värden för 'charset'-parameters som används på Internet

  1. Den fullständiga förteckningen över teckenuppsättningar som registrerats av IANA (lång)
  2. Teckenuppsättningar som stöds av några vanligt förekommande HTML-tillämpningar
  3. Intressanta testsidor: Den 10:e Unicode konferensen
  4. RFC 3629 definierar UTF-8

Mer information om terminologi: en artikel av Dan Connolly ("Character Set" Considered Harmful) och ett svar av Glenn Adams (Character Set Terminology, SC2 vs. SC18 vs. Internet Standards) hjälper till att förklara problemen.

Historisk anmärkning: Rick Jellife föreslog användning av SPREAD entiteter från ERCS.

Författare: Martin J. Dürst, W3C. [översättare: Olle Olsson, SICS]

valid XHTML 1.0
valid CSS
Kodad i UTF-8

översättning av ett engelskt orginal daterad 30:e juli 2004. översättningen senast modifierad 2004-11-08 10:30 GMT.

Detta dokument är en översättning av versionen http://www.w3.org/International/O-charset.en. översättningen kan innehålla fel och brister, och det engelska orginalet är den auktoritativa versionen. Copyright tillhör W3C, enligt nedan.