Standaard:Unicode

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen


Unicode (Voorkeurstitel)
Beschrijving

Unicode is een platformonafhankelijke opsomming en nummering van alle karakters die nodig zijn om elke geschreven mensentaal te noteren. In tegenstelling tot ASCII (7-bit), dat alleen de standaard letters uit het Engels zonder accenten kent, en Latin-1 (8-bit) dat veel wordt gebruikt in West-Europa, kan Unicode (16-bits) ervoor zorgen dat programmatuur met veel geschreven talen om kan gaan. De definitie van Unicode 4 bytes biedt ruimte aan 4.294.967.296 verschillende karaktertekens, waarvan er momenteel (Unicode versie 5.2.0) 867.169 zijn toegekend waarvan 107.296 posities zijn toegekend aan wat traditioneel onder karakters wordt verstaan.
Er is geen mogelijkheid om alle Unicode karakters te coderen in een enkele byte, of zelfs in twee. De Unicode-standaard lost dit probleem niet op: de zogenaamde codering maakt geen deel uit van Unicode. Wel zijn er standaarden bedacht om de Unicode-karaktersets in series bytes op te kunnen slaan, dit zijn UTF-8 (1 tot 4 bytes), UTF-32 (UCS-4, 4 bytes) en UTF-16 (UCS-2, 2 bytes) (UTF staat voor Unicode Transformation Format).


Documentatie
Beheerder
Specificatie
Documentatie
Persistent ID