ISO/CEI 646
L'ISO/CEI 646 (ICS n°35.040) est une norme ISO qui depuis 1972 spécifie des codes de caractères graphiques codés sur 7 bits à partir desquels plusieurs normes nationales sont dérivées. La plus connue d'entre elles est la variante américaine, communément (mais improprement) désignée « ASCII ». L'ISO 646 est également désigné comme l'« Alphabet international de référence n°5 » (AIR5), « Alphabet international n°5 » (AI5) ou encore (en anglais) « International Alphabet No. 5 » (IA5).
Il est similaire, si ce n'est très proche ou identique au standard ECMA-6[1].
Généralités
[modifier | modifier le code]Puisque la portion d’ISO/CEI 646 partagée par tous les pays n’est constituée que des lettres de l’alphabet latin de base suffisant pour l’anglais moderne, les autres langues utilisant un alphabet latin plus étendu ont eu besoin de créer des extensions et des variantes nationales de l’ISO 646 dans le but d'utiliser les lettres spécifiques à leurs langues.
L’ISO 646 normalise donc les variantes nationales autorisées pour les jeux européens à caractères latins, permettant de créer un jeu de 94 caractères graphiques (numérotés de 33 à 126) comprenant 82 caractères invariants entre toutes les versions nationales, et 12 positions utilisables pour les caractères (alphabétiques ou non) nécessaires à une langue ou un groupe de langues. Il fixe également un alphabet international de référence (IRV) servant de guide (non impératif) pour le placement des 1 à 12 caractères sélectionnés sur les 12 positions variantes.
Les jeux ISO 646 incomplets sont autorisés (toutefois la plupart des jeux approuvés et inscrits dans le registre ISO-IR complètent les positions libres par les caractères du jeu de référence (similaire au jeu retenu pour la norme américaine, mais restreint aux seules 94 positions graphiques de la plage de code G0 définie par la norme de codage ISO/CEI 2022 avec laquelle la norme ISO 646 est totalement compatible).
Plus tard, lorsque les jeux de caractères composés de 8 bits devinrent plus fréquents, la norme ISO/CEI 8859 fut alors préférée à ces variantes nationales du jeu latin codé sur 7 bits, en imposant le choix de la variante ISO 646/IRV (c’est-à-dire le jeu graphique à 94 éléments enregistré sous le numéro ISO-IR/002) improprement appelée ASCII (qui désigne en fait le jeu de caractères latins américains codé sur 7 bits, complété du jeu de caractères de contrôles ISO 646/C0 (ISO-IR/001) pour les 32 premières positions). Toutefois, le développement de jeux de caractères plus étendu (sur 8 bits, et parfois avec des plans de codes multiples pour chaque bloc de 32, 94 ou 96 codes) s’est fondé sur la norme ISO/CEI 2022 permettant de les rendre compatibles avec un codage sur 7 bits, grâce à un système de séquences d’échappement et certains caractères de contrôle normalisés.
Les normes ISO 646 et ISO 8859 sont en principe figées depuis juin 2004 (la normalisation internationale de nouveaux jeux à 7 et 8 bits est désormais arrêtée, le groupe de travail de l’ISO ayant suspendu ses activités) et sont destinées à être remplacées par la nouvelle norme plus complète et plus précise ISO/CEI 10646 (liée à Unicode) dont l’interprétation et l’interopérabilité sont bien meilleures, cette dernière norme permettant de représenter tous les autres jeux de caractères normalisés existants et d’affiner le codage effectif final tout en préservant la sémantique du texte codé et en améliorant sa typographie. L’ISO/CEI 10646 a gardé la compatibilité ascendante avec la vieillissante norme ISO 646.
Caractères invariants
[modifier | modifier le code]Les positions invariantes des jeux de caractères graphiques latins compatibles avec l’ISO 646 sont les suivantes :
|
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
Variantes nationales de l’ISO 646
[modifier | modifier le code]De nombreuses variantes de l’ISO 646 ont été normalisées par des organismes nationaux officiels, et la plupart ont alors été déclarées dans le registre international (ISO-IR) des jeux de caractères à 7 et 8 bits. Cependant ce registre est maintenant clos depuis , ses membres ayant décidé de concentrer leurs efforts au maintien de la norme universelle ISO/CEI 10646.
D’autres variantes ont été développées de façon initialement propriétaire pour couvrir les besoins de certaines langues, avant d’être enregistrées publiquement avec l’appui d’organismes de normalisation officiels (notamment l’ECMA au niveau européen, afin de stabiliser les tables de conversions). Il existe cependant de nombreuses variantes propriétaires n’ayant pas reçu cet appui et qui donc n'ont pas été enregistrées formellement par l’ISO-IR (et dans l’immédiat, ne le seront sans doute jamais, leur obsolescence étant très accélérée du fait de l’imprécision de leur définition et de l’obsolescence parallèle des systèmes qui les supportaient).
Parmi les normes nationales enregistrées pour les variantes de l’ISO/CEI 646 on trouve :
|
|
Parmi les normes initialement propriétaires finalement approuvées au niveau international pour l’interopérabilité grâce au support d'un organisme de normalisation, on trouve :
|
|
Dans les tables ci-dessus, la colonne code indique la correspondance avec ceux utilisés comme libellés abrégés de colonnes pour repérer les caractères variants de la section suivante ; ces codes ne sont pas normalisés (seuls les numéros d’enregistrement ISO-IR le sont).
Codes de caractères variants
[modifier | modifier le code]Les caractères affichés sur fond bleu ou jaune dans le tableau ci-dessous sont ceux recommandés, mais la variante ASCII (affichée sur fond blanc dans la même ligne, notamment dans la colonne US) est souvent utilisée à la place (quand ils sont utilisés isolément). C’est le cas particulièrement pour les caractères dits invariants de l’ISO 646, c’est-à-dire les 26 lettres latines basiques (majuscules ou minuscules), les 10 chiffres arabo-européens et les 20 symboles ou ponctuations suivants:
! " % & ' ( ) * + , - . / : ; < = > ? _
qui ne sont pas modifiés dans les jeux de caractères totalement compatibles avec l’ISO 646 (mais peuvent avoir des variantes graphiques plus proches d’autres caractères considérés comme distincts dans ISO/IEC 10646 et Unicode.)
Aussi, parmi les 94 positions graphiques de l’ISO 646 (codées de 33 à 126 en décimal), seules 12 positions sont dites variantes et correspondent aux caractères graphiques suivants de la variante américaine de l’ISO 646 (alias ASCII) :
# $ @ [ \ ] ^ ` { | } ~
Les changements spécifiques à certaines de ces variantes sont indiqués dans la table suivante avec un fond coloré jaune ou bleu quand le caractère assigné au code est différent de celui assigné dans l’ASCII (US) ; les cellules vides sur fond gris indiquent des positions invalides non utilisées dans le jeu de caractères normalisé correspondant :
Codes | Caractères pour chaque jeu compatible ISO 646 | ||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
binaire | déc. | hexa | INV | T.61 | JA-O | JA | KR | CN | US | IRV | GB | FR | FR-0 | CA-1 | CA-2 | ita | por | PT | DK | NO | NO-2 | SE | SE-C | DE | HU | IE | esp | ES | CU | MT | YU |
010 0010 | 34 | 22 | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " | " |
010 0011 | 35 | 23 | # | # | # | # | # | # | # | £ | £ | £ | # | # | £ | # | £ | # | # | § | # | # | # | # | £ | # | # | # | # | # | |
010 0100 | 36 | 24 | ¤ | $ | $ | $ | ¥ | $ | $ | $ | $ | $ | $ | $ | $ | $ | $ | $ | $ | $ | ¤ | ¤ | $ | ¤ | $ | $ | $ | ¤ | $ | $ | |
010 1001 | 39 | 27 | ' | ' | ' | ' | ' | ' | ' | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ | ’ |
010 1100 | 44 | 2C | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , | , |
010 1101 | 45 | 2D | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
010 1111 | 47 | 2F | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / | / |
100 0000 | 64 | 40 | @ | @ | @ | @ | @ | @ | @ | @ | à | à | à | à | § | § | ´ | @ | @ | @ | @ | É | § | Á | Ó | § | • | @ | @ | Ž | |
101 1011 | 91 | 5B | [ | [ | [ | [ | [ | [ | [ | [ | ° | ° | â | â | ° | Ã | Ã | Æ | Æ | Æ | Ä | Ä | Ä | É | É | ¡ | ¡ | ¡ | ġ | Š | |
101 1100 | 92 | 5C | ¥ | ¥ | ₩ | \ | \ | \ | \ | ç | ç | ç | ç | ç | Ç | Ç | Ø | Ø | Ø | Ö | Ö | Ö | Ö | Í | Ñ | Ñ | Ñ | ż | Đ | ||
101 1101 | 93 | 5D | ] | ] | ] | ] | ] | ] | ] | ] | § | § | ê | ê | é | Õ | Õ | Å | Å | Å | Å | Å | Ü | Ü | Ú | ¿ | Ç | ] | ħ | Ć | |
101 1110 | 94 | 5E | ^ | ^ | ^ | ^ | ^ | ˆ | ˆ | ^ | ˆ | î | É | ˆ | ˆ | ˆ | ˆ | ˆ | ˆ | ˆ | Ü | ˆ | ˆ | Á | ˆ | ¿ | ¿ | ˆ | Č | ||
101 1111 | 95 | 5F | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ | _ |
110 0000 | 96 | 60 | ` | ` | ` | ` | ` | ` | µ | µ | ô | ô | ù | ` | ` | ` | ` | ` | ` | é | ` | á | ó | ` | ` | ` | ċ | ž | |||
111 1011 | 123 | 7B | { | { | { | { | { | { | { | é | é | é | é | à | ã | ã | æ | æ | æ | ä | ä | ä | é | é | ° | ´ | ´ | Ġ | š | ||
111 1100 | 124 | 7C | | | | | | | | | | | | | | | | | ù | ù | ù | ù | ò | ç | ç | ø | ø | ø | ö | ö | ö | ö | í | ñ | ñ | ñ | Ż | đ | |
111 1101 | 125 | 7D | } | } | } | } | } | } | } | è | è | è | è | è | õ | õ | å | å | å | å | å | ü | ü | ú | ç | ç | [ | Ħ | ć | ||
111 1110 | 126 | 7E | ¯ | ¯ | ~ | ~ | ˜ | ˜ | ¨ | ¨ | û | û | ì | ° | ˜ | ˜ | ¯ | | | ˜ | ü | ß | ˝ | á | ˜ | ¨ | ¨ | Ċ | č |
Les caractères affichés ci-dessus sur fond jaune doivent être interprétés comme des diacritiques combinants lorsqu’ils sont précédés ou suivis d’un caractère de contrôle retour arrière (BS, code 8). Ces diacritiques s’appliquent alors au caractère précédent si ces caractères réinterprétés sont précédés du caractère de contrôle retour arrière, sinon ils s’appliquent au caractère suivant comme s’ils étaient saisis comme touches mortes (et dans ce cas le transcodage vers Unicode nécessitera une inversion du caractère suivant et du diacritique) ; on peut aussi coder la combinaison du caractère de base et du diacritique avec un caractère Unicode précombiné (en forme normale C) correspondant à cette combinaison, si elle est codée dans Unicode. Dans ce cas, les ponctuations, symboles et lettres modificatives suivants sont réinterprétés ainsi :
ISO 646 | Interprétation isolée | Interprétation avec BS et un autre caractère (ici « o ») | ||||
---|---|---|---|---|---|---|
hexa | Caractère | Unicode | Nom | Caractère | Unicode | Nom |
0x22 | " | U+0022 | guillemet anglais | ö | U+0308 | diacritique tréma (ou diérèse ou umlaut) |
0x27 | ´ | U+00B4 | accent aigu | ó | U+0301 | diacritique accent aigu (ou oxeia en grec) |
0x2C | , | U+002C | virgule | o̦ | U+0326 | diacritique virgule souscrite (en roumain) |
o̧ | U+0327 | diacritique cédille (sauf en roumain) | ||||
0x2D | - | U+002D | tiret-moins | o̵ | U+0335 | diacritique barre courte couvrante |
0x2F | / | U+002F | barre oblique | o̷ | U+0337 | diacritique barre oblique courte couvrante (avec une minuscule) |
o̸ | U+0338 | diacritique barre oblique longue couvrante (avec une majuscule) | ||||
0x5B | ° | U+00B0 | symbole degré | o̊ | U+030A | diacritique rond en chef |
0x5E | ^ | U+02C6 | lettre modificative accent circonflexe (avec chasse) | ô | U+0302 | diacritique accent circonflexe |
0x5F | _ | U+005F | tiret bas | o̱ | U+0331 | diacritique macron souscrit |
0x60 | ` | U+0060 | accent grave (avec chasse) | ò | U+0300 | diacritique accent grave |
0x7B | ° | U+00B0 | symbole degré | o̊ | U+030A | diacritique rond en chef |
´ | U+00B4 | accent aigu | ó | U+0301 | diacritique accent aigu (ou oxeia en grec) | |
0x7E | ¨ | U+00A8 | tréma (avec chasse) | ö | U+0308 | diacritique tréma (ou diérèse ou umlaut) |
° | U+00B0 | symbole degré | o̊ | U+030A | diacritique rond en chef | |
ˉ | U+02C9 | lettre modificative macron (avec chasse) | ō | U+0304 | diacritique macron | |
˜ | U+02DC | petit tilde (avec chasse) | õ | U+0303 | diacritique tilde | |
˝ | U+02DD | double accent aigu (avec chasse) | ő | U+030B | diacritique double accent aigu |
Notes et références
[modifier | modifier le code]- http://www.ecma-international.org/publications/standards/Ecma-006.htm Standard ECMA-6 7-bit Coded Character Set 6th edition (December 1991) http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-006.pdf
Articles connexes
[modifier | modifier le code]- ASCII
- ISO/CEI 2022 Structure des codes de caractères et techniques d'extension Information technology—Character code structure and extension techniques
- ISO/CEI 10646
- Unicode