Primer lesson: ascii

ASCII : Comment les ordinateurs stockent les lettres et les symboles

La grande idée

Les ordinateurs utilisent des nombres. Les humains utilisent des lettres et des symboles. Il nous faut un intermédiaire. L'ASCII est cet intermédiaire. L'ASCII transforme chaque lettre ou symbole en un nombre. L'ordinateur stocke ce nombre. À la lecture, l'ordinateur affiche à nouveau la lettre. C'est ainsi que fonctionne le texte dans de nombreux fichiers et applications.

Pourquoi les ordinateurs ont besoin d'un code

Un ordinateur fonctionne à l'électricité. Il perçoit deux états : allumé et éteint. Ces états sont appelés bits . Un bit est soit un 0, soit un 1. Plusieurs bits combinés forment des nombres plus grands. Huit bits forment un octet . Grâce aux bits, nous pouvons compter. Le comptage nous permet de nommer les choses. Le code ASCII utilise le comptage pour nommer les lettres et les symboles.

Un bit permet deux choix. Deux bits permettent quatre choix. Mathématiquement, ce concept s'exprime par \(\;2^n\) . Pour \(n=7\) on obtient 2⁷ = 128 choix. Pour \(n=8\) \(2^8 = 256\) \(2^7 = 128\) . L'ASCII utilise 7 bits, ce qui donne 128 caractères nommés. Par la suite, des ensembles de 8 bits, soit 256 caractères, ont été créés. On parle alors d'ASCII étendu .

Que signifie ASCII ?

ASCII signifie American Standard Code for Information Interchange (Code standard américain pour l'échange d'informations) . Apparu dans les années 1960, il a été conçu pour les premières imprimantes, téléscripteurs et ordinateurs. Il attribue un numéro à chaque lettre, chiffre, espace et à certains symboles. Il attribue également des numéros spéciaux à des actions comme le saut de ligne . La première version utilisait 7 bits, soit les nombres de 0 à 127.

Que contient l'ASCII ?

Lettres majuscules : de A à Z. Ils utilisent les nombres de 65 à 90.
Lettres minuscules : de a à z. Ils utilisent les nombres de 97 à 122.
Chiffres : de 0 à 9. Ils utilisent les nombres de 48 à 57.
Espace : Un espace vide. Il s'agit du numéro 32.
Ponctuation : ! , . ? : ; ' " ( ) et plus encore. Par exemple, ! vaut 33, la virgule vaut 44, le point vaut 46, le point d’interrogation vaut 63.
Caractères de contrôle : Ils permettent d’effectuer des actions. Ce sont les chiffres de 0 à 31 et 127. Ils servent par exemple à commencer une nouvelle ligne, à faire sonner une cloche ou à déplacer le curseur.

Exemples de cartes simples

« A » vaut 65.
« B » vaut 66.
« Z » vaut 90.
« a » vaut 97.
'z' vaut 122.
'0' vaut 48.
'9' vaut 57.
' ' (espace) est 32.
'!' vaut 33.

Remarquez une chose intéressante : les lettres minuscules ont 32 caractères de plus que leurs majuscules correspondantes. Par exemple, \(\;97 - 65 = 32\) Ainsi, « a » a 32 caractères de plus que « A », « b » a 32 caractères de plus que « B », et ainsi de suite. Cette propriété simplifie certaines tâches informatiques.

caractères de contrôle en clair

NUL (0) : Cela ne signifie rien. Dans certains systèmes anciens, cela marque la fin.
BEL (7) : Il peut émettre un bip. Imaginez une douce alerte.
BS Backspace (8) : Il recule d'un pas.
TAB (9) : Permet de passer à la tabulation suivante. Cela facilite l’alignement.
Alimentation de ligne LF (10) : Elle descend vers une nouvelle ligne.
Retour chariot CR (13) : Le chariot revient au début de la ligne. Sur les anciennes machines à écrire, le chariot revenait vers la gauche. La touche CR effectue le même mouvement.
ESC Escape (27) : Il lance une commande spéciale pour les anciens écrans ou imprimantes.
DEL Suppr (127) : Il marque quelque chose comme supprimé dans les systèmes très anciens.

Lorsque vous appuyez sur la touche Entrée, votre ordinateur peut envoyer un saut de ligne (LF), un retour chariot (CR) ou les deux, selon le système. De nombreux outils Internet utilisent le saut de ligne. Certains anciens systèmes utilisaient simultanément le retour chariot et le saut de ligne.

Vues décimale, binaire et hexadécimale

On peut écrire les nombres de différentes manières. Le système décimal est le système de numération le plus courant, utilisant les chiffres de 0 à 9. Le système binaire n'utilise que 0 et 1. Le système hexadécimal utilise les chiffres de 0 à 9 et les lettres de A à F.

'A' : décimal 65, binaire 01000001, hexadécimal 41. Sous forme mathématique : \(65_{(10)} = 01000001_{(2)} = 41_{(16)}\) .
'a' : décimal 97, binaire 01100001, hexadécimal 61. C'est \(97_{(10)} = 01100001_{(2)} = 61_{(16)}\) .
'0' : décimal 48, binaire 00110000, hexadécimal 30. C'est \(48_{(10)} = 00110000_{(2)} = 30_{(16)}\) .
Espace : décimal 32, binaire 00100000, hexadécimal 20. C'est \(32_{(10)} = 00100000_{(2)} = 20_{(16)}\) .
Nouvelle ligne (LF) : décimal 10, binaire 00001010, hexadécimal 0A. C'est \(10_{(10)} = 00001010_{(2)} = 0A_{(16)}\) .

Comment le binaire produit-il 65 pour 'A' ? Regardez les bits dans 01000001. Le bit le plus à gauche vaut 128. Ensuite, 64, 32, 16, 8, 4, 2, 1. Seuls 64 et 1 sont activés. Donc \(01000001_{(2)} = 0\times128 + 1\times64 + 0\times32 + 0\times16 + 0\times8 + 0\times4 + 0\times2 + 1\times1 = 65\) .

Du clavier à l'écran

Appuyez sur une touche. Le clavier envoie un code à l'ordinateur. Le système le convertit en un numéro de caractère. Pour de nombreuses touches, ce numéro correspond au code ASCII. L'application stocke ce numéro en mémoire. Lors de l'affichage du texte, elle recherche le numéro et dessine la lettre correspondante. À l'enregistrement, les numéros sont enregistrés dans le fichier.

Comment un texte circule sur un réseau

Prenons l'exemple du message « Salut ! » . Les lettres sont H, i et !. Leurs codes ASCII sont 72, 105 et 33. En binaire, cela correspond à 01001000, 01101001 et 00100001. Le réseau envoie ces bits. Le destinataire les lit et voit les nombres correspondants. Il affiche alors à nouveau H, i et !. C'est ainsi que fonctionnent les messages texte simples.

Pages de codes ASCII étendues

On souhaitait davantage de symboles. On voulait des lettres comme é, ñ et ø, ainsi que des symboles monétaires comme €. Le jeu de 7 bits ne comportait que 128 symboles. On est donc passé à 8 bits. Avec 8 bits, on obtient \(2^8 = 256\) symboles. La moitié supérieure, de 128 à 255, était réservée aux lettres et symboles supplémentaires. Mais un problème se posait : différents groupes choisissaient des nombres différents pour ces lettres et symboles supplémentaires. Ces choix constituent les pages de codes .

La norme ISO-8859-1 (Latin-1) est un système de notation couramment utilisé pour les lettres d'Europe occidentale. Elle place la lettre é à la position 233.
Windows-1252 est très proche de Latin-1, mais il utilise certains emplacements 128 à 159 pour la ponctuation comme les « guillemets intelligents ».

Comme les pages de codes diffèrent, un même nombre peut afficher un symbole différent sur un autre ordinateur. Ce phénomène, appelé mojibake , donne l'impression de caractères étranges. C'est l'une des raisons pour lesquelles le monde est passé à Unicode.

ASCII et Unicode

Unicode est une norme majeure permettant d'afficher de nombreuses langues, des symboles mathématiques et des émojis. Elle peut contenir plus d'un million de symboles. Il existe plusieurs méthodes de stockage pour Unicode, dont l' UTF-8 , très répandue.

L'ASCII ne représente qu'une petite partie de l'Unicode. Les 128 premiers codes Unicode correspondent exactement à l'ASCII.
En UTF-8 , tous les caractères ASCII utilisent un octet et ont les mêmes valeurs, de 0 à 127. Par conséquent, tout texte ASCII est déjà un texte UTF-8 valide.
Les caractères non ASCII occupent deux octets ou plus en UTF-8. Par exemple, « é » en UTF-8 occupe deux octets. Vous n'avez pas besoin de mémoriser ces octets : l'ordinateur s'en charge.

Combien d'octets utilise le texte ?

En ASCII, chaque caractère utilise un octet. Le mot « chat » utilise donc 3 octets. La phrase « salut maman » comporte 6 caractères, espace compris, et utilise donc 6 octets. En termes simples, \(\textrm{octets ASCII} = \textrm{nombre de caractères}\)

Ordre de tri avec ASCII

Les ordinateurs trient souvent les chaînes de caractères en fonction de leur numéro de caractère. L'ordre ASCII regroupe les éléments d'une certaine manière.

Les chiffres de 0 à 9 précèdent les lettres car 48 à 57 sont inférieurs à 65 et 97.
Les lettres majuscules de A à Z précèdent les lettres minuscules de a à z car 65 à 90 sont inférieurs à 97 à 122.

Cela signifie que Zoo précède Apple si l'on compare simplement les valeurs ASCII. Le tri se fait par valeurs numériques, et non par prononciation.

Codes ASCII courants à connaître

Espace : 32
Exclamation ! : 33
Virgule , : 44
Période : 46
Barre oblique / : 47
Chiffres 0..9 : 48..57
Deux-points : : 58
Point-virgule ; : 59
Point d'interrogation ? : 63
Signe @ : 64
Lettres majuscules A..Z : 65..90
Crochet gauche [ : 91
Barre oblique inverse \ : 92
[crochet droit ] : 93
Lettres minuscules a..z : 97..122
Accolades { } : 123 et 125
Tilde ~ : 126

Notez que l' esperluette est &. Son code ASCII est 38. Le signe plus + est 43. Le signe moins - est 45.

Des utilisations concrètes dans la technologie du quotidien

Fichiers texte brut (.txt) : De nombreuses notes simples utilisent uniquement l’ASCII.
Programmation : Les lettres, les chiffres et les symboles utilisés dans le code proviennent souvent de l’ASCII. Par exemple, les instructions conditionnelles utilisent les lettres « if » et les accolades « { } » de l’ASCII.
Fichiers CSV : De nombreux tableaux de données enregistrés sous forme de valeurs séparées par des virgules utilisent des virgules et des chiffres ASCII.
Principes de base du courrier électronique et du Web : Les anciens systèmes de messagerie utilisaient l’ASCII 7 bits. Les adresses Web et de nombreuses commandes de protocole utilisent des lettres et des chiffres ASCII.
Journaux et paramètres : Les journaux système et les fichiers de configuration utilisent souvent le format ASCII pour être faciles à lire partout.

Motifs ASCII qui aident

Majuscules en minuscules : pour une même lettre, la minuscule a 32 points de plus que la majuscule. \(\;97 - 65 = 32\) , \(\;98 - 66 = 32\) , et ainsi de suite.
Chiffres : Le chiffre « 0 » vaut 48, le « 1 » vaut 49, et ainsi de suite jusqu’au « 9 », qui vaut 57. La valeur numérique d’un chiffre est \(48 + \textrm{la valeur numérique}\) . Par exemple, \(48 + 7 = 55\) . Donc, « 7 » vaut 55.

Comment créer des images avec l'ASCII

On peut créer des images uniquement à l'aide de caractères ASCII . Voici un petit visage réalisé avec des caractères ASCII.

:-) Un simple sourire
(^_^) Visage amical
o_O Surpris

Chaque face est composée uniquement de caractères comme le deux-points, le tiret et les parenthèses. Ni couleurs ni formes. Juste du texte.

L'histoire en bref, en termes simples

L'ASCII est issu des téléscripteurs et des premiers ordinateurs. En 1963, une première version fut adoptée. Elle permit à de nombreuses machines différentes de communiquer entre elles. Grâce à un code unique, une lettre comme le A représentait le même nombre partout. Cela simplifia l'envoi de messages et l'impression de textes.

Quand l'ASCII ne suffit pas

L'ASCII ne possède que 128 caractères. C'est insuffisant pour toutes les langues. Il ne peut pas afficher le chinois, l'hindi, l'arabe, ni de nombreux autres systèmes d'écriture. Il ne peut pas non plus afficher les émojis, ni de nombreux symboles mathématiques et musicaux. Pour cela, on utilise Unicode. Unicode peut afficher de nombreux systèmes d'écriture et symboles. L'UTF-8 est un format de stockage pour ces caractères. L'avantage est que tout le texte ASCII fonctionne correctement avec l'UTF-8. Les systèmes modernes peuvent donc lire facilement les anciens fichiers ASCII.

Comment les applications gèrent l'ASCII aujourd'hui

La plupart des applications attendent un encodage UTF-8. Cependant, lorsqu'un fichier ne contient que des lettres et des symboles ASCII, il reste identique en UTF-8. Les programmeurs apprécient cette simplicité. Les pages web, les API et de nombreux outils utilisent l'UTF-8, qui inclut l'ASCII sans modification.

faits numériques simples et mathématiques conviviales

L'ASCII utilise un jeu de 7 bits. Cela représente jusqu'à \(2^7 = 128\) caractères différents. Un jeu étendu sur 8 bits en \(2^8 = 256\) Si votre texte ne contient que des caractères ASCII et qu'il comporte \(n\) caractères, il utilise \(n\) octets. Dans un message très court comme « OK », \(n = 2\) Il utilise donc 2 octets lorsqu'il est stocké en ASCII ou en UTF-8.

Voir les caractères cachés

Certains caractères ASCII ont une fonction sans s'afficher. L'espace, par exemple, ne laisse aucun caractère. En revanche, LF et CR déplacent le curseur. La tabulation permet de sauter une ligne. Lorsqu'on ouvre un fichier dans un éditeur spécifique, LF peut s'afficher comme un saut de ligne (\n). Ce symbole ne fait pas partie du registre ASCII ; il s'agit d'une façon pour l'éditeur d'afficher le saut de ligne.

Des exemples simples qui paraissent réels

La saisie d'un mot de passe Wi-Fi composé de lettres et de chiffres utilise le format ASCII pour ces symboles. Le routeur et le téléphone utilisent les mêmes valeurs numériques.
Nommer un fichier uniquement avec les lettres de A à Z, de a à z, de 0 à 9 et des symboles comme - et _ permet de le rendre simple et sûr sur de nombreux systèmes.
Rédiger un objet d'e-mail contenant uniquement des lettres et une ponctuation standard permet aux anciens serveurs de le transmettre.

Éléments à surveiller

Guillemets courbes vs guillemets droits : certains éditeurs de texte modernes utilisent des guillemets droits (« ») au lieu de guillemets droits (« ».). Les guillemets droits sont des caractères ASCII, contrairement aux guillemets courbes. Leur affichage peut donc être incorrect dans les anciens logiciels.
Pages de codes différentes : un fichier enregistré au format Windows-1252 peut s’afficher incorrectement sur un système qui attend l’encodage ISO-8859-1, et inversement. Utilisez l’encodage UTF-8 pour éviter ce problème. Le texte en ASCII uniquement s’affichera correctement dans les deux cas.
Différences invisibles : un espace (32) et une tabulation (9) ressemblent tous deux à des espaces. Pourtant, ce sont des caractères différents. Cela a son importance en programmation et dans les fichiers de données.

Comment les appareils utilisent l'ASCII en quelques étapes simples

Imaginez une étiqueteuse qui imprime des noms. Elle lit le nom sous forme de caractères. Elle convertit chaque caractère en un nombre ASCII. Elle stocke ces nombres en mémoire. Elle imprime les lettres en cherchant comment dessiner chaque nombre. Si elle rencontre LF (10), elle passe à la ligne suivante avant d'imprimer la suite.

Comparaison de trois façons d'écrire le code d'un caractère

Observez à nouveau le caractère « ! ». On peut écrire son code de trois manières : décimal : 33 ; binaire : 00100001 ; hexadécimal : 21. Mathématiquement, \(\;33_{(10)} = 00100001_{(2)} = 21_{(16)}\) . Chaque format représente la même valeur. Les applications choisissent le format adapté à leurs besoins. Les humains lisent généralement les nombres en décimal, tandis que les ordinateurs préfèrent le binaire. L’hexadécimal est une représentation abrégée des nombres binaires.

Pourquoi l'ASCII a-t-il duré si longtemps ?

L'ASCII est compact et lisible. Créé très tôt, il a servi de base à de nombreux outils et protocoles. Les 128 premiers codes Unicode correspondant à l'ASCII, ce système fonctionne encore aujourd'hui. C'est pourquoi vous pouvez ouvrir d'anciens fichiers texte sur un téléphone ou un ordinateur portable récent et y voir les mêmes caractères.

Mini-présentation : lecture d'un court fichier

Ouvrez un fichier contenant le texte « Hello » . Les octets sont les nombres ASCII 72 101 108 108 111. En binaire, cela donne : 01001000 01100101 01101100 01101100 01101111. L’application lit chaque nombre et affiche « Hello » à l’écran. Si le nombre suivant est 10, elle passe à la ligne suivante avant d’afficher le texte suivant. Le processus est ainsi simple et fiable.

Quand choisir uniquement l'ASCII

Lorsque vous avez besoin d'une assistance de base étendue pour les outils anciens et les appareils simples.
Lorsque vous stockez des identifiants, des noms de fichiers ou des codes qui utilisent uniquement des lettres, des chiffres, des tirets et des traits de soulignement.
Lorsque vous créez des journaux simples et des messages machine-à-machine qui ne nécessitent ni accents ni émojis.

Symboles clés que les gens utilisent fréquemment

Le tiret ( -) vaut 45. Le trait de soulignement ( _) vaut 95. Ils permettent de créer des noms de fichiers clairs et concis.
Le signe plus ( +) vaut 43. Le signe égal = vaut 61. De nombreuses URL et formules les utilisent.
L'esperluette & vaut 38. Les formulaires Web et les chaînes de requête l'utilisent souvent.
Deux-points : est 58. L'heure comme 12:30 l'utilise.
Le symbole @ vaut 64. L'adresse e-mail user@example.com l'utilise.

Vérification rapide des idées de bits avec de très petits nombres

Prenons le nombre 10. En binaire, il s'écrit 00001010. En décimal, il représente dix. En ASCII, 10 correspond à LF, le saut de ligne. Cela montre qu'un même nombre peut être représenté de différentes manières. Sa signification dépend de son utilisation. Si l'on considère qu'il s'agit d'un code de caractère, alors 10 signifie LF. Si l'on considère qu'il s'agit simplement d'un nombre de pommes, alors il représente dix pommes. Le contexte est essentiel.

Pour résumer, voici un dernier exemple.

Nous allons envoyer le mot « Soleil » d'un appareil à un autre. Les codes sont : « S » 83, « u » 117 et « n » 110. En binaire, 83 correspond à 01010011, 117 à 01110101 et 110 à 01101110. Les bits circulent sous forme de signaux marche/arrêt. L'autre appareil reconvertit les bits en nombres, puis ces nombres en lettres. Il affiche alors le mot « Soleil » . Si le code suivant est 32, il s'agit d'un espace. Si le suivant est 33, il s'agit d'un point d'exclamation (« ! »). Ces règles restent les mêmes à chaque transmission. C'est là toute la puissance d'un code partagé.

ascii