Primer lesson: ascii

ASCII: Wie Computer Buchstaben und Symbole speichern

Die große Idee

Computer verwenden Zahlen. Menschen verwenden Buchstaben und Symbole. Wir brauchen eine Brücke. ASCII ist diese Brücke. ASCII wandelt jeden Buchstaben oder jedes Symbol in eine Zahl um. Der Computer speichert diese Zahl. Beim Lesen zeigt der Computer den Buchstaben wieder an. So funktioniert Text in vielen Dateien und Anwendungen.

Warum Computer einen Code benötigen

Ein Computer arbeitet mit Strom. Er kennt zwei Zustände: Ein und Aus. Diese Zustände nennen wir Bits . Ein Bit ist entweder eine 0 oder eine 1. Viele Bits zusammen ergeben größere Zahlen. Acht Bits ergeben ein Byte . Mit Bits können wir zählen. Durch Zählen können wir Dinge benennen. ASCII verwendet das Zählen, um Buchstaben und Symbole zu benennen.

Ein Bit ermöglicht zwei Möglichkeiten. Zwei Bits ermöglichen vier Möglichkeiten. Mathematisch wird dies mit \(\;2^n\) dargestellt. Für \(n=7\) ergeben sich \(2^7 = 128\) Möglichkeiten. Für \(n=8\) ergeben sich \(2^8 = 256\) Möglichkeiten. ASCII verwendet 7 Bits. Das ermöglicht 128 benannte Elemente. Später wurden 8-Bit-Zeichensätze mit 256 Elementen entwickelt. Diese werden als erweitertes ASCII bezeichnet.

Was bedeutet ASCII?

ASCII steht für American Standard Code for Information Interchange . Es entstand in den 1960er Jahren und wurde für frühe Drucker, Fernschreiber und Computer entwickelt. Jedem Buchstaben, jeder Zahl, jedem Leerzeichen und einigen Symbolen wird eine Zahl zugeordnet. Auch Aktionen wie Zeilenumbrüchen werden spezielle Zahlen zugewiesen. Die erste Version verwendete 7 Bit und umfasste daher Zahlen von 0 bis 127.

Was steckt in ASCII?

Großbuchstaben : A bis Z. Sie verwenden die Zahlen 65 bis 90.
Kleinbuchstaben : a bis z. Sie verwenden die Zahlen 97 bis 122.
Ziffern : 0 bis 9. Sie verwenden die Zahlen 48 bis 57.
Leerzeichen : Ein leerer Bereich. Es handelt sich um die Nummer 32.
Satzzeichen : ! , . ? : ; ' " ( ) und mehr. Zum Beispiel: ! ist 33, Komma ist 44, Punkt ist 46, Fragezeichen ist 63.
Steuerzeichen : Diese führen Aktionen aus. Es handelt sich um die Zahlen 0 bis 31 und 127. Sie bewirken beispielsweise das Beginnen einer neuen Zeile, das Abspielen eines Glockentons oder das Bewegen des Cursors.

Einfache Kartenbeispiele

'A' ist 65.
'B' ist 66.
'Z' ist 90.
'a' ist 97.
'z' ist 122.
'0' entspricht 48.
'9' ist 57.
' ' (Leerzeichen) ist 32.
'!' ist 33.

Ist Ihnen etwas aufgefallen? Kleinbuchstaben sind um 32 größer als ihre Großbuchstaben-Pendants. Zum Beispiel: \(\;97 - 65 = 32\) . Daher ist „a“ um 32 größer als „A“, „b“ um 32 größer als „B“ usw. Dieses Muster vereinfacht manche Computeraufgaben.

Steuerzeichen in Klartext

NUL (0): Es bedeutet nichts. In manchen alten Systemen markiert es das Ende.
BEL (7): Es kann einen Piepton von sich geben. Stellen Sie sich einen sanften Alarm vor.
BS Rücktaste (8): Geht einen Schritt zurück.
TAB (9): Springt zum nächsten Tabstopp. Dies erleichtert die Ausrichtung.
LF Line Feed (10): Es wird in eine neue Zeile gewechselt.
CR Wagenrücklauf (13): Der Wagen fährt zum Zeilenanfang zurück. Bei alten Schreibmaschinen fuhr der Wagen nach links zurück. CR bewirkt dies.
ESC Escape (27): Startet einen speziellen Befehl für ältere Bildschirme oder Drucker.
DEL Löschen (127): In sehr alten Systemen kennzeichnet diese Funktion etwas als gelöscht.

Beim Drücken der Eingabetaste sendet Ihr Computer je nach System entweder LF, CR oder beides. Viele Internetprogramme verwenden LF. Einige ältere Systeme verwendeten CR und LF gleichzeitig.

Dezimal-, Binär- und Hexadezimaldarstellung

Zahlen lassen sich auf verschiedene Arten darstellen. Dezimal ist die übliche Art zu zählen, mit den Ziffern 0 bis 9. Binär verwendet nur 0 und 1. Hexadezimal verwendet 0 bis 9 und A bis F.

'A' : dezimal 65, binär 01000001, hexadezimal 41. In mathematischer Form: \(65_{(10)} = 01000001_{(2)} = 41_{(16)}\) .
'a' : dezimal 97, binär 01100001, hexadezimal 61. Das heißt \(97_{(10)} = 01100001_{(2)} = 61_{(16)}\) .
'0' : dezimal 48, binär 00110000, hexadezimal 30. Das heißt \(48_{(10)} = 00110000_{(2)} = 30_{(16)}\) .
Raum : dezimal 32, binär 00100000, hexadezimal 20. Das heißt \(32_{(10)} = 00100000_{(2)} = 20_{(16)}\) .
Neue Zeile (LF) : dezimal 10, binär 00001010, hexadezimal 0A. Das heißt \(10_{(10)} = 00001010_{(2)} = 0A_{(16)}\) .

Wie kommt es, dass das Binärsystem für 'A' den Wert 65 hat? Betrachten wir die Bits in 01000001. Das Bit ganz links steht für 128. Dann folgen 64, 32, 16, 8, 4, 2 und 1. Nur 64 und 1 sind gesetzt. Daher \(01000001_{(2)} = 0\times128 + 1\times64 + 0\times32 + 0\times16 + 0\times8 + 0\times4 + 0\times2 + 1\times1 = 65\) .

Von der Tastatur zum Bildschirm

Drücken Sie eine Taste. Die Tastatur sendet einen Code an den Computer. Das System wandelt diesen in eine Zeichennummer um. Bei vielen Tasten entspricht diese Nummer der ASCII-Nummer. Die App speichert die Nummer im Speicher. Beim Anzeigen des Textes wird die Nummer nachgeschlagen und der entsprechende Buchstabe dargestellt. Beim Speichern werden die Nummern in die Datei geschrieben.

Wie sich Text in einem Netzwerk ausbreitet

Denken Sie an die Nachricht „Hi!“ . Die Buchstaben sind H, i und !. Ihre ASCII-Werte sind 72, 105 und 33. Binär dargestellt sind sie 01001000, 01101001 und 00100001. Das Netzwerk sendet diese Bits. Die Empfängerseite liest die Bits. Sie erkennt die Zahlen und sendet erneut H, i und !. So werden einfache Textnachrichten übertragen.

Erweiterte ASCII- und Codeseiten

Die Menschen wünschten sich mehr Symbole. Sie wollten Buchstaben wie é, ñ und ø. Sie wollten Währungssymbole wie €. Der 7-Bit-Zeichensatz enthielt jedoch nur 128 Symbole. Daher verwendete man 8 Bit. Mit 8 Bit erhält man \(2^8 = 256\) Symbole. Die obere Hälfte, von 128 bis 255, wurde für zusätzliche Buchstaben und Symbole verwendet. Es gab jedoch ein Problem: Verschiedene Gruppen wählten unterschiedliche Zahlen für diese zusätzlichen Buchstaben. Diese Wahlen werden als Codepages bezeichnet.

ISO-8859-1 (Latin-1) ist ein gängiger Zeichensatz für westeuropäische Buchstaben. Er ordnet das é der Ziffer 233 zu.
Windows-1252 ist Latin-1 sehr ähnlich, verwendet aber einige Stellen 128 bis 159 für Satzzeichen wie „intelligente Anführungszeichen“.

Da sich Codepages unterscheiden, kann dieselbe Nummer auf einem anderen Computer ein anderes Symbol darstellen. Diese Vermischung wird als Mojibake bezeichnet. Es entstehen seltsame Zeichen. Dies ist einer der Gründe, warum die Welt zu Unicode übergegangen ist.

ASCII und Unicode

Unicode ist ein umfangreicher Standard, der zahlreiche Sprachen, mathematische Symbole und Emojis darstellen kann. Er bietet Platz für über eine Million Symbole. Unicode kann auf verschiedene Weise gespeichert werden. Eine gängige Methode ist UTF-8 .

ASCII ist ein kleiner Teil von Unicode. Die ersten 128 Unicode-Codes entsprechen exakt ASCII.
In UTF-8 belegt jedes ASCII-Zeichen ein Byte und hat die gleichen Werte von 0 bis 127. Daher ist jeder ASCII-Text bereits gültiges UTF-8.
Buchstaben jenseits des ASCII-Zeichensatzes belegen in UTF-8 zwei oder mehr Bytes. Beispielsweise entspricht das Zeichen é in UTF-8 zwei Bytes. Sie müssen sich die Byteanzahl nicht merken; der Computer kümmert sich darum.

Wie viele Bytes benötigt ein Text?

Bei reinem ASCII-Text belegt jedes Zeichen ein Byte. Das Wort „Katze “ benötigt also 3 Bytes. Der Satz „Hallo Mama“ hat 6 Zeichen inklusive Leerzeichen und belegt daher 6 Bytes. Vereinfacht ausgedrückt: \(\textrm{ASCII-Bytes} = \textrm{Anzahl der Zeichen}\) .

Sortierreihenfolge mit ASCII

Computer sortieren Zeichenketten oft nach ihren Zeichennummern. Die ASCII-Reihenfolge gruppiert Elemente auf eine bestimmte Weise.

Die Ziffern 0 bis 9 stehen vor den Buchstaben, weil 48 bis 57 kleiner als 65 und 97 sind.
Großbuchstaben A bis Z kommen vor Kleinbuchstaben a bis z, weil 65 bis 90 kleiner sind als 97 bis 122.

Das bedeutet, dass Zoo vor Apfel kommt, wenn wir einfache ASCII-Werte vergleichen. Die Sortierung erfolgt nach Zahlen, nicht nach dem Klang der Wörter.

Häufig verwendete ASCII-Codes

Platz : 32
Ausruf ! : 33
Komma , : 44
Zeitraum : 46
Schrägstrich / : 47
Ziffern 0..9 : 48..57
Doppelpunkt : : 58
Semikolon ; : 59
Fragezeichen ? : 63
Am Zeichen @ : 64
Großbuchstaben A..Z : 65..90
Linke eckige Klammer [ : 91
Backslash \ : 92
Rechte eckige Klammer ] : 93
Kleinbuchstaben a..z : 97..122
Geschweifte Klammern { } : 123 und 125
Tilde ~ : 126

Beachten Sie, dass das kaufmännische Und-Zeichen (&) ist. Seine ASCII-Nummer ist 38. Das Pluszeichen (+) ist 43. Das Minuszeichen - ist 45.

Praktische Anwendungen im Alltag

Klartextdateien (.txt): Viele einfache Notizen verwenden nur ASCII.
Programmierung : Buchstaben, Ziffern und Symbole im Code stammen oft aus dem ASCII-Zeichensatz. Beispielsweise verwenden if-Anweisungen die Buchstaben if und geschweifte Klammern { } aus dem ASCII-Zeichensatz.
CSV-Dateien : Viele als kommagetrennte Werte gespeicherte Datentabellen verwenden ASCII-Kommas und -Ziffern.
Grundlagen von E-Mail und Web : Ältere E-Mail-Systeme verwendeten 7-Bit-ASCII. Webadressen und viele Protokollbefehle verwenden ASCII-Buchstaben und -Ziffern.
Protokolle und Einstellungen : Systemprotokolle und Konfigurationsdateien verwenden häufig ASCII-Zeichen, damit sie überall leicht lesbar sind.

ASCII-Muster, die helfen

Großbuchstaben werden zu Kleinbuchstaben : Der Wert eines Kleinbuchstabens ist um 32 höher als der eines Großbuchstabens. \(\;97 - 65 = 32\) , \(\;98 - 66 = 32\) usw.
Ziffern : Die Ziffer '0' hat den Wert 48, '1' den Wert 49 usw. bis '9', das den Wert 57 hat. Der Wert einer Ziffer berechnet sich \(48 + \textrm{der Ziffernwert}\) . Zum Beispiel: \(48 + 7 = 55\) . Daher hat '7' den Wert 55.

Wie man Bilder mit ASCII erstellen kann

Manche Menschen erstellen Bilder ausschließlich aus Buchstaben. Das nennt man ASCII-Kunst . Hier ist ein winziges Gesicht, das aus ASCII-Zeichen besteht.

:-) Einfaches Lächeln
(^_^) Freundliches Gesicht
o_O Überrascht

Jedes Gesicht besteht nur aus Zeichen wie Doppelpunkt, Bindestrich und Klammern. Keine Farben oder Formen. Nur Text.

Geschichte kurz und einfach ausgedrückt

ASCII entstand aus Fernschreibern und frühen Computern. 1963 einigte man sich auf eine erste Version. Sie ermöglichte die Kommunikation vieler verschiedener Geräte untereinander. Dank eines gemeinsamen Codes hatte ein Buchstabe wie A überall dieselbe Bedeutung. Dies vereinfachte das Versenden von Nachrichten und das Drucken von Texten.

Wenn ASCII nicht ausreicht

ASCII umfasst nur 128 Zeichen. Das reicht für viele Sprachen nicht aus. Chinesisch, Hindi, Arabisch und viele andere Schriftsysteme lassen sich damit nicht darstellen. Auch Emojis und viele mathematische und musikalische Symbole können nicht abgebildet werden. Dafür verwenden wir Unicode. Unicode kann viele Schriftsysteme und Symbole darstellen. UTF-8 dient der Speicherung dieser Symbole. Die gute Nachricht: Alle ASCII-Zeichen sind in UTF-8 kodiert. Moderne Systeme können daher auch ältere ASCII-Zeichen problemlos lesen.

Wie Apps heute mit ASCII umgehen

Die meisten Anwendungen erwarten UTF-8. Enthält eine Datei jedoch nur ASCII-Zeichen, sieht sie unter UTF-8 unverändert aus. Programmierer schätzen dies, da es die Programmierung vereinfacht. Webseiten, APIs und viele Tools verwenden UTF-8, das ASCII unverändert enthält.

Fakten über kleine Zahlen und spielerische Mathematik

ASCII ist ein 7-Bit-Zeichensatz. Das bedeutet bis zu \(2^7 = 128\) verschiedene Zeichen. Ein erweiterter Zeichensatz mit 8 Bit umfasst \(2^8 = 256\) Zeichen. Besteht Ihr Text ausschließlich aus ASCII-Zeichen und hat \(n\) Zeichen, so benötigt er \(n\) Bytes. Bei einer kurzen Nachricht wie „OK“ \(n = 2\) . Daher benötigt sie 2 Bytes, egal ob sie als ASCII oder UTF-8 gespeichert wird.

Versteckte Charaktere sehen

Manche ASCII-Zeichen bewirken Aktionen, ohne gedruckt zu werden. Ein Leerzeichen erzeugt einen leeren Ausdruck. LF und CR hingegen bewegen den Cursor. Die Tabulatortaste ermöglicht einen Sprung. Beim Öffnen einer Datei in einem speziellen Editor wird LF möglicherweise als \n angezeigt. Dieses Symbol ist nicht Teil des ASCII-Zeichensatzes selbst, sondern dient der Darstellung des Zeilenumbruchs durch den Editor.

Einfache Beispiele, die sich real anfühlen

Die Eingabe eines WLAN-Passworts mit Buchstaben und Ziffern verwendet ASCII-Zeichen für diese Symbole. Router und Telefon stimmen bei diesen Zeichen überein.
Die Benennung einer Datei mit ausschließlich Buchstaben von A bis Z, a bis z, 0 bis 9 und Symbolen wie - und _ sorgt für Einfachheit und Sicherheit auf vielen Systemen.
Wenn man im Betreff einer E-Mail nur Standardbuchstaben und -zeichen verwendet, kann man sicherstellen, dass auch ältere Server die E-Mail weiterleiten können.

Worauf man achten sollte

Geschweifte Anführungszeichen vs. gerade Anführungszeichen : Moderne Texteditoren verwenden möglicherweise „ “ anstelle von " “. Gerade Anführungszeichen entsprechen dem ASCII-Zeichensatz. Geschweifte Anführungszeichen hingegen nicht. In älteren Programmen werden sie unter Umständen nicht korrekt angezeigt.
Unterschiedliche Codepages : Eine als Windows-1252 gespeicherte Datei kann auf einem System, das ISO-8859-1 erwartet, fehlerhaft angezeigt werden, und umgekehrt. Verwenden Sie UTF-8, um dies zu vermeiden. Reiner ASCII-Text wird in beiden Fällen korrekt dargestellt.
Unsichtbare Unterschiede : Ein Leerzeichen (32) und ein Tabulator (9) sehen beide wie Lücken aus. Es handelt sich aber um unterschiedliche Zeichen. Dies ist in der Programmierung und bei Datendateien relevant.

Wie Geräte ASCII in einfachen Schritten verwenden

Stellen Sie sich einen Etikettendrucker vor, der Namen druckt. Er liest den Namen als einzelne Zeichen ein. Jedes Zeichen wird in eine ASCII-Zahl umgewandelt. Diese Zahlen werden im Speicher abgelegt. Zum Drucken der Buchstaben sucht er nach der entsprechenden Darstellung der Zahl. Trifft er auf LF (10), springt er in die nächste Zeile, bevor er weiterdruckt.

Vergleich dreier Möglichkeiten, den Code eines Zeichens zu schreiben

Betrachten wir das Ausrufezeichen (!) noch einmal. Wir können seinen Code auf drei Arten schreiben: Dezimal: 33, Binär: 00100001 und Hexadezimal: 21. Mathematisch ausgedrückt: \(\;33_{(10)} = 00100001_{(2)} = 21_{(16)}\) . Alle drei Darstellungsformen haben denselben Wert. Anwendungen wählen die jeweils benötigte Form. Menschen lesen häufig Dezimalzahlen, Computer bevorzugen Binärzahlen. Hexadezimalzahlen sind eine Kurzform für Menschen, um Binärzahlen zu lesen.

Warum ASCII so lange Bestand hatte

ASCII ist klein und übersichtlich. Es wurde früh entwickelt. Viele Werkzeuge und Protokolle basieren darauf. Da die ersten 128 Unicode-Codes mit ASCII übereinstimmen, funktioniert das System bis heute. Deshalb können Sie sehr alte Textdateien auf einem neuen Smartphone oder Laptop öffnen und sehen dieselben Buchstaben.

Kurzanleitung: Lesen einer kurzen Datei

Öffnen Sie eine Datei mit dem Text „Hello“ . Die Bytes entsprechen den ASCII-Zahlen 72 101 108 108 111. Binär dargestellt sind das 01001000 01100101 01101100 01101100 01101111. Die App liest jede Zahl und zeichnet „Hello“ auf dem Bildschirm. Ist die nächste Zahl 10, beginnt sie eine neue Zeile, bevor weiterer Text gezeichnet wird. So einfach und zuverlässig funktioniert das.

Wann sollte man nur ASCII wählen?

Wenn Sie umfassende Basisunterstützung für ältere Werkzeuge und einfache Geräte benötigen.
Wenn Sie IDs, Dateinamen oder Codes speichern, die nur Buchstaben, Ziffern, Bindestriche und Unterstriche verwenden.
Wenn Sie einfache Protokolle und Maschinen-zu-Maschine-Nachrichten erstellen, die keine Akzente oder Emojis benötigen.

Schlüsselsymbole, die häufig verwendet werden

Bindestrich - steht für 45. Unterstrich _ steht für 95. Sie helfen dabei, übersichtliche Dateinamen zu erstellen.
Plus ( +) ist 43. Gleichheitszeichen = ist 61. Viele URLs und Formeln verwenden sie.
Das kaufmännische Und-Zeichen (&) hat die Nummer 38. Es wird häufig in Webformularen und Abfragezeichenfolgen verwendet.
Doppelpunkt : ist 58. Uhrzeiten wie 12:30 verwenden ihn.
Das @-Zeichen ist 64. Die E-Mail-Adresse user@example.com verwendet es.

Kurzer Test von Bit-Ideen mit winzigen Zahlen

Denken Sie an die Zahl 10. Binär dargestellt ist sie 00001010. Dezimal ist sie zehn. Im ASCII-Code steht 10 für LF, den Zeilenvorschub. Dies zeigt, wie dieselbe Zahl auf unterschiedliche Weise dargestellt werden kann. Die Bedeutung ergibt sich aus der Verwendung der Zahl. Wenn wir sie als Zeichencode betrachten, bedeutet 10 LF. Wenn wir sie als Anzahl von Äpfeln bezeichnen, bedeutet sie zehn Äpfel. Der Kontext ist entscheidend.

Um das Ganze anhand eines weiteren Beispiels zusammenzufassen:

Wir senden das Wort „Sun“ von einem Gerät zum anderen. Die Codes lauten: 'S' 83, 'u' 117, 'n' 110. Binär entspricht 83 der Zahl 01010011, 117 der Zahl 01110101 und 110 der Zahl 01101110. Die Bits werden als Ein- und Aus-Signale übertragen. Das andere Gerät wandelt die Bits wieder in Zahlen um. Anschließend werden die Zahlen in Buchstaben umgewandelt. Es zeigt das Wort „Sun“ an. Ist der nächste Code 32, handelt es sich um ein Leerzeichen. Ist der nächste Code 33, handelt es sich um ein Ausrufezeichen (!). Die Regeln bleiben jedes Mal gleich. Das ist die Stärke eines gemeinsamen Codes.

ascii