Primer lesson: ascii

ASCII: Hur datorer lagrar bokstäver och symboler

Den stora idén

Datorer använder siffror. Människor använder bokstäver och symboler. Vi behöver en brygga. ASCII är den bryggan. ASCII omvandlar varje bokstav eller symbol till ett nummer. Datorn lagrar numret. När vi läser visar datorn bokstaven igen. Så här fungerar text i många filer och appar.

Varför datorer behöver en kod

En dator arbetar med elektricitet. Den ser två tillstånd. På och Av. Vi kallar dessa tillstånd bitar . En bit är en 0 eller en 1. Många bitar tillsammans bildar större tal. Åtta bitar bildar en byte . Med bitar kan vi räkna. Med räkning kan vi namnge saker. ASCII använder räkning för att namnge bokstäver och symboler.

En bit ger två val. Två bitar ger fyra val. I matematik visas denna idé som \(\;2^n\) . För \(n=7\) får vi \(2^7 = 128\) val. För \(n=8\) får vi \(2^8 = 256\) val. ASCII använder 7 bitar. Det ger 128 namngivna objekt. Senare skapade människor 8-bitarsmängder med 256 objekt. Dessa kallas utökad ASCII .

Vad ASCII betyder

ASCII står för American Standard Code for Information Interchange . Det började på 1960-talet. Det skapades för tidiga skrivare, teletyper och datorer. Det ger varje bokstav, siffra, mellanslag och vissa symboler ett nummer. Det ger också specialnummer till handlingar som ny rad . Den första versionen använde 7 bitar, så den hade siffror från 0 till 127.

Vad finns inuti ASCII

Stora bokstäver : A till Ö. De använder siffrorna 65 till 90.
Små bokstäver : a till ö. De använder siffrorna 97 till 122.
Siffror : 0 till 9. De använder siffrorna 48 till 57.
Mellanslag : Ett tomt mellanslag. Det är nummer 32.
Interpunktion : ! , . ? : ; ' " ( ) och mer. Till exempel, ! är 33, kommatecken är 44, punkt är 46, frågetecken är 63.
Kontrolltecken : Dessa utför åtgärder. Det är siffrorna 0 till 31 och 127. De gör saker som att börja en ny rad, ringa en klocka eller flytta markören.

Enkla kartexempel

'A' är 65.
'B' är 66.
'Z' är 90.
'a' är 97.
'z' är 122.
'0' är 48.
'9' är 57.
' ' (mellanslag) är 32.
'!' är 33.

Lägg märke till något snyggt. Små bokstäver är 32 fler än deras stora bokstäver. Till exempel, \(\;97 - 65 = 32\) . Så 'a' är 32 fler än 'A'. 'b' är 32 fler än 'B', och så vidare. Detta mönster gör vissa datoruppgifter enkla.

Kontrolltecken i vanliga ord

NULL (0): Det betyder ingenting. Det markerar slutet för vissa gamla system.
BEL (7): Den kan ge ifrån sig ett pipljud. Tänk på en svag varning.
BS Backspace (8): Går ett steg bakåt.
TABB (9): Hoppar till nästa tabbstopp. Detta hjälper till att få ordning på saker och ting.
LF Linjematning (10): Flyttar ner till en ny linje.
CR -vagnretur (13): Flyttar tillbaka till början av raden. På gamla skrivmaskiner återgick vagnen till vänster. CR gör det.
ESC Escape (27): Startar ett specialkommando för gamla skärmar eller skrivare.
DEL Delete (127): Markerar något som borttaget i mycket gamla system.

När du trycker på Enter-tangenten kan din dator skicka LF, CR eller båda, beroende på systemet. Många internetverktyg använder LF. Vissa äldre system använde CR och LF tillsammans.

Decimal-, binär- och hexagonalvyer

Vi kan skriva tal på olika sätt. Decimalt är det vanliga sättet vi räknar på, med siffrorna 0 till 9. Binärt använder endast 0 och 1. Hexadecimalt använder siffrorna 0 till 9 och A till F.

'A' : decimal 65, binär 01000001, hex 41. I matematisk form: \(65_{(10)} = 01000001_{(2)} = 41_{(16)}\) .
'a' : decimal 97, binär 01100001, hex 61. Det är \(97_{(10)} = 01100001_{(2)} = 61_{(16)}\) .
'0' : decimal 48, binär 00110000, hex 30. Det är \(48_{(10)} = 00110000_{(2)} = 30_{(16)}\) .
Mellanslag : decimal 32, binär 00100000, hex 20. Det är \(32_{(10)} = 00100000_{(2)} = 20_{(16)}\) .
Ny rad (LF) : decimal 10, binär 00001010, hex 0A. Det vill säga \(10_{(10)} = 00001010_{(2)} = 0A_{(16)}\) .

Hur skapar en binär funktion 65 för 'A'? Titta på bitarna i 01000001. Den vänstra biten är för 128. Sedan 64, 32, 16, 8, 4, 2, 1. Endast 64 och 1 är aktiverade. Så \(01000001_{(2)} = 0\times128 + 1\times64 + 0\times32 + 0\times16 + 0\times8 + 0\times4 + 0\times2 + 1\times1 = 65\) .

Från tangentbord till skärm

Tryck på en tangent. Tangentbordet skickar en kod till datorn. Systemet omvandlar den till ett teckennummer. För många tangenter är det numret ASCII-numret. Appen lagrar numret i minnet. När texten visas slår den upp numret och ritar bokstaven. När du sparar sparas siffrorna i filen.

Hur text färdas över ett nätverk

Tänk på meddelandet Hej!. Bokstäverna är H, i och !. Deras ASCII-nummer är 72, 105 och 33. I binärt format är de 01001000, 01101001 och 00100001. Nätverket skickar dessa bitar. Den andra sidan läser bitarna. Den ser siffrorna. Den visar H, i och ! igen. Det är så enkla textmeddelanden rör sig.

Utökade ASCII- och teckentabeller

Folk ville ha fler symboler. De ville ha bokstäver som é, ñ och ø. De ville ha penningtecken som €. 7-bitarsmängden hade bara 128 symboler. Så folk använde 8 bitar. Med 8 bitar får vi \(2^8 = 256\) symboler. Den övre halvan, från 128 till 255, användes för extra bokstäver och symboler. Men det fanns ett problem. Olika grupper valde olika siffror för dessa extra bokstäver. Dessa val kallas teckentabeller .

ISO-8859-1 (latin-1) är en vanlig uppsättning för västeuropeiska bokstäver. Den sätter é till 233.
Windows-1252 är mycket likt Latin-1, men använder vissa tecken 128 till 159 för interpunktion, som till exempel "smarta citationstecken".

Eftersom teckentabeller skiljer sig åt kan samma nummer visa en annan symbol på en annan dator. Denna förväxling kallas mojibake . Det ser ut som konstiga tecken. Det är en av anledningarna till att världen övergick till Unicode.

ASCII och Unicode

Unicode är en stor standard som kan visa många språk, matematiska symboler och emojis. Den har plats för mer än en miljon symboler. Det finns många sätt att lagra Unicode. Ett populärt sätt är UTF-8 .

ASCII är en liten del av Unicode. De första 128 Unicode-koderna matchar ASCII exakt.
I UTF-8 använder alla ASCII-tecken en byte och har samma värden från 0 till 127. Så all ASCII-text är redan giltig UTF-8.
Bokstäver efter ASCII tar två eller fler byte i UTF-8. Till exempel är é i UTF-8 två byte. Du behöver inte komma ihåg bytena. Datorn hanterar det åt dig.

Hur många byte använder text

Med endast ASCII-text använder varje tecken en byte. Så ordet katt använder 3 byte. Frasen hej mamma har 6 tecken inklusive mellanslag, så den använder 6 byte. Enkelt uttryckt \(\textrm{ASCII-byte} = \textrm{antal tecken}\) .

Sorteringsordning med ASCII

Datorer sorterar ofta strängar efter deras teckennummer. ASCII-ordning grupperar saker på ett visst sätt.

Siffrorna 0 till 9 kommer före bokstäver eftersom 48 till 57 är mindre än 65 och 97.
Versaler A till Ö kommer före gemener a till ö eftersom 65 till 90 är mindre än 97 till 122.

Det betyder att Zoo kommer före apple om vi jämför enkla ASCII-värden. Sorteringen sker efter siffror, inte efter hur ord låter.

Vanliga ASCII-koder att känna till

Plats : 32
Utrop ! : 33
Kommatecken ,: 44
Period .: 46
Snedstreck / : 47
Siffror 0..9: 48..57
Kolon : : 58
Semikolon ; : 59
Frågetecken ? : 63
Vid skylt @: 64
Stora bokstäver A..Ö : 65..90
Vänster hakparentes [: 91]
Bakåtsnedstreck \: 92
Höger hakparentes ] : 93
Gemener a..ö : 97..122
Lockiga tandställning {}: 123 och 125
Tilde ~ : 126

Lägg märke till att et-tecknet är &. Dess ASCII-nummer är 38. Plustecknet + är 43. Minustecknet - är 45.

Verkliga användningsområden inom vardagsteknik

Vanliga textfiler (.txt): Många enkla anteckningar använder endast ASCII.
Programmering : Bokstäver, siffror och symboler i kod kommer ofta från ASCII. Till exempel använder if-satser bokstäverna if och klammerparenteser {} från ASCII.
CSV-filer : Många datatabeller som sparas som kommaseparerade värden använder ASCII-komma och siffror.
Grunderna i e-post och webb : Gamla e-postsystem använde 7-bitars ASCII. Webbadresser och många protokollkommandon använder ASCII-bokstäver och siffror.
Loggar och inställningar : Systemloggar och konfigurationsfiler är ofta skrivna i ASCII-format så att de är lätta att läsa överallt.

ASCII-mönster som hjälper

Versaler till nedre : Gemener är 32 fler än versaler för samma bokstav. \(\;97 - 65 = 32\) , \(\;98 - 66 = 32\) , och så vidare.
Siffror : Siffran '0' är 48, '1' är 49, upp till '9' som är 57. Talet för en siffra är \(48 + \textrm{siffervärdet}\) . Till exempel, \(48 + 7 = 55\) . Så '7' är 55.

Hur man kan skapa bilder med ASCII

Människor gör bilder med bara tecken. Detta kallas ASCII-konst . Här är ett litet ansikte gjort med ASCII-tecken.

:-) Enkelt leende
(^_^) Vänligt ansikte
o_O Förvånad

Varje ansikte är bara tecken som kolon, bindestreck och parenteser. Inga färger eller former. Bara text.

Historia i korthet, med enkla ord

ASCII växte fram från teletyper och tidiga datorer. År 1963 enades man om en första version. Den hjälpte många olika maskiner att kommunicera med varandra. Med en gemensam kod betydde en bokstav som A samma nummer överallt. Detta gjorde det lättare att skicka meddelanden och skriva ut text.

När ASCII inte räcker

ASCII har bara 128 objekt. Det räcker inte för alla språk. Den kan inte visa kinesiska, hindi, arabiska eller många andra skrifttyper. Den kan inte visa emojis. Den kan inte heller visa många matematiska och musikaliska symboler. För dessa använder vi Unicode. Unicode kan visa många skrifttyper och symboler. UTF-8 är ett sätt att lagra dem. Den goda nyheten är att all ASCII-text fungerar inuti UTF-8. Så moderna system kan enkelt läsa gammal ASCII.

Hur appar hanterar ASCII idag

De flesta appar förväntar sig UTF-8. Men när en fil bara innehåller ASCII-bokstäver och symboler ser den likadan ut under UTF-8. Programmerare gillar detta eftersom det förenklar saker och ting. Webbsidor, API:er och många verktyg använder UTF-8, vilket inkluderar ASCII utan ändringar.

Små talfakta och vänlig matematik

ASCII är en 7-bitarsmängd. Det betyder upp till \(2^7 = 128\) olika tecken. En utökad mängd med 8 bitar har \(2^8 = 256\) objekt. Om din text bara har ASCII-tecken, och den har \(n\) tecken, använder den \(n\) byte. I ett litet meddelande som OK , \(n = 2\) . Så den använder 2 byte när den lagras som ASCII eller UTF-8.

Att se dolda karaktärer

Vissa ASCII-element utför åtgärder men skrivs inte ut. Mellanslag skriver ut tomma rutor. Men LF och CR flyttar markören. TAB hoppar. När vi öppnar en fil i en speciell editor kan den visa LF som \n. Den symbolen är inte en del av själva ASCII. Det är ett sätt som editorn visar radbrytningen för dig.

Enkla exempel som känns verkliga

Att skriva ett Wi-Fi-lösenord med bokstäver och siffror använder ASCII för dessa symboler. Routern och telefonen är överens om dessa siffror.
Att namnge en fil med endast A till Ö, a till ö, 0 till 9 och symboler som - och _ gör det enkelt och säkert i många system.
Att skriva ett ämne för e-postmeddelandet med endast standardbokstäver och interpunktion säkerställer att gamla servrar kan skicka det vidare.

Saker att se upp för

Lodriga citattecken kontra raka citattecken : Text från avancerade redigerare kan använda " " istället för " ". Raka citattecken är ASCII. Lodriga citattecken är det inte. De kanske inte visas korrekt i äldre verktyg.
Olika teckentabeller : En fil som sparats som Windows-1252 kan visas felaktigt på ett system som förväntar sig ISO-8859-1, eller vice versa. Använd UTF-8 för att undvika detta. Endast ASCII-text fungerar i vilket fall som helst.
Osynliga skillnader : Ett mellanslag (32) och en TAB (9) ser båda ut som mellanrum. Men de är olika tecken. Detta är viktigt i programmering och datafiler.

Hur enheter använder ASCII i enkla steg

Tänk dig en etikettskrivare som skriver ut namn. Den läser namnet som tecken. Den omvandlar varje tecken till ASCII-nummer. Den lagrar dessa siffror i minnet. Den skriver ut bokstäverna genom att slå upp hur man ritar varje nummer. Om den uppfyller LF (10) går den vidare till nästa rad innan den skriver ut fler.

Jämförelse av tre sätt att skriva kod för ett tecken

Titta på tecknet '!' igen. Vi kan skriva dess kod på tre sätt. Decimal: 33. Binär: 00100001. Hex: 21. I matematisk form \(\;33_{(10)} = 00100001_{(2)} = 21_{(16)}\) . Varje form har samma värde. Appar väljer den form de behöver. Folk läser ofta decimal. Datorer gillar binär. Hex är ett kort sätt för folk att läsa binära tal.

Varför ASCII varade så länge

ASCII är litet och tydligt. Det skapades tidigt. Många verktyg och protokoll byggdes på det. Eftersom de första 128 Unicode-koderna matchar ASCII fungerar planen fortfarande idag. Det är därför du kan öppna mycket gamla textfiler på en ny telefon eller bärbar dator och se samma bokstäver.

Minigenomgång: läsning av en kort fil

Öppna en fil med texten Hello . Bytena är ASCII-talen 72 101 108 108 111. I binärt format är de 01001000 01100101 01101100 01101100 01101111. Appen läser varje siffra och ritar Hello på skärmen. Om nästa siffra är 10, flyttas den till en ny rad innan mer text ritas. Så här enkel och stabil är processen.

När man ska välja endast ASCII

När du behöver det bredaste grundläggande stödet för gamla verktyg och enkla enheter.
När du lagrar ID:n, filnamn eller koder som bara använder bokstäver, siffror, bindestreck och understreck.
När du skapar enkla loggar och maskin-till-maskin-meddelanden som inte behöver accenter eller emojis.

Viktiga symboler som folk ofta använder

Streck - är 45. Understreck _ är 95. De hjälper till att skapa snygga filnamn.
Plus + är 43. Lika med = är 61. Många webbadresser och formler använder dem.
Et-tecknet & är 38. Webbformulär och frågesträngar använder det ofta.
Kolon : är 58. Tid som 12:30 använder det.
Vid tecknet @ är 64. E-post användare@example.com använder det.

Snabb kontroll av bitsidéer med små siffror

Tänk på talet 10. I binärt tecken är det 00001010. I decimalt tecken är det tio. I ASCII är 10 LF, radmatningen. Detta visar hur samma tal kan visas på olika sätt. Betydelsen kommer från hur vi använder talet. Om vi säger att det är en teckenkod, då betyder 10 LF. Om vi säger att det bara är ett antal äpplen, då är det tio äpplen. Sammanhang spelar roll.

Sammanfattar allt med ytterligare ett exempel

Vi skickar ordet Sol från en enhet till en annan. Koderna är 'S' 83, 'u' 117, 'n' 110. I binärt tal är 83 01010011, 117 är 01110101, 110 är 01101110. Bitarna färdas som På- och Av-signaler. Den andra enheten omvandlar bitar tillbaka till siffror. Sedan omvandlar den siffror till bokstäver. Den visar ordet Sol . Om nästa kod är 32 är det ett mellanslag. Om nästa är 33 är det '!'. Reglerna förblir desamma varje gång. Det är kraften i en delad kod.

ascii