Primer lesson: ascii

ASCII: Kako računala pohranjuju slova i simbole

Velika ideja

Računala koriste brojeve. Ljudi koriste slova i simbole. Trebamo most. ASCII je taj most. ASCII pretvara svako slovo ili simbol u broj. Računalo pohranjuje broj. Kada čitamo, računalo ponovno prikazuje slovo. Ovako tekst funkcionira u mnogim datotekama i aplikacijama.

Zašto računalima treba kod

Računalo radi na struju. Vidi dva stanja. Uključeno i Isključeno. Ta stanja nazivamo bitovima . Bit je 0 ili 1. Mnogo bitova zajedno čini veće brojeve. Osam bitova čini bajt . Pomoću bitova možemo brojati. Brojanjem možemo imenovati stvari. ASCII koristi brojanje za imenovanje slova i simbola.

Jedan bit daje dva izbora. Dva bita daju četiri izbora. U matematici se ova ideja prikazuje kao \(\;2^n\) . Za \(n=7\) dobivamo \(2^7 = 128\) izbora. Za \(n=8\) dobivamo \(2^8 = 256\) izbora. ASCII koristi 7 bitova. To daje 128 imenovanih stavki. Ljudi su kasnije napravili 8-bitne skupove s 256 stavki. Oni se nazivaju prošireni ASCII .

Što ASCII znači

ASCII je kratica za Američki standardni kod za razmjenu informacija (American Standard Code for Information Interchange) . Počeo je 1960-ih. Napravljen je za rane pisače, teleprintere i računala. Svakom slovu, broju, razmaku i nekim simbolima daje broj. Također daje posebne brojeve radnjama poput novog retka . Prva verzija koristila je 7 bitova, pa je imala brojeve od 0 do 127.

Što se nalazi unutar ASCII-ja

Velika slova : od A do Z. Koriste se brojevi od 65 do 90.
Mala slova : od a do z. Koriste se brojevi od 97 do 122.
Znamenke : od 0 do 9. Koriste brojeve od 48 do 57.
Razmak : Prazan prostor. To je broj 32.
Interpunkcija : ! , . ? : ; ' " ( ) i više. Na primjer, ! je 33, zarez je 44, točka je 46, upitnik je 63.
Kontrolni znakovi : Izvršavaju radnje. To su brojevi od 0 do 31 i 127. Rade stvari poput početka novog retka, zvonjenja ili pomicanja kursora.

Jednostavni primjeri karata

'A' je 65.
'B' je 66.
'Z' je 90.
'a' je 97.
'z' je 122.
'0' je 48.
'9' je 57.
' ' (razmak) je 32.
'!' je 33.

Primijetite nešto zgodno. Mala slova su 32 veća od svog para velikih slova. Na primjer, \(\;97 - 65 = 32\) . Dakle, 'a' je 32 veći od 'A'. 'b' je 32 veći od 'B' i tako dalje. Ovaj uzorak olakšava neke računalne zadatke.

Kontrolni znakovi u običnim riječima

NUL (0): Ne znači ništa. U nekim starim sustavima označava kraj.
BEL (7): Može proizvesti zvuk bipa. Zamislite nježno upozorenje.
BS Backspace (8): Pomiče se jedan korak unatrag.
TAB (9): Preskače na sljedeći tabulator. To pomaže u poravnavanju stvari.
LF pomicanje retka (10): Pomiče se prema dolje u novi redak.
CR Povratak valjka (13): Vraća se na početak retka. Na starim pisaćim strojevima, valjka se vraćala ulijevo. CR to radi.
ESC Escape (27): Pokreće posebnu naredbu za stare ekrane ili pisače.
DEL Izbriši (127): Označava nešto kao izbrisano u vrlo starim sustavima.

Kada pritisnete tipku Enter, vaše računalo može poslati LF ili CR ili oboje, ovisno o sustavu. Mnogi internetski alati koriste LF. Neki stari sustavi koristili su CR i LF zajedno.

Decimalni, binarni i heksadecimalni prikazi

Brojeve možemo pisati na različite načine. Decimalni sustav je uobičajeni način brojanja, koristeći znamenke od 0 do 9. Binarni sustav koristi samo 0 i 1. Heksadecimalni sustav koristi 0 do 9 i A do F.

'A' : decimalno 65, binarno 01000001, heksadecimalno 41. U matematičkom obliku: \(65_{(10)} = 01000001_{(2)} = 41_{(16)}\) .
'a' : decimalno 97, binarno 01100001, heksadecimalno 61. To je \(97_{(10)} = 01100001_{(2)} = 61_{(16)}\) .
'0' : decimalno 48, binarno 00110000, heksadecimalno 30. To je \(48_{(10)} = 00110000_{(2)} = 30_{(16)}\) .
Razmak : decimalno 32, binarno 00100000, heksadecimalno 20. To je \(32_{(10)} = 00100000_{(2)} = 20_{(16)}\) .
Novi redak (LF) : decimalno 10, binarno 00001010, heksadecimalno 0A. To je \(10_{(10)} = 00001010_{(2)} = 0A_{(16)}\) .

Kako binarni sustav daje 65 za 'A'? Pogledajte bitove u 01000001. Krajnji lijevi bit je za 128. Zatim 64, 32, 16, 8, 4, 2, 1. Samo su 64 i 1 uključeni. Dakle \(01000001_{(2)} = 0\times128 + 1\times64 + 0\times32 + 0\times16 + 0\times8 + 0\times4 + 0\times2 + 1\times1 = 65\) .

S tipkovnice na ekran

Pritisnite tipku. Tipkovnica šalje kod računalu. Sustav ga pretvara u znak ili broj. Za mnoge tipke taj je broj ASCII broj. Aplikacija pohranjuje broj u memoriju. Kada prikaže tekst, traži broj i crta slovo. Kada spremite, brojevi se spremaju u datoteku.

Kako tekst putuje kroz mrežu

Zamislite poruku Hi!. Slova su H, i i !. Njihovi ASCII brojevi su 72, 105 i 33. U binarnom sustavu to su 01001000, 01101001 i 00100001. Mreža šalje ove bitove. Druga strana čita bitove. Vidi brojeve. Ponovno prikazuje H, i i !. Tako se kreću jednostavne tekstualne poruke.

Prošireni ASCII i kodne stranice

Ljudi su željeli više simbola. Željeli su slova poput é, ñ i ø. Željeli su znakove za novac poput €. Skup od 7 bitova imao je samo 128 simbola. Stoga su ljudi koristili 8 bitova. S 8 bitova dobivamo \(2^8 = 256\) simbola. Gornja polovica, od 128 do 255, korištena je za dodatna slova i simbole. Ali postojao je problem. Različite skupine odabrale su različite brojeve za ta dodatna slova. Ti se izbori nazivaju kodne stranice .

ISO-8859-1 (Latin-1) je jedan uobičajeni skup za zapadnoeuropska slova. É stavlja na 233.
Windows-1252 je vrlo blizak Latin-1, ali koristi neka mjesta od 128 do 159 za interpunkciju poput "pametnih navodnika".

Budući da se kodne stranice razlikuju, isti broj može prikazivati drugačiji simbol na drugom računalu. Ta se zbrka naziva mojibake . Izgleda kao čudni znakovi. To je jedan od razloga zašto je svijet prešao na Unicode.

ASCII i Unicode

Unicode je veliki standard koji može prikazati mnoge jezike, matematičke simbole i emotikone. Ima prostora za više od milijun simbola. Postoji mnogo načina za pohranu Unicodea. Jedan popularan način je UTF-8 .

ASCII je mali dio Unicodea. Prvih 128 Unicode kodova točno odgovara ASCII-ju.
U UTF-8 , svi ASCII znakovi koriste jedan bajt i imaju iste vrijednosti od 0 do 127. Dakle, bilo koji ASCII tekst je već valjani UTF-8.
Slova izvan ASCII zauzimaju dva ili više bajtova u UTF-8. Na primjer, é u UTF-8 zauzima dva bajta. Ne morate pamtiti bajtove. Računalo to rješava umjesto vas.

Koliko bajtova koristi tekst

Kod teksta koji koristi samo ASCII, svaki znak koristi jedan bajt. Dakle, riječ mačka koristi 3 bajta. Izraz hi mama ima 6 znakova uključujući razmak, pa koristi 6 bajtova. Jednostavnom matematikom, \(\textrm{ASCII bajtovi} = \textrm{broj znakova}\) .

Sortiranje s ASCII-jem

Računala često sortiraju nizove znakova prema broju znakova. ASCII redoslijed grupira stvari na određeni način.

Znamenke od 0 do 9 dolaze prije slova jer su brojevi od 48 do 57 manji od brojeva 65 i 97.
Velika slova od A do Ž dolaze prije malih slova od A do Ž jer su brojevi od 65 do 90 manji od broja od 97 do 122.

To znači da Zoo dolazi prije Applea ako uspoređujemo jednostavne ASCII vrijednosti. Sortiranje je po brojevima, a ne po tome kako riječi zvuče.

Uobičajeni ASCII kodovi koje trebate znati

Prostor : 32
Uskličnik ! : 33
Zarez , : 44
Razdoblje : 46
Kosa crta / : 47
Znamenke 0..9 : 48..57
Debelo crijevo : : 58
Točka-zarez ; : 59
Upitnik ? : 63
Na znaku @ : 64
Velika slova A..Z : 65..90
Lijeva uglata zagrada [ : 91
Obrnuta kosa crta \ : 92
Desna uglata zagrada ] : 93
Mala slova a..z : 97..122
Vitičaste zagrade { } : 123 i 125
Tilda ~ : 126

Primijetite da je ampersand &. Njegov ASCII broj je 38. Znak plus + je 43. Znak minus - je 45.

Prava upotreba u svakodnevnoj tehnologiji

Datoteke s običnim tekstom (.txt): Mnoge jednostavne bilješke koriste samo ASCII.
Programiranje : Slova, znamenke i simboli u kodu često dolaze iz ASCII-ja. Na primjer, if naredbe koriste slova if i vitičaste zagrade { } iz ASCII-ja.
CSV datoteke : Mnoge podatkovne tablice spremljene kao vrijednosti odvojene zarezima koriste ASCII zareze i znamenke.
Osnove e-pošte i weba : Stari sustavi e-pošte koristili su 7-bitni ASCII. Web adrese i mnoge naredbe protokola koriste ASCII slova i znamenke.
Zapisnici i postavke : Sistemski zapisnici i konfiguracijske datoteke često se drže ASCII koda pa ih je lako čitati svugdje.

ASCII obrasci koji pomažu

Od većeg prema manjem : Mala slova su za 32 veća od velikih za isto slovo. \(\;97 - 65 = 32\) , \(\;98 - 66 = 32\) i tako dalje.
Znamenke : Znamenka '0' je 48, '1' je 49, do '9' što je 57. Broj za znamenku je \(48 + \textrm{vrijednost znamenke}\) . Na primjer, \(48 + 7 = 55\) . Dakle, '7' je 55.

Kako se slike mogu napraviti pomoću ASCII-ja

Ljudi izrađuju slike koristeći samo znakove. To se zove ASCII umjetnost . Evo malog lica napravljenog od ASCII znakova.

:-) Jednostavan osmijeh
(^_^) Prijateljsko lice
o_O Iznenađen/a

Svaka strana je samo znakovi poput dvotočke, crtice i zagrada. Nema boja ili oblika. Samo tekst.

Povijest ukratko, jednostavnim riječima

ASCII se razvio iz teleprintera i ranih računala. Prva verzija je dogovorena 1963. godine. Pomogao je mnogim različitim strojevima da međusobno komuniciraju. S jednim zajedničkim kodom, slovo poput A značilo je isti broj svugdje. To je olakšalo slanje poruka i ispis teksta.

Kada ASCII nije dovoljan

ASCII ima samo 128 stavki. To nije dovoljno za sve jezike. Ne može prikazati kineski, hindski, arapski ili mnoga druga pisma. Ne može prikazati emojije. Također ne može prikazati mnoge matematičke i glazbene simbole. Za njih koristimo Unicode. Unicode može prikazati mnoga pisma i simbole. UTF-8 je način njihovog pohranjivanja. Dobra vijest je da sav ASCII tekst radi unutar UTF-8. Dakle, moderni sustavi mogu lako čitati stari ASCII.

Kako aplikacije danas obrađuju ASCII

Većina aplikacija očekuje UTF-8. Ali kada datoteka ima samo ASCII slova i simbole, izgleda isto i pod UTF-8. Programerima se to sviđa jer pojednostavljuje stvari. Web stranice, API-ji i mnogi alati koriste UTF-8, koji uključuje ASCII bez promjena.

Činjenice o malim brojevima i jednostavna matematika

ASCII je 7-bitni skup. To znači do \(2^7 = 128\) različitih znakova. Prošireni skup s 8 bitova ima \(2^8 = 256\) stavki. Ako vaš tekst ima samo ASCII znakove i ima \(n\) znakova, tada koristi \(n\) bajtova. U maloj poruci poput OK , \(n = 2\) . Dakle, koristi 2 bajta kada se pohranjuje kao ASCII ili UTF-8.

Vidjeti skrivene znakove

Neke ASCII stavke izvršavaju radnje, ali se ne ispisuju. Razmak ispisuje prazno. Ali LF i CR pomiču kursor. TAB skače. Kada otvorimo datoteku u posebnom editoru, LF se može prikazati kao \n. Taj simbol nije dio samog ASCII-ja. To je način na koji vam editor prikazuje prijelom retka.

Jednostavni primjeri koji se čine stvarnima

Upisivanje Wi-Fi lozinke sa slovima i znamenkama koristi ASCII za te simbole. Ruter i telefon se dogovaraju oko tih brojeva.
Imenovanje datoteke samo s A do Z, od a do z, od 0 do 9 i simbolima poput - i _ održava ga jednostavnim i sigurnim na mnogim sustavima.
Pisanje predmeta e-pošte samo sa standardnim slovima i interpunkcijskim znakovima osigurava da stari poslužitelji mogu proslijediti poruku.

Na što treba paziti

Vitičasti navodnici u odnosu na ravne navodnike : Tekst iz naprednih urednika može koristiti " " umjesto " ". Ravni navodnici su ASCII. Vitičasti navodnici nisu. Možda se neće ispravno prikazivati u starim alatima.
Različite kodne stranice : Datoteka spremljena kao Windows-1252 može se pogrešno prikazati na sustavu koji očekuje ISO-8859-1 ili obrnuto. Koristite UTF-8 kako biste to izbjegli. Tekst samo u ASCII formatu bit će u redu u oba slučaja.
Nevidljive razlike : Razmak (32) i TAB (9) izgledaju kao praznine. Ali to su različiti znakovi. To je važno u programiranju i podatkovnim datotekama.

Kako uređaji koriste ASCII u jednostavnim koracima

Zamislite uređaj za ispisivanje naljepnica koji ispisuje imena. Čita imena kao znakove. Svaki znak pretvara u ASCII brojeve. Pohranjuje te brojeve u memoriju. Ispisuje slova tražeći kako nacrtati svaki broj. Ako se susretne s LF (10), prelazi u sljedeći redak prije ispisivanja daljnjeg retka.

Usporedba tri načina pisanja koda jednog znaka

Ponovno pogledajte znak '!'. Njegov kod možemo napisati na tri načina. Decimalno: 33. Binarno: 00100001. Heksadecimalno: 21. U matematičkom obliku, \(\;33_{(10)} = 00100001_{(2)} = 21_{(16)}\) . Svaki oblik je ista vrijednost. Aplikacije biraju oblik koji im je potreban. Ljudi često čitaju decimalno. Računala vole binarni oblik. Heksadecimalno je skraćeni način za ljude da čitaju binarne brojeve.

Zašto je ASCII trajao tako dugo

ASCII je malen i jasan. Napravljen je rano. Mnogi alati i protokoli izgrađeni su na njemu. Budući da prvih 128 Unicode kodova odgovara ASCII-ju, plan i danas funkcionira. Zato možete otvoriti vrlo stare tekstualne datoteke na novom telefonu ili prijenosnom računalu i vidjeti ista slova.

Kratki vodič: čitanje kratke datoteke

Otvorite datoteku s tekstom Hello . Bajtovi su ASCII brojevi 72 101 108 108 111. U binarnom sustavu to su 01001000 01100101 01101100 01101100 01101111. Aplikacija čita svaki broj i crta Hello na zaslonu. Ako je sljedeći broj 10, pomiče se u novi redak prije crtanja daljnjeg teksta. Ovako je proces jednostavan i stabilan.

Kada odabrati samo ASCII

Kada vam je potrebna najšira osnovna podrška za stare alate i jednostavne uređaje.
Kada pohranjujete ID-ove, nazive datoteka ili kodove koji koriste samo slova, znamenke, crtice i podcrte.
Kada izrađujete jednostavne zapisnike i poruke između strojeva kojima nisu potrebni akcenti ili emoji.

Ključni simboli koje ljudi često koriste

Crtica - je 45. Podvlaka _ je 95. Pomažu u stvaranju urednih imena datoteka.
Plus + je 43. Jednako je = je 61. Mnogi URL-ovi i formule ih koriste.
Ampersand & je 38. Web obrasci i nizovi upita često ga koriste.
Debelo crijevo : je 58. Vrijeme poput 12:30 ga koristi.
Znak @ je 64. E-pošta user@example.com ga koristi.

Brza provjera ideja za bitove s malim brojevima

Zamislite broj 10. U binarnom sustavu to je 00001010. U decimalnom sustavu to je deset. U ASCII sustavu, 10 je LF, znak za pomicanje retka. To pokazuje kako se isti broj može prikazati na različite načine. Značenje dolazi od načina na koji koristimo broj. Ako kažemo da je to kod znaka, onda 10 znači LF. Ako kažemo da je to samo brojanje jabuka, onda je to deset jabuka. Kontekst je važan.

Spajajući sve to s još jednim primjerom

Poslat ćemo riječ Sun s jednog uređaja na drugi. Kodovi su 'S' 83, 'u' 117, 'n' 110. U binarnom sustavu, 83 je 01010011, 117 je 01110101, 110 je 01101110. Bitovi putuju kao signali Uključeno i Isključeno. Drugi uređaj pretvara bitove natrag u brojeve. Zatim pretvara brojeve u slova. Prikazuje riječ Sun. Ako je sljedeći kod 32, to je razmak. Ako je sljedeći 33, to je '!'. Pravila ostaju ista svaki put. To je snaga dijeljenog koda.

ascii