Primer lesson: ascii

ASCII: Jak komputery przechowują litery i symbole

Wielki pomysł

Komputery używają cyfr. Ludzie używają liter i symboli. Potrzebujemy mostu. ASCII jest tym mostem. ASCII zamienia każdą literę lub symbol na liczbę. Komputer zapisuje liczbę. Kiedy ją odczytujemy, komputer ponownie wyświetla literę. Tak działa tekst w wielu plikach i aplikacjach.

Dlaczego komputery potrzebują kodu

Komputer działa z wykorzystaniem elektryczności. Rozpoznaje dwa stany: włączony i wyłączony. Nazywamy te stany bitami . Bit to 0 lub 1. Wiele bitów razem tworzy większe liczby. Osiem bitów tworzy bajt . Za pomocą bitów możemy liczyć. Za pomocą liczenia możemy nazywać rzeczy. ASCII używa liczenia do nazywania liter i symboli.

Jeden bit daje dwie możliwości. Dwa bity dają cztery możliwości. W matematyce tę ideę przedstawia się jako \(\;2^n\) . Dla \(n=7\) otrzymujemy \(2^7 = 128\) możliwości. Dla \(n=8\) otrzymujemy \(2^8 = 256\) możliwości. Kod ASCII używa 7 bitów. Daje to 128 nazwanych elementów. Później stworzono 8-bitowe zestawy z 256 elementami. Nazywa się je rozszerzonym kodem ASCII .

Co oznacza ASCII

ASCII to skrót od American Standard Code for Information Interchange (amerykański standardowy kod wymiany informacji ). Został on opracowany w latach 60. XX wieku dla wczesnych drukarek, teletypów i komputerów. Przypisuje on każdej literze, cyfrze, spacji i niektórym symbolom numer. Nadaje również specjalne numery funkcjom, takim jak znak nowej linii . Pierwsza wersja używała 7 bitów, więc zawierała liczby od 0 do 127.

Co jest w ASCII

Wielkie litery : od A do Z. Używa się cyfr od 65 do 90.
Małe litery : od a do z. Używają cyfr od 97 do 122.
Cyfry : od 0 do 9. Używają liczb od 48 do 57.
Spacja : Pusta przestrzeń. To liczba 32.
Interpunkcja : ! , . ? : ; ' " ( ) i więcej. Na przykład, ! to 33, przecinek to 44, kropka to 46, a znak zapytania to 63.
Znaki sterujące : Wykonują akcje. Są to cyfry od 0 do 31 i 127. Wykonują takie czynności, jak rozpoczęcie nowego wiersza, włączenie dźwięku dzwonka lub przesuwanie kursora.

Proste przykłady map

'A' wynosi 65.
'B' wynosi 66.
'Z' wynosi 90.
'a' wynosi 97.
'z' wynosi 122.
'0' to 48.
„9” to 57.
' ' (spacja) wynosi 32.
'!' wynosi 33.

Zauważ coś ciekawego. Małe litery są o 32 większe niż ich pary wielkich. Na przykład, \(\;97 - 65 = 32\) . Zatem „a” jest o 32 większe niż „A”. „b” jest o 32 większe niż „B” i tak dalej. Ten wzór ułatwia niektóre zadania komputerowe.

Znaki kontrolne w prostych słowach

NUL (0): Nic nie znaczy. Oznacza koniec niektórych starych systemów.
BEL (7): Może wydawać dźwięk. Pomyśl o delikatnym sygnale ostrzegawczym.
BS Backspace (8): Cofa o jeden krok.
TAB (9): Przechodzi do następnego punktu tabulacji. Pomaga to w uporządkowaniu elementów.
LF Przesunięcie wiersza (10): Przechodzi do nowego wiersza.
Powrót karetki CR (13): Przesuwa się z powrotem na początek wiersza. W starych maszynach do pisania karetka wracała w lewo. CR to robi.
ESC Escape (27): Uruchamia specjalne polecenie dla starych ekranów lub drukarek.
DEL Delete (127): Oznacza coś jako usunięte w bardzo starych systemach.

Po naciśnięciu klawisza Enter komputer może wysłać LF, CR lub oba, w zależności od systemu. Wiele narzędzi internetowych używa LF. Niektóre starsze systemy używały CR i LF jednocześnie.

Widoki dziesiętne, binarne i szesnastkowe

Liczby możemy zapisywać na różne sposoby. System dziesiętny to standardowy sposób liczenia, używając cyfr od 0 do 9. System binarny używa tylko 0 i 1. System szesnastkowy (heksadecymalny) używa cyfr od 0 do 9 i od A do F.

'A' : dziesiętne 65, binarne 01000001, szesnastkowe 41. W postaci matematycznej: \(65_{(10)} = 01000001_{(2)} = 41_{(16)}\) .
'a' : dziesiętne 97, binarne 01100001, szesnastkowe 61. To jest \(97_{(10)} = 01100001_{(2)} = 61_{(16)}\) .
„0” : dziesiętna liczba 48, binarna 00110000, szesnastkowa 30. To jest \(48_{(10)} = 00110000_{(2)} = 30_{(16)}\) .
Spacja : dziesiętna 32, binarna 00100000, szesnastkowa 20. To jest \(32_{(10)} = 00100000_{(2)} = 20_{(16)}\) .
Nowy wiersz (LF) : 10 w systemie dziesiętnym, 00001010 w systemie binarnym, 0A w systemie szesnastkowym. Oznacza to \(10_{(10)} = 00001010_{(2)} = 0A_{(16)}\) .

Jak w systemie binarnym 65 odpowiada „A”? Spójrz na bity w 01000001. Skrajnie lewy bit odpowiada 128. Następnie 64, 32, 16, 8, 4, 2, 1. Tylko 64 i 1 są włączone. Zatem \(01000001_{(2)} = 0\times128 + 1\times64 + 0\times32 + 0\times16 + 0\times8 + 0\times4 + 0\times2 + 1\times1 = 65\) .

Z klawiatury na ekran

Naciśnij klawisz. Klawiatura wysyła kod do komputera. System zamienia go na liczbę znaków. W przypadku wielu klawiszy liczba ta jest liczbą ASCII. Aplikacja zapisuje liczbę w pamięci. Po wyświetleniu tekstu wyszukuje liczbę i rysuje literę. Po zapisaniu liczby trafiają do pliku.

Jak tekst przemieszcza się przez sieć

Pomyśl o wiadomości „Hi!” . Litery to H, i oraz !. Ich numery ASCII to 72, 105 i 33. W systemie binarnym są to 01001000, 01101001 i 00100001. Sieć wysyła te bity. Druga strona odczytuje bity. Widzi liczby. Ponownie pokazuje H, i oraz !. Tak przesyłane są proste wiadomości tekstowe.

Rozszerzone strony ASCII i kodowe

Ludzie chcieli więcej symboli. Chcieli liter takich jak é, ñ i ø. Chcieli symboli walutowych, takich jak €. Zestaw 7-bitowy miał tylko 128 symboli. Dlatego używano 8 bitów. Z 8 bitami otrzymujemy \(2^8 = 256\) symboli. Górna połowa, od 128 do 255, była przeznaczona na dodatkowe litery i symbole. Pojawił się jednak pewien problem. Różne grupy wybierały różne liczby dla tych dodatkowych liter. Te opcje nazywane są stronami kodowymi .

ISO-8859-1 (Latin-1) to jeden z powszechnych zestawów liter zachodnioeuropejskich. Umieszcza on é na 233.
Windows-1252 jest bardzo zbliżony do Latin-1, ale wykorzystuje miejsca od 128 do 159 na znaki interpunkcyjne, takie jak „cudzysłowy”.

Ponieważ strony kodowe się różnią, ten sam numer może wyświetlać inny symbol na innym komputerze. To pomieszanie nazywa się mojibake . Wygląda jak dziwne znaki. To jeden z powodów, dla których świat przeszedł na Unicode.

ASCII i Unicode

Unicode to obszerny standard, który obsługuje wiele języków, symbole matematyczne i emoji. Oferuje miejsce na ponad milion symboli. Istnieje wiele sposobów przechowywania Unicode. Jednym z popularnych jest UTF-8 .

ASCII to niewielka część Unicode. Pierwsze 128 kodów Unicode dokładnie odpowiada kodowi ASCII.
W UTF-8 wszystkie znaki ASCII wykorzystują jeden bajt i mają takie same wartości od 0 do 127. Zatem każdy tekst ASCII jest już prawidłowym kodowaniem UTF-8.
Litery spoza ASCII zajmują dwa lub więcej bajtów w UTF-8. Na przykład, é w UTF-8 to dwa bajty. Nie musisz pamiętać bajtów. Komputer zajmie się tym za Ciebie.

Ile bajtów zajmuje tekst?

W przypadku tekstu wyłącznie w formacie ASCII każdy znak zajmuje jeden bajt. Zatem słowo „cat” zajmuje 3 bajty. Fraza „hi mom” ma 6 znaków, wliczając spację, więc zajmuje 6 bajtów. W prostych obliczeniach, \(\textrm{Bajty ASCII} = \textrm{liczba znaków}\) .

Kolejność sortowania według kodu ASCII

Komputery często sortują ciągi znaków według numerów. Kolejność ASCII grupuje elementy w określony sposób.

Cyfry od 0 do 9 występują przed literami, ponieważ cyfry od 48 do 57 są mniejsze niż 65 i 97.
Wielkie litery od A do Z występują przed małymi literami od a do z, ponieważ liczby od 65 do 90 są mniejsze niż liczby od 97 do 122.

Oznacza to, że Zoo jest przed Apple , jeśli porównamy proste wartości ASCII. Sortowanie odbywa się według liczb, a nie brzmienia słów.

Popularne kody ASCII, które warto znać

Miejsce : 32
Wykrzyknik ! : 33
Przecinek , : 44
Okres . : 46
Cięcie / : 47
Cyfry 0..9 : 48..57
Dwukropek : : 58
Średnik ; : 59
Znak zapytania ? : 63
Pod znakiem @: 64
Wielkie litery A..Z : 65..90
Lewy nawias kwadratowy [ : 91
Ukośnik odwrotny \ : 92
Prawy nawias kwadratowy ] : 93
Małe litery a..z : 97..122
Nawiasy klamrowe { } : 123 i 125
Tylda ~ : 126

Zwróć uwagę, że znak ampersand to &. Jego numer ASCII to 38. Znak plus + to 43. Znak minus - to 45.

Rzeczywiste zastosowania technologii w życiu codziennym

Pliki zwykłego tekstu (.txt): Wiele prostych notatek używa wyłącznie kodu ASCII.
Programowanie : Litery, cyfry i symbole w kodzie często pochodzą z ASCII. Na przykład, instrukcje if używają liter if i nawiasów klamrowych { } z ASCII.
Pliki CSV : Wiele tabel danych zapisanych jako wartości rozdzielone przecinkami wykorzystuje przecinki i cyfry ASCII.
Podstawy poczty e-mail i internetu : Stare systemy poczty e-mail korzystały z 7-bitowego kodu ASCII. Adresy internetowe i wiele poleceń protokołów używa liter i cyfr ASCII.
Dzienniki i ustawienia : Dzienniki systemowe i pliki konfiguracyjne często zapisywane są w formacie ASCII, dzięki czemu można je łatwo odczytać z dowolnego miejsca.

Wzory ASCII, które pomagają

Od góry do dołu : Mała litera jest o 32 większa od wielkiej dla tej samej litery. \(\;97 - 65 = 32\) , \(\;98 - 66 = 32\) i tak dalej.
Cyfry : Cyfra „0” to 48, „1” to 49, aż do „9”, czyli 57. Liczba odpowiadająca cyfrze to \(48 + \textrm{wartość cyfry}\) . Na przykład, \(48 + 7 = 55\) . Zatem „7” to 55.

Jak tworzyć obrazy za pomocą ASCII

Ludzie tworzą obrazy używając wyłącznie znaków. To się nazywa sztuka ASCII . Oto mała buzia zrobiona ze znaków ASCII.

:-) Prosty uśmiech
(^_^) Przyjazna twarz
o_O Zaskoczony

Każda twarz składa się tylko ze znaków, takich jak dwukropek, myślnik i nawias. Żadnych kolorów ani kształtów. Tylko tekst.

Historia w skrócie, prostymi słowami

Standard ASCII wywodzi się z teletypów i wczesnych komputerów. W 1963 roku uzgodniono pierwszą wersję. Umożliwił on komunikację między wieloma różnymi maszynami. Dzięki wspólnemu kodowi, litera taka jak A oznaczała wszędzie tę samą cyfrę. Ułatwiło to wysyłanie wiadomości i drukowanie tekstu.

Kiedy ASCII nie wystarcza

ASCII ma tylko 128 elementów. To nie wystarcza dla wszystkich języków. Nie obsługuje on chińskiego, hindi, arabskiego ani wielu innych alfabetów. Nie obsługuje też emoji. Nie obsługuje również wielu symboli matematycznych i muzycznych. Do tego celu używamy Unicode. Unicode obsługuje wiele alfabetów i symboli. UTF-8 to sposób ich przechowywania. Dobrą wiadomością jest to, że cały tekst ASCII działa w UTF-8. Dzięki temu nowoczesne systemy mogą z łatwością odczytywać stare ASCII.

Jak aplikacje obsługują dziś kod ASCII

Większość aplikacji oczekuje UTF-8. Ale jeśli plik zawiera tylko litery i symbole ASCII, wygląda tak samo w UTF-8. Programiści cenią to rozwiązanie, ponieważ upraszcza ono sprawę. Strony internetowe, interfejsy API i wiele narzędzi korzystają z UTF-8, które zawiera ASCII bez żadnych zmian.

Fakty dotyczące małych liczb i przyjazna matematyka

ASCII to zbiór 7-bitowy. Oznacza to do \(2^7 = 128\) różnych znaków. Rozszerzony zbiór 8-bitowy ma \(2^8 = 256\) elementów. Jeśli tekst zawiera tylko znaki ASCII i ma \(n\) znaków, to używa \(n\) bajtów. W krótkiej wiadomości, takiej jak OK , \(n = 2\) . Zatem, gdy jest przechowywany w ASCII lub UTF-8, używa 2 bajtów.

Widzenie ukrytych znaków

Niektóre elementy ASCII wykonują akcje i nie są drukowane. Spacja drukuje puste miejsce. Natomiast klawisze LF i CR przesuwają kursor. Klawisz TAB powoduje skoki. Po otwarciu pliku w specjalnym edytorze, LF może być wyświetlany jako \n. Ten symbol nie jest częścią samego kodu ASCII. To sposób, w jaki edytor wyświetla podział wiersza.

Proste przykłady, które wydają się prawdziwe

Wpisując hasło Wi-Fi składające się z liter i cyfr, używamy kodu ASCII dla tych symboli. Router i telefon uzgadniają te cyfry.
Nadawanie plikowi nazw składających się wyłącznie z cyfr od A do Z, a do z, od 0 do 9 oraz symboli, takich jak - i _, sprawia, że nazwa jest prosta i bezpieczna w wielu systemach.
Jeśli w temacie wiadomości e-mail użyjesz tylko standardowych liter i znaków interpunkcyjnych, masz pewność, że stare serwery będą mogły ją przekazać dalej.

Na co zwrócić uwagę

Cudzysłowy kręcone a proste : W tekście z zaawansowanych edytorów tekstu może być używany znak „ ” zamiast „ ”. Cudzysłowy proste są w formacie ASCII. Cudzysłowy kręcone nie. Mogą nie wyświetlać się poprawnie w starszych narzędziach.
Różne strony kodowe : Plik zapisany jako Windows-1252 może wyświetlać się nieprawidłowo w systemie obsługującym ISO-8859-1 i odwrotnie. Aby tego uniknąć, użyj UTF-8. Tekst w formacie ASCII będzie w porządku w obu przypadkach.
Niewidoczne różnice : Spacja (32) i tabulator (9) wyglądają jak przerwy. Są to jednak różne znaki. Ma to znaczenie w programowaniu i plikach danych.

Jak urządzenia wykorzystują kod ASCII w prostych krokach

Wyobraź sobie drukarkę etykiet, która drukuje imiona. Odczytuje imię jako znak. Zamienia każdy znak na cyfry ASCII. Zapisuje te cyfry w pamięci. Drukuje litery, sprawdzając, jak narysować każdą cyfrę. Jeśli trafi na znak LF (10), przechodzi do następnego wiersza przed wydrukowaniem kolejnych.

Porównanie trzech sposobów zapisu kodu jednego znaku

Spójrz ponownie na znak „!”. Jego kod możemy zapisać na trzy sposoby. Dziesiętny: 33. Binarny: 00100001. Szesnastkowy: 21. W postaci matematycznej, \(\;33_{(10)} = 00100001_{(2)} = 21_{(16)}\) . Każda postać ma tę samą wartość. Aplikacje wybierają potrzebną postać. Ludzie często odczytują liczby dziesiętne. Komputery lubią system binarny. Szesnastkowy to skrócony sposób odczytu liczb binarnych.

Dlaczego ASCII przetrwało tak długo

Kod ASCII jest mały i przejrzysty. Powstał wcześnie. Wiele narzędzi i protokołów zostało na nim zbudowanych. Ponieważ pierwsze 128 kodów Unicode pasuje do ASCII, ten plan działa do dziś. Dlatego można otworzyć bardzo stare pliki tekstowe na nowym telefonie lub laptopie i zobaczyć te same litery.

Krótki przewodnik: czytanie krótkiego pliku

Otwórz plik z tekstem „Hello” . Bajty to liczby ASCII 72 101 108 108 111. W systemie binarnym są to 01001000 01100101 01101100 01101100 01101111. Aplikacja odczytuje każdą liczbę i wyświetla na ekranie napis „Hello”. Jeśli następna liczba to 10, przechodzi do nowego wiersza przed napisaniem kolejnego tekstu. To taki prosty i stabilny proces.

Kiedy wybrać wyłącznie ASCII

Kiedy potrzebujesz najszerszego podstawowego wsparcia obejmującego zarówno stare narzędzia, jak i proste urządzenia.
Gdy przechowujesz identyfikatory, nazwy plików lub kody składające się wyłącznie z liter, cyfr, myślników i podkreśleń.
Kiedy tworzysz proste dzienniki i wiadomości maszyna-maszyna, które nie wymagają akcentów ani emoji.

Kluczowe symbole, których ludzie często używają

Myślnik - ma wartość 45. Podkreślenie _ ma wartość 95. Pomagają tworzyć przejrzyste nazwy plików.
Plus + wynosi 43. Równa się = wynosi 61. Wiele adresów URL i formuł z nich korzysta.
Znak ampersand & ma liczbę 38. Często jest używany w formularzach internetowych i ciągach zapytań.
Dwukropek : ma 58. Używa się go o godzinie 12:30.
Pod znakiem @ znajduje się 64. Używa się go w poczcie e-mail user@example.com.

Szybkie sprawdzenie pomysłów na bity za pomocą małych liczb

Pomyśl o liczbie 10. W systemie binarnym to 00001010. W systemie dziesiętnym to dziesięć. W kodzie ASCII 10 to LF, czyli znak nowej linii. To pokazuje, jak tę samą liczbę można przedstawić na różne sposoby. Znaczenie wynika ze sposobu, w jaki używamy tej liczby. Jeśli mówimy, że to kod znaku, to 10 oznacza LF. Jeśli mówimy, że to po prostu liczba jabłek, to jest to dziesięć jabłek. Kontekst ma znaczenie.

Łącząc to wszystko z jeszcze jednym przykładem

Prześlemy słowo „Słońce” z jednego urządzenia do drugiego. Kody to „S” 83, „u” 117, „n” 110. W systemie binarnym 83 to 01010011, 117 to 01110101, a 110 to 01101110. Bity przesyłane są jako sygnały „włącz” i „wyłącz”. Drugie urządzenie zamienia bity z powrotem na liczby. Następnie zamienia liczby na litery. Wyświetla słowo „Słońce ”. Jeśli następny kod to 32, oznacza to spację. Jeśli następny to 33, oznacza to „!”. Zasady pozostają niezmienne za każdym razem. Taka jest moc współdzielonego kodu.

ascii