Primer lesson: ascii

ASCII: Paano Nag-iimbak ang Mga Computer ng mga Sulat at Simbolo

Ang malaking ideya

Gumagamit ang mga computer ng mga numero. Gumagamit ang mga tao ng mga titik at simbolo. Kailangan natin ng tulay. ASCII ang tulay na iyon. Ginagawang numero ng ASCII ang bawat titik o simbolo. Iniimbak ng computer ang numero. Kapag nagbasa kami, ipinakita muli ng computer ang sulat. Ganito gumagana ang text sa maraming file at app.

Bakit kailangan ng mga computer ng code

Gumagana ang isang computer gamit ang kuryente. Nakikita nito ang dalawang estado. Naka-on at Naka-off. Tinatawag namin itong mga estado na bits . Ang bit ay 0 o 1. Maraming bit na magkakasama ay gumagawa ng mas malaking numero. Ang walong bit ay gumagawa ng isang byte . Sa bits, mabibilang natin. Sa pagbibilang, maaari nating pangalanan ang mga bagay. Gumagamit ang ASCII ng pagbibilang upang pangalanan ang mga titik at simbolo.

Ang isang bit ay gumagawa ng dalawang pagpipilian. Dalawang bit ay gumagawa ng apat na pagpipilian. Sa matematika, ang ideyang ito ay ipinapakita bilang \(\;2^n\) . Para sa \(n=7\) , nakakakuha kami \(2^7 = 128\) na mga pagpipilian. Para sa \(n=8\) , nakakakuha kami \(2^8 = 256\) na mga pagpipilian. Gumagamit ang ASCII ng 7 bits. Nagbibigay iyon ng 128 na pinangalanang item. Nang maglaon, gumawa ang mga tao ng 8-bit na set na may 256 na item. Ang mga iyon ay tinatawag na extended ASCII .

Ano ang ibig sabihin ng ASCII

Ang ASCII ay kumakatawan sa American Standard Code for Information Interchange . Nagsimula ito noong 1960s. Ginawa ito para sa mga unang printer, teletype, at computer. Binibigyan nito ang bawat titik, numero, espasyo, at ilang simbolo ng numero. Nagbibigay din ito ng mga espesyal na numero sa mga aksyon tulad ng bagong linya . Ang unang bersyon ay gumamit ng 7 bits, kaya mayroon itong mga numero mula 0 hanggang 127.

Ano ang nasa loob ng ASCII

Malaking titik : A hanggang Z. Gumagamit sila ng mga numero 65 hanggang 90.
Mga maliliit na titik : a hanggang z. Gumagamit sila ng mga numero 97 hanggang 122.
Mga Digit : 0 hanggang 9. Gumagamit sila ng mga numero 48 hanggang 57.
Space : Isang blangkong espasyo. Ito ay numero 32.
Bantas : ! , . ? : ; ' " ( ) at higit pa. Halimbawa, ! ay 33, kuwit ay 44, tuldok ay 46, tandang pananong ay 63.
Mga control character : Gumagawa ito ng mga aksyon. Ang mga ito ay mga numero 0 hanggang 31 at 127. Gumagawa sila ng mga bagay tulad ng pagsisimula ng bagong linya, pag-ring ng kampana, o paglipat ng cursor.

Mga simpleng halimbawa ng mapa

Ang 'A' ay 65.
Ang 'B' ay 66.
Ang 'Z' ay 90.
Ang 'a' ay 97.
Ang 'z' ay 122.
Ang '0' ay 48.
Ang '9' ay 57.
'' (space) ay 32.
'!' ay 33.

Pansinin ang isang bagay na maayos. Ang mga maliliit na titik ay 32 higit pa sa kanilang malalaking pares. Halimbawa, \(\;97 - 65 = 32\) . Kaya't ang 'a' ay 32 higit pa sa 'A'. Ang 'b' ay 32 higit pa sa 'B', at iba pa. Pinapadali ng pattern na ito ang ilang gawain sa computer.

Kontrolin ang mga character sa simpleng salita

NUL (0): Walang ibig sabihin. Ito ay nagmamarka ng pagtatapos sa ilang lumang sistema.
BEL (7): Maaari itong gumawa ng tunog ng beep. Mag-isip ng banayad na alerto.
BS Backspace (8): Umuurong ito ng isang hakbang.
TAB (9): Tumalon ito sa susunod na tab stop. Nakakatulong ito sa linya ng mga bagay.
LF Line Feed (10): Lumilipat ito pababa sa isang bagong linya.
CR Carriage Return (13): Umuusad ito pabalik sa simula ng linya. Sa mga lumang makinilya, bumalik ang karwahe sa kaliwa. Ginagawa iyon ng CR.
ESC Escape (27): Nagsisimula ito ng isang espesyal na command para sa mga lumang screen o printer.
DEL Delete (127): Minarkahan nito ang isang bagay bilang tinanggal sa napakalumang mga system.

Kapag pinindot mo ang Enter key, maaaring magpadala ang iyong computer ng LF, o CR, o pareho, depende sa system. Maraming mga tool sa internet ang gumagamit ng LF. Ang ilang mga lumang sistema ay gumamit ng CR at LF nang magkasama.

Decimal, binary, at hex view

Maaari tayong sumulat ng mga numero sa iba't ibang paraan. Ang desimal ay ang normal na paraan ng pagbibilang natin, gamit ang mga digit na 0 hanggang 9. Ang binary ay gumagamit lamang ng 0 at 1. Ang hex (hexadecimal) ay gumagamit ng 0 hanggang 9 at A hanggang F.

'A' : decimal 65, binary 01000001, hex 41. Sa math form: \(65_{(10)} = 01000001_{(2)} = 41_{(16)}\) .
'a' : decimal 97, binary 01100001, hex 61. Iyon ay \(97_{(10)} = 01100001_{(2)} = 61_{(16)}\) .
'0' : decimal 48, binary 00110000, hex 30. Iyon ay \(48_{(10)} = 00110000_{(2)} = 30_{(16)}\) .
Space : decimal 32, binary 00100000, hex 20. Iyon ay \(32_{(10)} = 00100000_{(2)} = 20_{(16)}\) .
Bagong linya (LF) : decimal 10, binary 00001010, hex 0A. Iyon ay \(10_{(10)} = 00001010_{(2)} = 0A_{(16)}\) .

Paano ginagawa ng binary ang 65 para sa 'A'? Tingnan ang mga bit sa 01000001. Ang pinakakaliwang bit ay para sa 128. Pagkatapos ay 64, 32, 16, 8, 4, 2, 1. 64 at 1 lang ang naka-on. Kaya \(01000001_{(2)} = 0\times128 + 1\times64 + 0\times32 + 0\times16 + 0\times8 + 0\times4 + 0\times2 + 1\times1 = 65\) .

Mula sa keyboard hanggang sa screen

Pindutin ang isang key. Ang keyboard ay nagpapadala ng isang code sa computer. Ginagawa ito ng system bilang isang numero ng character. Para sa maraming key, ang numerong iyon ay ang numero ng ASCII. Iniimbak ng app ang numero sa memorya. Kapag ipinakita nito ang teksto, hinahanap nito ang numero at iguguhit ang titik. Kapag nag-save ka, mapupunta ang mga numero sa file.

Paano naglalakbay ang text sa isang network

Isipin ang mensahe Hi! . Ang mga titik ay H, i, at !. Ang kanilang mga numero ng ASCII ay 72, 105, at 33. Sa binary, ang mga ito ay 01001000, 01101001, at 00100001. Ang network ay nagpapadala ng mga bit na ito. Binabasa ng kabilang panig ang mga piraso. Nakikita nito ang mga numero. Ipinapakita nito ang H, i, at ! muli. Ganyan gumagalaw ang mga simpleng text message.

Pinalawak na ASCII at mga pahina ng code

Gusto ng mga tao ng higit pang mga simbolo. Gusto nila ng mga titik tulad ng é, ñ, at ø. Gusto nila ng mga palatandaan ng pera tulad ng €. Ang 7-bit set ay mayroon lamang 128 na simbolo. Kaya gumamit ang mga tao ng 8 bits. Sa 8 bits, nakakakuha tayo \(2^8 = 256\) na mga simbolo. Ang nangungunang kalahati, mula 128 hanggang 255, ay ginamit para sa mga karagdagang titik at simbolo. Ngunit nagkaroon ng problema. Iba't ibang grupo ang pumili ng iba't ibang numero para sa mga karagdagang titik na iyon. Ang mga pagpipiliang ito ay tinatawag na mga pahina ng code .

Ang ISO-8859-1 (Latin-1) ay isang karaniwang hanay para sa mga titik sa Kanlurang Europa. Naglalagay ito sa 233.
Napakalapit ng Windows-1252 sa Latin-1, ngunit gumagamit ito ng ilang spot 128 hanggang 159 para sa mga bantas tulad ng “smart quotes”.

Dahil magkaiba ang mga page ng code, ang parehong numero ay maaaring magpakita ng ibang simbolo sa ibang computer. Ang paghahalo na ito ay tinatawag na mojibake . Parang mga kakaibang karakter. Ito ang isang dahilan kung bakit lumipat ang mundo sa Unicode.

ASCII at Unicode

Ang Unicode ay isang malaking pamantayan na maaaring magpakita ng maraming wika, simbolo ng matematika, at emoji. Mayroon itong espasyo para sa higit sa isang milyong simbolo. Mayroong maraming mga paraan upang mag-imbak ng Unicode. Ang isang tanyag na paraan ay ang UTF-8 .

Ang ASCII ay isang maliit na bahagi ng Unicode. Ang unang 128 Unicode code ay eksaktong tumutugma sa ASCII.
Sa UTF-8 , lahat ng ASCII character ay gumagamit ng isang byte at may parehong mga value na 0 hanggang 127. Kaya ang anumang ASCII text ay valid na UTF-8.
Ang mga titik na lampas sa ASCII ay tumatagal ng dalawa o higit pang byte sa UTF-8. Halimbawa, ang é sa UTF-8 ay dalawang byte. Hindi mo kailangang tandaan ang mga byte. Ang computer ang humahawak nito para sa iyo.

Ilang byte ang ginagamit ng text

Sa ASCII-only text, ang bawat character ay gumagamit ng isang byte. Kaya ang salitang pusa ay gumagamit ng 3 bytes. Ang pariralang hi mom ay may 6 na character kasama ang space, kaya gumagamit ito ng 6 bytes. Sa simpleng matematika, \(\textrm{ASCII byte} = \textrm{bilang ng mga character}\) .

Pag-uuri ng pagkakasunud-sunod gamit ang ASCII

Ang mga computer ay madalas na nag-uuri ng mga string ayon sa kanilang mga numero ng character. Ang pagkakasunud-sunod ng ASCII ay nagpapangkat ng mga bagay sa isang tiyak na paraan.

Ang mga digit na 0 hanggang 9 ay nauuna sa mga titik dahil ang 48 hanggang 57 ay mas mababa sa 65 at 97.
Ang malaking titik A hanggang Z ay nauuna sa maliit na titik a hanggang z dahil ang 65 hanggang 90 ay mas mababa sa 97 hanggang 122.

Nangangahulugan ito na nauuna ang Zoo sa mansanas kung ihahambing natin ang mga simpleng halaga ng ASCII. Ang pag-uuri ay ayon sa mga numero, hindi sa pamamagitan ng tunog ng mga salita.

Mga karaniwang ASCII code na dapat malaman

Space : 32
Bulalas ! : 33
Koma , : 44
Panahon . : 46
Slash / : 47
Mga Digit 0..9 : 48..57
Tutuldok : : 58
Semicolon ; : 59
tandang pananong ? : 63
Sa sign @ : 64
Malaking titik A..Z : 65..90
Kaliwang square bracket [ : 91
Backslash \ : 92
Kanang square bracket ] : 93
Maliit na titik a..z : 97..122
Curly braces { } : 123 at 125
Tilde ~ : 126

Pansinin ang ampersand ay &. Ang ASCII number nito ay 38. Ang plus sign + ay 43. Ang minus sign - ay 45.

Mga tunay na gamit sa pang-araw-araw na teknolohiya

Plain text file (.txt): Maraming simpleng tala ang gumagamit lamang ng ASCII.
Programming : Ang mga titik, digit, at simbolo sa code ay kadalasang nagmumula sa ASCII. Halimbawa, kung ginagamit ng mga pahayag ang mga letrang if, at mga kulot na braces { } mula sa ASCII.
Mga CSV file : Maraming mga talahanayan ng data na na-save bilang mga halagang pinaghihiwalay ng kuwit ang gumagamit ng mga kuwit at digit ng ASCII.
Mga pangunahing kaalaman sa email at web : Ang mga lumang email system ay gumagamit ng 7-bit na ASCII. Ang mga web address at maraming protocol command ay gumagamit ng mga ASCII na titik at digit.
Mga log at setting : Ang mga log ng system at config file ay kadalasang dumidikit sa ASCII upang madaling basahin ang mga ito kahit saan.

Mga pattern ng ASCII na nakakatulong

Upper to lower : Ang lowercase ay 32 higit pa sa uppercase para sa parehong titik. \(\;97 - 65 = 32\) , \(\;98 - 66 = 32\) , at iba pa.
Mga Digit : Ang digit na '0' ay 48, '1' ay 49, hanggang sa '9' na 57. Ang numero para sa isang digit ay \(48 + \textrm{ang halaga ng digit}\) . Halimbawa, \(48 + 7 = 55\) . Kaya ang '7' ay 55.

Paano gumawa ng mga larawan gamit ang ASCII

Gumagawa lamang ng mga character ang mga tao. Ito ay tinatawag na ASCII art . Narito ang isang maliit na mukha na ginawa gamit ang mga character na ASCII.

:-) Simpleng ngiti
(^_^) Friendly na mukha
o_O Nagulat

Ang bawat mukha ay mga character lamang tulad ng tutuldok, gitling, at panaklong. Walang kulay o hugis. Text na lang.

Kasaysayan sa madaling salita, sa simpleng salita

Ang ASCII ay lumago mula sa mga teletype at maagang mga computer. Noong 1963, isang unang bersyon ang napagkasunduan. Nakatulong ito sa maraming iba't ibang makina na makipag-usap sa isa't isa. Sa isang nakabahaging code, ang isang titik tulad ng A ay nangangahulugan ng parehong numero sa lahat ng dako. Pinadali nito ang pagpapadala ng mga mensahe at pag-print ng teksto.

Kapag hindi sapat ang ASCII

Ang ASCII ay mayroon lamang 128 na mga item. Iyan ay hindi sapat para sa lahat ng mga wika. Hindi ito maaaring magpakita ng Chinese, Hindi, Arabic, o marami pang ibang script. Hindi ito maaaring magpakita ng emoji. Hindi rin ito maaaring magpakita ng maraming simbolo ng matematika at musika. Para sa mga ito, ginagamit namin ang Unicode. Ang Unicode ay maaaring magpakita ng maraming mga script at simbolo. Ang UTF-8 ay isang paraan upang iimbak ang mga ito. Ang magandang balita ay gumagana ang lahat ng ASCII text sa loob ng UTF-8. Kaya madaling basahin ng mga modernong sistema ang lumang ASCII.

Paano pinangangasiwaan ng mga app ang ASCII ngayon

Inaasahan ng karamihan sa mga app ang UTF-8. Ngunit kapag ang isang file ay may lamang ASCII na mga titik at simbolo, ito ay mukhang pareho sa ilalim ng UTF-8. Gusto ito ng mga programmer dahil pinapanatili nitong simple ang mga bagay. Ang mga web page, API, at maraming tool ay gumagamit ng UTF-8, na kinabibilangan ng ASCII na walang pagbabago.

Maliit na bilang ng mga katotohanan at magiliw na matematika

Ang ASCII ay isang 7-bit na set. Ibig sabihin, hanggang \(2^7 = 128\) iba't ibang character. Ang isang pinahabang set na may 8 bits ay mayroong \(2^8 = 256\) na mga item. Kung ang iyong teksto ay may mga ASCII na character lamang, at mayroon itong \(n\) na mga character, pagkatapos ay gumagamit ito ng \(n\) byte. Sa isang maliit na mensahe tulad ng OK , \(n = 2\) . Kaya ito ay gumagamit ng 2 byte kapag naka-imbak bilang ASCII o UTF-8.

Nakikita ang mga nakatagong karakter

Ang ilang mga item sa ASCII ay gumagawa ng mga aksyon at hindi nagpi-print. Blangko ang mga pag-print sa espasyo. Pero ginagalaw ng LF at CR ang cursor. Tumalon ang TAB. Kapag nagbukas kami ng file sa isang espesyal na editor, maaari itong magpakita ng LF bilang \n. Ang simbolo na iyon ay hindi bahagi ng ASCII mismo. Ito ay isang paraan na ipinapakita ng editor ang line break sa iyo.

Mga simpleng halimbawa na parang totoo

Ang pag-type ng password ng Wi-Fi na may mga titik at digit ay gumagamit ng ASCII para sa mga simbolong iyon. Sumasang-ayon ang router at telepono sa mga numerong iyon.
Ang pagbibigay ng pangalan sa isang file na may lamang A hanggang Z, a hanggang z, 0 hanggang 9, at mga simbolo tulad ng - at _ ay pinapanatili itong simple at ligtas sa maraming system.
Ang pagsusulat ng isang paksa ng email na may mga karaniwang titik at bantas lamang ay tinitiyak na maipapasa ito ng mga lumang server.

Mga bagay na dapat bantayan

Mga kulot na quote kumpara sa mga tuwid na quote : Ang text mula sa mga magarbong editor ay maaaring gumamit ng “ ” sa halip na " ". Ang mga tuwid na panipi ay ASCII. Ang mga kulot na quotes ay hindi. Maaaring hindi sila maipakita nang tama sa mga lumang kasangkapan.
Iba't ibang mga pahina ng code : Ang isang file na na-save bilang Windows-1252 ay maaaring magpakita ng mali sa isang system na umaasa sa ISO-8859-1, o kabaliktaran. Gamitin ang UTF-8 para maiwasan ito. ASCII-only text ay magiging maayos sa alinmang paraan.
Mga hindi nakikitang pagkakaiba : Ang puwang (32) at isang TAB (9) ay parehong mukhang gaps. Pero magkaiba sila ng character. Mahalaga ito sa programming at data file.

Paano ginagamit ng mga device ang ASCII sa mga simpleng hakbang

Isipin ang isang gumagawa ng label na nagpi-print ng mga pangalan. Binabasa nito ang pangalan bilang mga character. Ginagawa nitong mga numero ng ASCII ang bawat karakter. Iniimbak nito ang mga numerong iyon sa memorya. Ito ay nagpi-print ng mga titik sa pamamagitan ng paghahanap kung paano gumuhit ng bawat numero. Kung nakakatugon ito sa LF (10), lilipat ito sa susunod na linya bago mag-print ng higit pa.

Paghahambing ng tatlong paraan ng pagsulat ng code ng isang character

Tingnan ang karakter na '!' muli. Maaari nating isulat ang code nito sa tatlong paraan. Decimal: 33. Binary: 00100001. Hex: 21. Sa anyong matematika, \(\;33_{(10)} = 00100001_{(2)} = 21_{(16)}\) . Ang bawat form ay pareho ang halaga. Pinipili ng mga app ang form na kailangan nila. Madalas basahin ng mga tao ang decimal. Mga computer tulad ng binary. Ang Hex ay isang maikling paraan para mabasa ng mga tao ang mga binary na numero.

Bakit nagtagal ang ASCII

Ang ASCII ay maliit at malinaw. Maaga itong ginawa. Maraming mga tool at protocol ang binuo dito. Dahil ang unang 128 Unicode code ay tumutugma sa ASCII, gumagana pa rin ang plano hanggang ngayon. Ito ang dahilan kung bakit maaari mong buksan ang mga lumang text file sa isang bagong telepono o laptop at makita ang parehong mga titik.

Mini walk-through: pagbabasa ng maikling file

Magbukas ng file na may text na Hello . Ang mga byte ay ang mga numero ng ASCII 72 101 108 108 111. Sa binary, ang mga iyon ay 01001000 01100101 01101100 01101100 01101111. Binabasa ng app ang bawat numero at iginuhit ang H ello sa screen. Kung ang susunod na numero ay 10, lilipat ito sa isang bagong linya bago gumuhit ng higit pang teksto. Ganito kasimple at matatag ang proseso.

Kailan pipiliin ang ASCII-only

Kapag kailangan mo ng pinakamalawak na pangunahing suporta sa mga lumang tool at simpleng device.
Kapag nag-imbak ka ng mga ID, pangalan ng file, o code na gumagamit lang ng mga titik, digit, gitling, at underscore.
Kapag gumawa ka ng mga simpleng log at machine-to-machine na mensahe na hindi nangangailangan ng mga accent o emoji.

Mga pangunahing simbolo na kadalasang ginagamit ng mga tao

Dash - ay 45. Underscore _ ay 95. Tumutulong sila sa paggawa ng maayos na mga pangalan ng file.
Plus + ay 43. Katumbas ng = ay 61. Maraming URL at formula ang gumagamit sa kanila.
Ampersand & is 38. Madalas itong ginagamit ng mga web form at query string.
Tutuldok : ay 58. Ginagamit ito ng oras tulad ng 12:30.
Sa sign @ ay 64. Ginagamit ito ng email user@example.com.

Mabilis na pagsusuri ng mga ideya na may maliliit na numero

Isipin ang numero 10. Sa binary, iyon ay 00001010. Sa decimal, ito ay sampu. Sa ASCII, ang 10 ay LF, ang line feed. Ipinapakita nito kung paano maipapakita ang parehong numero sa iba't ibang paraan. Ang kahulugan ay nagmula sa kung paano natin ginagamit ang numero. Kung sasabihin natin na ito ay isang character code, ang ibig sabihin ng 10 ay LF. Kung sasabihin natin na ito ay isang bilang lamang ng mga mansanas, kung gayon ito ay sampung mansanas. Mahalaga ang konteksto.

Pinagsasama-sama ang lahat ng ito sa isa pang halimbawa

Ipapadala namin ang salitang Sun mula sa isang device patungo sa isa pa. Ang mga code ay 'S' 83, 'u' 117, 'n' 110. Sa binary, 83 ay 01010011, 117 ay 01110101, 110 ay 01101110. Ang mga bit ay naglalakbay bilang On at Off signal. Ibinabalik ng ibang device ang mga bit sa mga numero. Pagkatapos ay ginagawang mga titik ang mga numero. Ipinapakita nito ang salitang Araw . Kung ang susunod na code ay 32, iyon ay isang puwang. Kung ang susunod ay 33, iyon ay '!'. Ang mga patakaran ay nananatiling pareho sa bawat oras. Iyan ang kapangyarihan ng isang nakabahaging code.

ascii