Primer lesson: ascii

ASCII: Si i ruajnë kompjuterët shkronjat dhe simbolet

Ideja e madhe

Kompjuterët përdorin numra. Njerëzit përdorin shkronja dhe simbole. Ne kemi nevojë për një urë. ASCII është ajo urë. ASCII e kthen çdo shkronjë ose simbol në një numër. Kompjuteri e ruan numrin. Kur lexojmë, kompjuteri e shfaq përsëri shkronjën. Kështu funksionon teksti në shumë skedarë dhe aplikacione.

Pse kompjuterët kanë nevojë për një kod

Një kompjuter punon me energji elektrike. Ai sheh dy gjendje. Ndezur dhe Fikur. Ne i quajmë këto gjendje bit . Një bit është një 0 ose një 1. Shumë bit së bashku krijojnë numra më të mëdhenj. Tetë bit krijojnë një bajt . Me bit, ne mund të numërojmë. Me numërim, ne mund të emërtojmë gjëra. ASCII përdor numërimin për të emërtuar shkronja dhe simbole.

Një bit bën dy zgjedhje. Dy bit bëjnë katër zgjedhje. Në matematikë, kjo ide tregohet si \(\;2^n\) . Për \(n=7\) , marrim \(2^7 = 128\) zgjedhje. Për \(n=8\) , marrim \(2^8 = 256\) zgjedhje. ASCII përdor 7 bit. Kjo jep 128 artikuj të emërtuar. Njerëzit më vonë krijuan grupe 8-bitëshe me 256 artikuj. Këto quhen ASCII të zgjeruar .

Çfarë do të thotë ASCII

ASCII qëndron për Kodin Standard Amerikan për Shkëmbimin e Informacionit . Filloi në vitet 1960. U krijua për printerët e hershëm, teletipet dhe kompjuterët. I jep çdo shkronje, numri, hapësire dhe disa simboleve një numër. Gjithashtu u jep numra të veçantë veprimeve si krijimi i një rreshti të ri . Versioni i parë përdorte 7 bit, kështu që kishte numra nga 0 deri në 127.

Çfarë ka brenda ASCII-së

Shkronja të mëdha : A deri në Z. Ato përdorin numra nga 65 deri në 90.
Shkronja të vogla : nga a në z. Ato përdorin numrat nga 97 deri në 122.
Shifrat : 0 deri në 9. Ata përdorin numrat 48 deri në 57.
Hapësirë : Një hapësirë bosh. Është numri 32.
Shenjat e pikësimit : ! , . ? : ; ' " ( ) dhe më shumë. Për shembull, ! është 33, presja është 44, pika është 46, pikëpyetja është 63.
Karakteret e kontrollit : Këta kryejnë veprime. Ato janë numra nga 0 deri në 31 dhe 127. Ato kryejnë gjëra të tilla si fillimi i një rreshti të ri, rënia e një zile ose lëvizja e kursorit.

Shembuj të thjeshtë hartash

'A' është 65.
'B' është 66.
'Z' është 90.
'a' është 97.
'z' është 122.
'0' është 48.
'9' është 57.
' ' (hapësira) është 32.
'!' është 33.

Vini re diçka interesante. Shkronjat e vogla janë 32 herë më shumë se çifti i tyre i shkronjave të mëdha. Për shembull, \(\;97 - 65 = 32\) . Pra, 'a' është 32 herë më shumë se 'A'. 'b' është 32 herë më shumë se 'B', e kështu me radhë. Ky model i bën disa detyra kompjuterike të lehta.

Kontrolloni karakteret me fjalë të thjeshta

NUL (0): Nuk do të thotë asgjë. Shënon fundin e disa sistemeve të vjetra.
BEL (7): Mund të bëjë një tingull bip. Mendoni për një alarm të lehtë.
BS Backspace (8): Lëviz një hap prapa.
TAB (9): Kalon te ndalesa tjetër e skedës. Kjo ndihmon në rreshtimin e gjërave.
LF Line Feed (10): Zhvendoset poshtë në një vijë të re.
Kthimi i Karrocës CR (13): Lëviz përsëri në fillim të rreshtit. Në makinat e vjetra të shkrimit, karroca kthehej majtas. CR e bën këtë.
ESC Escape (27): Nis një komandë të veçantë për ekranet ose printerët e vjetër.
DEL Delete (127): Shënon diçka si të fshirë në sisteme shumë të vjetra.

Kur shtypni tastin Enter, kompjuteri juaj mund të dërgojë LF, ose CR, ose të dyja, në varësi të sistemit. Shumë mjete interneti përdorin LF. Disa sisteme të vjetra përdornin CR dhe LF së bashku.

Pamje dhjetore, binare dhe heksadecimale

Ne mund t’i shkruajmë numrat në mënyra të ndryshme. Numrat dhjetorë janë mënyra normale me të cilën numërojmë, duke përdorur shifrat nga 0 deri në 9. Numrat binarë përdorin vetëm 0 dhe 1. Numrat heksadecimalë përdorin nga 0 deri në 9 dhe nga A deri në F.

'A' : decimal 65, binar 01000001, heksadeksadë 41. Në formën matematikore: \(65_{(10)} = 01000001_{(2)} = 41_{(16)}\) .
'a' : decimal 97, binar 01100001, heksadecimale 61. Kjo është \(97_{(10)} = 01100001_{(2)} = 61_{(16)}\) .
'0' : decimal 48, binar 00110000, heksadeksad 30. Kjo është \(48_{(10)} = 00110000_{(2)} = 30_{(16)}\) .
Hapësira : decimal 32, binar 00100000, heksadecimal 20. Kjo është \(32_{(10)} = 00100000_{(2)} = 20_{(16)}\) .
Rresht i ri (LF) : decimal 10, binar 00001010, hekzdeheksimal 0A. Kjo është \(10_{(10)} = 00001010_{(2)} = 0A_{(16)}\) .

Si e bën binar 65 për 'A'? Shikoni bitët në 01000001. Biti më i majtë është për 128. Pastaj 64, 32, 16, 8, 4, 2, 1. Vetëm 64 dhe 1 janë të aktivizuar. Pra \(01000001_{(2)} = 0\times128 + 1\times64 + 0\times32 + 0\times16 + 0\times8 + 0\times4 + 0\times2 + 1\times1 = 65\) .

Nga tastiera në ekran

Shtypni një tast. Tastiera i dërgon një kod kompjuterit. Sistemi e shndërron atë në një numër karakteri. Për shumë taste, ai numër është numri ASCII. Aplikacioni e ruan numrin në memorie. Kur shfaq tekstin, ai e kërkon numrin dhe e vizaton shkronjën. Kur e ruani, numrat futen në skedar.

Si udhëton teksti nëpër një rrjet

Mendoni për mesazhin Përshëndetje!. Shkronjat janë H, i dhe !. Numrat e tyre ASCII janë 72, 105 dhe 33. Në sistemin binar, ato janë 01001000, 01101001 dhe 00100001. Rrjeti i dërgon këto bit. Ana tjetër i lexon bit-et. I sheh numrat. Tregon përsëri H, i dhe !. Kështu lëvizin mesazhet e thjeshta me tekst.

ASCII i zgjeruar dhe faqet e kodit

Njerëzit donin më shumë simbole. Ata donin shkronja si é, ñ dhe ø. Ata donin shenja parash si €. Seti 7-bitësh kishte vetëm 128 simbole. Pra, njerëzit përdorën 8 bit. Me 8 bit, marrim simbole \(2^8 = 256\) . Gjysma e sipërme, nga 128 në 255, u përdor për shkronja dhe simbole shtesë. Por kishte një problem. Grupe të ndryshme zgjodhën numra të ndryshëm për ato shkronja shtesë. Këto zgjedhje quhen faqe kodi .

ISO-8859-1 (Latin-1) është një grup i zakonshëm shkronjash për Evropën Perëndimore. Ai e vendos é në 233.
Windows-1252 është shumë afër Latin-1, por përdor disa pika 128 deri në 159 për shenja pikësimi si "thonjat inteligjente".

Meqenëse faqet e kodit ndryshojnë, i njëjti numër mund të shfaqë një simbol të ndryshëm në një kompjuter tjetër. Kjo ngatërrim quhet mojibake . Duket si karaktere të çuditshme. Kjo është një arsye pse bota kaloi në Unicode.

ASCII dhe Unicode

Unicode është një standard i madh që mund të shfaqë shumë gjuhë, simbole matematikore dhe emoji. Ka hapësirë për më shumë se një milion simbole. Ka shumë mënyra për të ruajtur Unicode-in. Një mënyrë popullore është UTF-8 .

ASCII është një pjesë e vogël e Unicode. 128 kodet e para të Unicode përputhen saktësisht me ASCII.
Në UTF-8 , të gjithë karakteret ASCII përdorin një bajt dhe kanë të njëjtat vlera nga 0 deri në 127. Pra, çdo tekst ASCII është tashmë i vlefshëm në UTF-8.
Shkronjat përtej ASCII marrin dy ose më shumë bajt në UTF-8. Për shembull, é në UTF-8 është dy bajt. Nuk keni nevojë t'i mbani mend bajtet. Kompjuteri i përpunon ato për ju.

Sa bajt përdor teksti

Me tekst vetëm në ASCII, çdo karakter përdor një bajt. Pra, fjala "cat" përdor 3 bajt. Fraza "hi mom" ka 6 karaktere duke përfshirë hapësirën, kështu që përdor 6 bajt. Në matematikë të thjeshtë, \(\textrm{Bajtet ASCII} = \textrm{numri i karaktereve}\) .

Renditja e renditjes me ASCII

Kompjuterët shpesh i rendisin vargjet sipas numrave të karaktereve. Renditja ASCII i grupon gjërat në një mënyrë të caktuar.

Shifrat nga 0 deri në 9 vijnë para shkronjave sepse numrat nga 48 deri në 57 janë më të vegjël se 65 dhe 97.
Shkronjat e mëdha nga A deri në Z vijnë para shkronjave të vogla nga a deri në z, sepse numrat nga 65 deri në 90 janë më të vegjël se numrat nga 97 deri në 122.

Kjo do të thotë që Zoo vjen para apple nëse krahasojmë vlerat e thjeshta ASCII. Renditja bëhet sipas numrave, jo sipas mënyrës se si tingëllojnë fjalët.

Kodet e zakonshme ASCII që duhen ditur

Hapësira : 32
Pasthirrmë !: 33
Presje ,: 44
Periudha .: 46
Slash / : 47
Shifrat 0..9 : 48..57
Zorra e trashë : : 58
Pikëpresje ; : 59
Pikëpyetje ?: 63
Në shenjën @: 64
Shkronja të mëdha A..Zh : 65..90
Kllapa katrore e majtë [: 91
Kthim prapa \: 92
Kllapa katrore e djathtë ] : 93
Shkronja të vogla a..z : 97..122
Ortodonta kaçurrela { } : 123 dhe 125
Tildë ~: 126

Vini re se simboli "sandi" është &. Numri i tij ASCII është 38. Shenja plus + është 43. Shenja minus - është 45.

Përdorime të vërteta në teknologjinë e përditshme

Skedarë teksti të thjeshtë (.txt): Shumë shënime të thjeshta përdorin vetëm ASCII.
Programimi : Shkronjat, shifrat dhe simbolet në kod shpesh vijnë nga ASCII. Për shembull, deklaratat "if" përdorin shkronjat "if" dhe kllapat e rrumbullakëta { } nga ASCII.
Skedarët CSV : Shumë tabela të dhënash të ruajtura si vlera të ndara me presje përdorin presje dhe shifra ASCII.
Bazat e email-it dhe uebit : Sistemet e vjetra të email-it përdornin ASCII 7-bitësh. Adresat e uebit dhe shumë komanda protokolli përdorin shkronja dhe shifra ASCII.
Logjet dhe cilësimet : Logjet e sistemit dhe skedarët e konfigurimit shpesh përmbajnë ASCII, kështu që janë të lehta për t'u lexuar kudo.

Modelet ASCII që ndihmojnë

Nga shkronja e madhe në të vogël : Shkronjat e vogla janë 32 herë më shumë se shkronjat e mëdha për të njëjtën shkronjë. \(\;97 - 65 = 32\) , \(\;98 - 66 = 32\) e kështu me radhë.
Shifrat : Shifra '0' është 48, '1' është 49, deri në '9' që është 57. Numri për një shifër është \(48 + \textrm{vlera e shifrës}\) . Për shembull, \(48 + 7 = 55\) . Pra, '7' është 55.

Si mund të krijohen imazhe me ASCII

Njerëzit krijojnë fotografi duke përdorur vetëm karaktere. Kjo quhet art ASCII . Ja një fytyrë e vogël e bërë me karaktere ASCII.

:-) Buzëqeshje e thjeshtë
(^_^) Fytyrë miqësore
o_O I habitur

Çdo fytyrë është thjesht karaktere si dy pika, vizë dhe kllapa. Pa ngjyra ose forma. Vetëm tekst.

Historia shkurt, me fjalë të thjeshta

ASCII u zhvillua nga teletipet dhe kompjuterët e hershëm. Në vitin 1963, u ra dakord për një version të parë. Ai ndihmoi shumë makina të ndryshme të komunikonin me njëra-tjetrën. Me një kod të përbashkët, një shkronjë si A nënkuptonte të njëjtin numër kudo. Kjo e bëri më të lehtë dërgimin e mesazheve dhe printimin e tekstit.

Kur ASCII nuk është i mjaftueshëm

ASCII ka vetëm 128 elementë. Kjo nuk është e mjaftueshme për të gjitha gjuhët. Nuk mund të tregojë kinezishten, hindishten, arabishten ose shumë alfabetë të tjera. Nuk mund të tregojë emoji. Gjithashtu, nuk mund të tregojë shumë simbole matematikore dhe muzikore. Për këto, ne përdorim Unicode. Unicode mund të tregojë shumë alfabetë dhe simbole. UTF-8 është një mënyrë për t'i ruajtur ato. Lajmi i mirë është se i gjithë teksti ASCII funksionon brenda UTF-8. Pra, sistemet moderne mund ta lexojnë ASCII-në e vjetër lehtësisht.

Si e trajtojnë aplikacionet ASCII sot

Shumica e aplikacioneve presin UTF-8. Por kur një skedar ka vetëm shkronja dhe simbole ASCII, ai duket njësoj edhe nën UTF-8. Programuesve u pëlqen kjo sepse i mban gjërat të thjeshta. Faqet e internetit, API-të dhe shumë mjete përdorin UTF-8, i cili përfshin ASCII pa ndryshime.

Faktet për numrat e vegjël dhe matematika miqësore

ASCII është një bashkësi 7-bitëshe. Kjo do të thotë deri në \(2^7 = 128\) karaktere të ndryshme. Një bashkësi e zgjeruar me 8 bit ka \(2^8 = 256\) elementë. Nëse teksti juaj ka vetëm karaktere ASCII dhe ka \(n\) karaktere, atëherë ai përdor \(n\) bajt. Në një mesazh të vogël si OK , \(n = 2\) . Pra, përdor 2 bajt kur ruhet si ASCII ose UTF-8.

Duke parë personazhe të fshehur

Disa elementë ASCII kryejnë veprime dhe nuk shtypen. Hapësira shtypet bosh. Por LF dhe CR lëvizin kursorin. TAB kërcen. Kur hapim një skedar në një redaktues special, ai mund ta shfaqë LF si \n. Ky simbol nuk është pjesë e vetë ASCII. Është një mënyrë që redaktuesi ju tregon ndërprerjen e rreshtit.

Shembuj të thjeshtë që duken realë

Shkrimi i një fjalëkalimi Wi-Fi me shkronja dhe shifra përdor ASCII për ato simbole. Routeri dhe telefoni bien dakord për këto numra.
Emërtimi i një skedari vetëm me shkronjat A deri në Z, a deri në z, 0 deri në 9 dhe simbole si - dhe _ e mban atë të thjeshtë dhe të sigurt në shumë sisteme.
Shkrimi i subjektit të një email-i vetëm me shkronja dhe shenja pikësimi standarde siguron që serverët e vjetër mund ta kalojnë atë.

Gjëra për të cilat duhet të keni kujdes

Citate të lakuara kundrejt citateve të drejta : Teksti nga redaktorët e sofistikuar mund të përdorë “ ” në vend të “ ”. Citatet e drejta janë ASCII. Citatet e lakuara nuk janë. Ato mund të mos shfaqen saktë në mjetet e vjetra.
Faqe të ndryshme kodi : Një skedar i ruajtur si Windows-1252 mund të shfaqet gabim në një sistem që pret ISO-8859-1, ose anasjelltas. Përdorni UTF-8 për ta shmangur këtë. Teksti vetëm ASCII do të jetë në rregull në të dyja rastet.
Dallime të padukshme : Një hapësirë (32) dhe një TAB (9) duken si boshllëqe. Por ato janë karaktere të ndryshme. Kjo ka rëndësi në programim dhe në skedarët e të dhënave.

Si e përdorin pajisjet ASCII në hapa të thjeshtë

Imagjinoni një pajisje për krijimin e etiketave që shtyp emra. Ai i lexon emrat si karaktere. Ai i kthen çdo karakter në numra ASCII. Ai i ruan këto numra në memorie. Ai shtyp shkronjat duke kërkuar se si të vizatohet secili numër. Nëse plotëson LF (10), ai kalon në rreshtin tjetër përpara se të shtypë më shumë.

Krahasimi i tre mënyrave për të shkruar kodin e një personazhi

Shikoni përsëri karakterin '!'. Mund ta shkruajmë kodin e tij në tre mënyra. Decimal: 33. Binar: 00100001. Heksadecimal: 21. Në formën matematikore, \(\;33_{(10)} = 00100001_{(2)} = 21_{(16)}\) . Çdo formë ka të njëjtën vlerë. Aplikacionet zgjedhin formën që u nevojitet. Njerëzit shpesh lexojnë numrat decimalë. Kompjuterët pëlqejnë numrat binarë. Heksadecimal është një mënyrë e shkurtër për njerëzit për të lexuar numrat binarë.

Pse ASCII zgjati kaq gjatë

ASCII është i vogël dhe i qartë. U krijua herët. Shumë mjete dhe protokolle u ndërtuan mbi të. Meqenëse 128 kodet e para të Unicode përputhen me ASCII, plani funksionon edhe sot. Kjo është arsyeja pse mund të hapni skedarë teksti shumë të vjetër në një telefon ose laptop të ri dhe të shihni të njëjtat shkronja.

Shfletim i shkurtër: leximi i një skedari të shkurtër

Hapni një skedar me tekstin Hello . Bajtet janë numrat ASCII 72 101 108 108 111. Në binar, ato janë 01001000 01100101 01101100 01101100 01101111. Aplikacioni lexon çdo numër dhe vizaton "Hello" në ekran. Nëse numri tjetër është 10, ai lëviz në një rresht të ri përpara se të vizatojë më shumë tekst. Ja sa i thjeshtë dhe i qëndrueshëm është procesi.

Kur të zgjidhni vetëm ASCII

Kur keni nevojë për mbështetjen më të gjerë bazë për mjetet e vjetra dhe pajisjet e thjeshta.
Kur ruani ID, emra skedarësh ose kode që përdorin vetëm shkronja, shifra, viza dhe nënvizime.
Kur krijoni regjistra të thjeshtë dhe mesazhe makinë-me-makinë që nuk kanë nevojë për thekse ose emoji.

Simbolet kryesore që njerëzit i përdorin shpesh

Vija ndarëse - është 45. Vija nënvizuese _ është 95. Ato ndihmojnë në krijimin e emrave të bukur të skedarëve.
Plus + është 43. Barabartë me = është 61. Shumë URL dhe formula i përdorin ato.
Simboli & është 38. Format e uebit dhe vargjet e pyetjeve shpesh e përdorin atë.
Dy pika : është 58. Koha është si 12:30.
Shenja @ është 64. Email user@example.com e përdor atë.

Kontroll i shpejtë i ideve të biteve me numra të vegjël

Mendoni për numrin 10. Në sistemin binar, ky është 00001010. Në sistemin decimal, është dhjetë. Në sistemin ASCII, 10 është LF, prerja e rreshtit. Kjo tregon se si i njëjti numër mund të shfaqet në mënyra të ndryshme. Kuptimi vjen nga mënyra se si e përdorim numrin. Nëse themi se është një kod karakteri, atëherë 10 do të thotë LF. Nëse themi se është vetëm një numërim mollësh, atëherë janë dhjetë mollë. Konteksti ka rëndësi.

Duke i bashkuar të gjitha me një shembull tjetër

Do ta dërgojmë fjalën Sun nga një pajisje në tjetrën. Kodet janë 'S' 83, 'u' 117, 'n' 110. Në sistemin binar, 83 është 01010011, 117 është 01110101, 110 është 01101110. Bitet udhëtojnë si sinjale On dhe Off. Pajisja tjetër i kthen bitet përsëri në numra. Pastaj i kthen numrat në shkronja. Tregon fjalën Sun. Nëse kodi tjetër është 32, kjo është një hapësirë. Nëse kodi tjetër është 33, kjo është '!'. Rregullat mbeten të njëjta çdo herë. Kjo është fuqia e një kodi të përbashkët.

ascii