Primer lesson: ascii

ASCII: Bilgisayarlar Harfleri ve Sembolleri Nasıl Depolar?

Büyük fikir

Bilgisayarlar sayıları kullanır. İnsanlar harfleri ve sembolleri kullanır. Bir köprüye ihtiyacımız var. İşte o köprü ASCII'dir . ASCII, her harfi veya sembolü bir sayıya dönüştürür. Bilgisayar sayıyı depolar. Okuduğumuzda, bilgisayar harfi tekrar gösterir. Birçok dosya ve uygulamada metin bu şekilde çalışır.

Bilgisayarların neden bir koda ihtiyacı var?

Bir bilgisayar elektrikle çalışır. İki durum görür: Açık ve Kapalı. Bu durumlara bit diyoruz. Bir bit, 0 veya 1'dir. Birçok bit bir araya geldiğinde daha büyük sayılar oluşturur. Sekiz bit bir bayt oluşturur. Bitlerle sayabiliriz. Saymayla ise nesneleri isimlendirebiliriz. ASCII, harfleri ve sembolleri isimlendirmek için saymayı kullanır.

Bir bit iki seçenek sunar. İki bit dört seçenek sunar. Matematikte bu fikir \(\;2^n\) olarak gösterilir. \(n=7\) için \(2^7 = 128\) seçenek elde ederiz. \(n=8\) için \(2^8 = 256\) seçenek elde ederiz. ASCII 7 bit kullanır. Bu da 128 adlandırılmış öğe verir. Daha sonra insanlar 256 öğeli 8 bitlik kümeler oluşturdular. Bunlara genişletilmiş ASCII adı verildi.

ASCII ne anlama geliyor?

ASCII, Amerikan Bilgi Değişimi Standart Kodu'nun kısaltmasıdır. 1960'larda ortaya çıkmıştır. İlk yazıcılar, teletipler ve bilgisayarlar için geliştirilmiştir. Her harfe, rakama, boşluğa ve bazı sembollere bir sayı verir. Ayrıca yeni satır gibi eylemlere özel numaralar verir. İlk sürümü 7 bit kullanıyordu, yani 0 ile 127 arasında sayılar içeriyordu.

ASCII'nin içinde ne var?

Büyük harfler : A'dan Z'ye. 65'ten 90'a kadar rakamlar kullanılır.
Küçük harfler : a'dan z'ye. 97'den 122'ye kadar rakamlar kullanılır.
Rakamlar : 0'dan 9'a kadar. 48'den 57'ye kadar olan rakamları kullanırlar.
Boşluk : Boşluk. Sayı 32'dir.
Noktalama işaretleri : ! , . ? : ; ' " ( ) ve daha fazlası. Örneğin, ! 33, virgül 44, nokta 46, soru işareti 63'tür.
Kontrol karakterleri : Bunlar eylemler gerçekleştirir. 0'dan 31'e ve 127'ye kadar olan sayılardır. Yeni bir satır başlatmak, zil sesi çalmak veya imleci hareket ettirmek gibi işlevleri yerine getirirler.

Basit harita örnekleri

'A' 65'tir.
'B' 66'dır.
'Z' 90'dır.
'a' 97'dir.
'z' 122'dir.
'0' 48'dir.
'9' 57'dir.
' ' (boşluk) 32'dir.
'!' 33'tür.

Dikkat çekici bir şey fark ettiniz mi? Küçük harfler, büyük harf çiftlerinden 32 fazladır. Örneğin, \(\;97 - 65 = 32\) . Yani 'a', 'A'dan 32 fazladır. 'b', 'B'den 32 fazladır ve bu böyle devam eder. Bu kalıp, bazı bilgisayar işlemlerini kolaylaştırır.

Kontrol karakterlerini sade bir dille yazın

NUL (0): Hiçbir şey ifade etmez. Bazı eski sistemlerde sonun geldiğini belirtir.
BEL (7): Bip sesi çıkarabilir. Nazik bir uyarı olduğunu düşünün.
BS Backspace (8): Bir adım geri gider.
TAB (9): Bir sonraki sekme durağına atlar. Bu, her şeyin sıralanmasına yardımcı olur.
LF Satır Beslemesi (10): Yeni bir satıra geçer.
CR Satır Başı (13): Satırın başına döner. Eski daktilolarda, satır sola dönerdi. CR bunu yapar.
ESC Escape (27): Eski ekranlar veya yazıcılar için özel bir komutu başlatır.
DEL Delete (127): Çok eski sistemlerde bir şeyi silinmiş olarak işaretler.

Enter tuşuna bastığınızda, bilgisayarınız sisteme bağlı olarak LF, CR veya her ikisini birden gönderebilir. Birçok internet aracı LF kullanır. Bazı eski sistemler CR ve LF'yi birlikte kullanırdı.

Ondalık, ikili ve onaltılık görünümler

Sayıları farklı şekillerde yazabiliriz. Ondalık sayı sistemi , 0'dan 9'a kadar olan rakamları kullanarak normal sayma yöntemimizdir. İkili sayı sisteminde yalnızca 0 ve 1 kullanılır. Onaltılık sayı sisteminde ise 0'dan 9'a ve A'dan F'ye kadar olan rakamlar kullanılır.

'A' : ondalık 65, ikili 01000001, onaltılık 41. Matematiksel olarak: \(65_{(10)} = 01000001_{(2)} = 41_{(16)}\) .
'a' : ondalık 97, ikili 01100001, onaltılık 61. Yani \(97_{(10)} = 01100001_{(2)} = 61_{(16)}\) .
'0' : ondalık 48, ikili 00110000, onaltılık 30. Yani \(48_{(10)} = 00110000_{(2)} = 30_{(16)}\) .
Boşluk : ondalık 32, ikili 00100000, onaltılık 20. Yani \(32_{(10)} = 00100000_{(2)} = 20_{(16)}\) .
Yeni satır (LF) : ondalık 10, ikili 00001010, onaltılık 0A. Yani \(10_{(10)} = 00001010_{(2)} = 0A_{(16)}\) .

'A' için ikili sayı sistemi nasıl 65 yapar? 01000001'deki bitlere bakın. En soldaki bit 128 içindir. Sonra 64, 32, 16, 8, 4, 2, 1 gelir. Sadece 64 ve 1 açıktır. Yani \(01000001_{(2)} = 0\times128 + 1\times64 + 0\times32 + 0\times16 + 0\times8 + 0\times4 + 0\times2 + 1\times1 = 65\) .

Klavyeden ekrana

Bir tuşa basın. Klavye bilgisayara bir kod gönderir. Sistem bunu bir karakter numarasına dönüştürür. Çoğu tuş için bu sayı ASCII numarasıdır. Uygulama, numarayı belleğe kaydeder. Metni görüntülerken, numarayı arar ve harfi çizer. Kaydettiğinizde, numaralar dosyaya eklenir.

Metin bir ağ üzerinden nasıl seyahat eder?

"Hi!" mesajını düşünün. Harfler H, i ve !'dir. ASCII numaraları 72, 105 ve 33'tür. İkili sistemde ise 01001000, 01101001 ve 00100001'dir. Ağ bu bitleri gönderir. Karşı taraf bitleri okur. Sayıları görür. Tekrar H, i ve ! gösterir. Basit metin mesajları işte böyle hareket eder.

Genişletilmiş ASCII ve kod sayfaları

İnsanlar daha fazla sembol istiyordu. é, ñ ve ø gibi harfleri istiyorlardı. € gibi para sembolleri istiyorlardı. 7 bitlik kümede yalnızca 128 sembol vardı. Bu yüzden insanlar 8 bit kullanıyordu. 8 bit ile \(2^8 = 256\) sembol elde ederiz. 128'den 255'e kadar olan üst yarı, ekstra harfler ve semboller için kullanılıyordu. Ancak bir sorun vardı. Farklı gruplar bu ekstra harfler için farklı sayılar seçiyordu. Bu seçimlere kod sayfaları denir.

ISO-8859-1 (Latin-1), Batı Avrupa harfleri için yaygın bir kümedir. é'yi 233'e koyar.
Windows-1252, Latin-1'e çok yakındır, ancak "akıllı tırnak işaretleri" gibi noktalama işaretleri için 128 ile 159 arasındaki bazı noktaları kullanır.

Kod sayfaları farklı olduğundan, aynı sayı başka bir bilgisayarda farklı bir sembol gösterebilir. Bu karışıklığa mojibake adı verilir. Garip karakterler gibi görünür. Dünyanın Unicode'a geçmesinin sebeplerinden biri de budur.

ASCII ve Unicode

Unicode, birçok dili, matematik sembolünü ve emojiyi gösterebilen büyük bir standarttır. Bir milyondan fazla sembol için alan sunar. Unicode'u depolamanın birçok yolu vardır. Popüler bir yöntem de UTF-8'dir .

ASCII, Unicode'un küçük bir parçasıdır. İlk 128 Unicode kodu ASCII ile birebir eşleşir.
UTF-8'de tüm ASCII karakterleri bir bayt kullanır ve 0 ile 127 arasında aynı değerlere sahiptir. Dolayısıyla herhangi bir ASCII metni zaten geçerli bir UTF-8'dir.
ASCII dışındaki harfler UTF-8'de iki veya daha fazla bayt alır. Örneğin, UTF-8'deki é iki bayttır. Baytları hatırlamanıza gerek yoktur. Bilgisayar bunu sizin için halleder.

Metin kaç bayt kullanır?

Yalnızca ASCII metinlerde, her karakter bir bayt kullanır. Yani "cat" kelimesi 3 bayt kullanır. " Hi mom" ifadesi boşluk dahil 6 karakter içerdiğinden, 6 bayt kullanır. Basit bir matematikle, \(\textrm{ASCII baytları} = \textrm{karakter sayısı}\) .

ASCII ile sıralama düzeni

Bilgisayarlar genellikle dizeleri karakter numaralarına göre sıralar. ASCII sıralaması ise öğeleri belirli bir şekilde gruplandırır.

0'dan 9'a kadar olan rakamlar harflerden önce gelir çünkü 48'den 57'ye kadar olan rakamlar 65 ve 97'den küçüktür.
Büyük harfli A'dan Z'ye sayılar, küçük harfli A'dan Z'ye sayılardan önce gelir çünkü 65'ten 90'a kadar olan sayılar, 97'den 122'ye kadar olan sayılardan küçüktür.

Bu, basit ASCII değerlerini karşılaştırdığımızda Zoo'nun elmadan önce geldiği anlamına geliyor. Sıralama, kelimelerin sesine göre değil, sayılara göre yapılıyor.

Bilmeniz gereken yaygın ASCII kodları

Alan : 32
Ünlem ! : 33
Virgül , : 44
Dönem . : 46
Eğik çizgi / : 47
Rakamlar 0..9 : 48..57
Kolon : : 58
Noktalı virgül ; : 59
Soru işareti ? : 63
@ işaretinde : 64
Büyük Harf A..Z : 65..90
Sol köşeli parantez [ : 91
Ters eğik çizgi \ : 92
Sağ köşeli parantez ] : 93
Küçük harf a..z : 97..122
Kıvrımlı parantezler { } : 123 ve 125
Tilde ~ : 126

Dikkat edin, ve işareti &'dir. ASCII numarası 38'dir. Artı işareti + 43'tür. Eksi işareti - ise 45'tir.

Günlük teknolojide gerçek kullanımlar

Düz metin dosyaları (.txt): Birçok basit not yalnızca ASCII kullanır.
Programlama : Kodlardaki harfler, rakamlar ve semboller genellikle ASCII'den gelir. Örneğin, if ifadeleri ASCII'den if harflerini ve { } süslü parantezleri kullanır.
CSV dosyaları : Virgülle ayrılmış değerler olarak kaydedilen birçok veri tablosu ASCII virgülleri ve rakamları kullanır.
E-posta ve web temelleri : Eski e-posta sistemleri 7 bitlik ASCII kullanıyordu. Web adresleri ve birçok protokol komutu ASCII harflerini ve rakamlarını kullanır.
Günlükler ve ayarlar : Sistem günlükleri ve yapılandırma dosyaları genellikle ASCII'ye sadık kalır, bu nedenle her yerde okunmaları kolaydır.

Yardımcı olan ASCII desenleri

Büyükten küçüğe : Aynı harf için küçük harf, büyük harften 32 fazladır. \(\;97 - 65 = 32\) , \(\;98 - 66 = 32\) , vb.
Rakamlar : '0' rakamı 48, '1' rakamı 49, '9' rakamı ise 57'dir. Bir rakamın değeri \(48 + \textrm{rakam değeri}\) dir. Örneğin, \(48 + 7 = 55\) . Dolayısıyla '7' rakamı 55'tir.

ASCII ile resimler nasıl oluşturulabilir?

İnsanlar sadece karakterler kullanarak resim yaparlar. Buna ASCII sanatı denir. İşte ASCII karakterleriyle yapılmış minik bir yüz.

:-) Basit bir gülümseme
(^_^) Dost canlısı yüz
o_O Şaşırmış

Her yüz, iki nokta üst üste, tire ve parantez gibi karakterlerden oluşuyor. Renk veya şekil yok. Sadece metin.

Kısaca, basit sözcüklerle tarih

ASCII, teletiplerden ve ilk bilgisayarlardan türedi. 1963'te ilk sürümü üzerinde anlaşmaya varıldı. Birçok farklı makinenin birbiriyle iletişim kurmasına yardımcı oldu. Tek bir ortak kodla, A gibi bir harf her yerde aynı sayıyı ifade ediyordu. Bu da mesaj göndermeyi ve metin yazdırmayı kolaylaştırdı.

ASCII yeterli olmadığında

ASCII yalnızca 128 öğeye sahiptir. Bu, tüm diller için yeterli değildir. Çince, Hintçe, Arapça veya diğer birçok alfabeyi gösteremez. Emojileri gösteremez. Ayrıca birçok matematik ve müzik sembolünü de gösteremez. Bunlar için Unicode kullanırız. Unicode birçok alfabe ve sembolü gösterebilir. UTF-8 bunları depolamanın bir yoludur. İyi haber şu ki, tüm ASCII metinleri UTF-8 içinde çalışır. Bu nedenle modern sistemler eski ASCII'leri kolayca okuyabilir.

Uygulamalar bugün ASCII'yi nasıl işliyor?

Çoğu uygulama UTF-8 bekler. Ancak bir dosya yalnızca ASCII harfleri ve sembolleri içeriyorsa, UTF-8 altında da aynı görünür. Programcılar bunu tercih eder çünkü işleri basitleştirir. Web sayfaları, API'ler ve birçok araç, ASCII'yi değişiklik yapmadan içeren UTF-8 kullanır.

Küçük sayı gerçekleri ve dostça matematik

ASCII 7 bitlik bir kümedir. Bu \(2^7 = 128\) farklı karaktere kadar anlamına gelir. 8 bitlik genişletilmiş bir küme \(2^8 = 256\) öğeye sahiptir. Metniniz yalnızca ASCII karakterleri içeriyorsa ve \(n\) karakter içeriyorsa, \(n\) bayt kullanır. OK gibi küçük bir mesajda \(n = 2\) kullanılır. Bu nedenle, ASCII veya UTF-8 olarak depolandığında 2 bayt kullanır.

Gizli karakterleri görmek

Bazı ASCII öğeleri işlem yapar ve yazdırılmaz. Boşluk tuşu boş yazdırır. Ancak LF ve CR imleci hareket ettirir. TAB tuşu atlar. Bir dosyayı özel bir düzenleyicide açtığımızda, LF'yi \n olarak gösterebilir. Bu sembol ASCII'nin bir parçası değildir. Düzenleyicinin satır sonunu size gösterme şeklidir.

Gerçek hissettiren sade örnekler

Harf ve rakamlardan oluşan bir Wi-Fi şifresi yazarken, bu semboller için ASCII kullanılır. Yönlendirici ve telefon bu sayılar üzerinde anlaşır.
Bir dosyayı yalnızca A'dan Z'ye, a'dan z'ye, 0'dan 9'a ve - ve _ gibi sembollerle adlandırmak, birçok sistemde basit ve güvenli olmasını sağlar.
E-posta konusunu yalnızca standart harfler ve noktalama işaretleriyle yazmak, eski sunucuların e-postayı iletebilmesini sağlar.

Dikkat edilmesi gereken şeyler

Kıvrımlı tırnak işaretleri ve düz tırnak işaretleri : Şık editörlerden gelen metinler " " yerine " " kullanabilir. Düz tırnak işaretleri ASCII'dir. Kıvrımlı tırnak işaretleri ASCII değildir. Eski araçlarda doğru şekilde görüntülenmeyebilirler.
Farklı kod sayfaları : Windows-1252 olarak kaydedilen bir dosya, ISO-8859-1 bekleyen bir sistemde yanlış görünebilir veya tam tersi. Bunu önlemek için UTF-8 kullanın. Yalnızca ASCII metin her iki durumda da sorunsuz çalışacaktır.
Görünmez farklar : Bir boşluk (32) ve bir TAB (9) boşluk gibi görünür. Ancak farklı karakterlerdir. Bu, programlama ve veri dosyalarında önemlidir.

Cihazlar ASCII'yi basit adımlarla nasıl kullanır?

İsimleri yazdıran bir etiket makinesi düşünün. İsmi karakter olarak okur. Her karakteri ASCII sayılarına dönüştürür. Bu sayıları hafızasında saklar. Her sayının nasıl çizileceğini araştırarak harfleri yazdırır. LF (10) değerini karşılıyorsa, devamını yazdırmadan önce bir sonraki satıra geçer.

Bir karakterin kodunu yazmanın üç yolunun karşılaştırılması

'!' karakterine tekrar bakın. Kodunu üç şekilde yazabiliriz. Ondalık: 33. İkili: 00100001. Onaltılık: 21. Matematiksel olarak, \(\;33_{(10)} = 00100001_{(2)} = 21_{(16)}\) . Her form aynı değere sahiptir. Uygulamalar ihtiyaç duydukları formu seçer. İnsanlar genellikle ondalık sayı sistemini okur. Bilgisayarlar ikili sayı sistemini sever. Onaltılık sistem, insanların ikili sayıları okuması için kısa bir yoldur.

ASCII neden bu kadar uzun sürdü?

ASCII küçük ve anlaşılırdır. Erken dönemde geliştirildi. Birçok araç ve protokol üzerine inşa edildi. İlk 128 Unicode kodu ASCII ile uyumlu olduğu için, bu plan bugün hala geçerliliğini koruyor. Bu nedenle, çok eski metin dosyalarını yeni bir telefon veya dizüstü bilgisayarda açtığınızda aynı harfleri görebilirsiniz.

Mini inceleme: Kısa bir dosyayı okuma

"Hello" metnini içeren bir dosya açın. Baytlar, ASCII sayıları olan 72 101 108 108 111'dir. İkili sistemde bunlar 01001000 01100101 01101100 01101100 01101111'dir. Uygulama her sayıyı okur ve ekrana "Hello" çizer. Bir sonraki sayı 10 ise, daha fazla metin çizmeden önce yeni bir satıra geçer. İşte süreç bu kadar basit ve istikrarlı.

Yalnızca ASCII'yi ne zaman seçmelisiniz?

Eski araçlardan basit cihazlara kadar en geniş temel desteğe ihtiyaç duyduğunuzda.
Yalnızca harf, rakam, tire ve alt çizgi kullanan kimlikleri, dosya adlarını veya kodları depoladığınızda.
Aksan veya emojiye ihtiyaç duymayan basit günlükler ve makineden makineye mesajlar hazırladığınızda.

İnsanların sıklıkla kullandığı temel semboller

Tire - 45'tir. Alt çizgi _ 95'tir. Düzgün dosya isimleri oluşturmaya yardımcı olurlar.
Artı + 43'tür. Eşittir = 61'dir. Birçok URL ve formül bunları kullanır.
Ampersand & 38'dir. Web formları ve sorgu dizeleri bunu sıklıkla kullanır.
İki nokta üst üste : 58'dir. Saat 12:30 gibi kullanılır.
@ işareti 64'tür. E-posta user@example.com bunu kullanır.

Küçük sayılarla bit fikirlerinin hızlı kontrolü

10 sayısını düşünün. İkili sistemde bu 00001010'dur. Ondalık sistemde ise ondur. ASCII'de 10, LF (satır sonu) anlamına gelir. Bu, aynı sayının farklı şekillerde nasıl gösterilebileceğini gösterir. Anlamı, sayıyı nasıl kullandığımızdan gelir. Bir karakter kodu olduğunu söylersek, 10 LF anlamına gelir. Sadece elma sayısı olduğunu söylersek, on elma olur. Bağlam önemlidir.

Tüm bunları bir örnekle daha bir araya getirelim

Sun kelimesini bir cihazdan diğerine göndereceğiz. Kodlar 'S' 83, 'u' 117, 'n' 110'dur. İkili sistemde 83, 01010011'dir, 117, 01110101'dir, 110 ise 01101110'dur. Bitler Açık ve Kapalı sinyalleri olarak hareket eder. Diğer cihaz bitleri tekrar sayılara dönüştürür. Daha sonra sayıları harflere dönüştürür. Sun kelimesini gösterir. Bir sonraki kod 32 ise, bu bir boşluktur. Bir sonraki 33 ise, bu '!'dir. Kurallar her seferinde aynı kalır. Paylaşımlı kodun gücü budur.

ascii