Primer lesson: ascii

ASCII: Como os computadores armazenam letras e símbolos

A grande ideia

Os computadores usam números. As pessoas usam letras e símbolos. Precisamos de uma ponte. O ASCII é essa ponte. O ASCII transforma cada letra ou símbolo em um número. O computador armazena o número. Quando lemos, o computador exibe a letra novamente. É assim que o texto funciona em muitos arquivos e aplicativos.

Por que os computadores precisam de um código?

Um computador funciona com eletricidade. Ele enxerga dois estados: ligado e desligado. Chamamos esses estados de bits . Um bit é um 0 ou um 1. Muitos bits juntos formam números maiores. Oito bits formam um byte . Com bits, podemos contar. Com a contagem, podemos nomear coisas. O ASCII usa a contagem para nomear letras e símbolos.

Um bit permite duas escolhas. Dois bits permitem quatro escolhas. Em matemática, essa ideia é representada por \(\;2^n\) . Para \(n=7\) , obtemos \(2^7 = 128\) escolhas. Para \(n=8\) , obtemos \(2^8 = 256\) escolhas. O ASCII usa 7 bits. Isso resulta em 128 itens nomeados. Posteriormente, foram criados conjuntos de 8 bits com 256 itens. Esses são chamados de ASCII estendido .

O que significa ASCII

ASCII significa American Standard Code for Information Interchange (Código Padrão Americano para Intercâmbio de Informação) . Surgiu na década de 1960 e foi criado para as primeiras impressoras, teletipos e computadores. Atribui um número a cada letra, número, espaço e alguns símbolos. Também atribui números especiais a ações como nova linha . A primeira versão usava 7 bits, portanto, tinha números de 0 a 127.

O que há dentro do ASCII?

Letras maiúsculas : de A a Z. Eles usam os números de 65 a 90.
Letras minúsculas : de a a z. Eles usam os números de 97 a 122.
Dígitos : 0 a 9. Eles usam os números de 48 a 57.
Espaço : Um espaço em branco. É o número 32.
Pontuação : ! , . ? : ; ' " ( ) e mais. Por exemplo, ! é 33, vírgula é 44, ponto é 46, ponto de interrogação é 63.
Caracteres de controle : Esses caracteres executam ações. São representados pelos números de 0 a 31 e 127. Eles realizam ações como iniciar uma nova linha, reproduzir um som de campainha ou mover o cursor.

Exemplos de mapas simples

'A' é 65.
'B' é 66.
'Z' é 90.
'a' é 97.
'z' é 122.
'0' é 48.
'9' é 57.
' ' (espaço) é 32.
'!' é 33.

Observe algo interessante. As letras minúsculas são 32 unidades maiores que suas correspondentes maiúsculas. Por exemplo, \(\;97 - 65 = 32\) . Portanto, 'a' é 32 unidades maior que 'A'. 'b' é 32 unidades maior que 'B', e assim por diante. Esse padrão facilita algumas tarefas no computador.

Caracteres de controle em palavras simples

NUL (0): Não significa nada. Em alguns sistemas antigos, marca o fim.
BEL (7): Pode emitir um som de bip. Pense em um alerta suave.
BS Backspace (8): Move um passo para trás.
TAB (9): Salta para a próxima tabulação. Isso ajuda a alinhar as coisas.
Alimentação de linha LF (10): Move-se para uma nova linha.
CR Retorno de Carro (13): Ele volta para o início da linha. Nas máquinas de escrever antigas, o carro retornava para a esquerda. CR faz isso.
ESC Escape (27): Inicia um comando especial para telas ou impressoras antigas.
DEL Delete (127): Marca algo como excluído em sistemas muito antigos.

Ao pressionar a tecla Enter, seu computador pode enviar LF, CR ou ambos, dependendo do sistema. Muitas ferramentas da internet usam LF. Alguns sistemas antigos usavam CR e LF juntos.

Visualizações decimal, binária e hexadecimal

Podemos escrever números de diferentes maneiras. O sistema decimal é a forma normal de contarmos, usando os dígitos de 0 a 9. O sistema binário usa apenas 0 e 1. O sistema hexadecimal usa de 0 a 9 e de A a F.

'A' : decimal 65, binário 01000001, hexadecimal 41. Em forma matemática: \(65_{(10)} = 01000001_{(2)} = 41_{(16)}\) .
'a' : decimal 97, binário 01100001, hexadecimal 61. Ou seja, \(97_{(10)} = 01100001_{(2)} = 61_{(16)}\) .
'0' : decimal 48, binário 00110000, hexadecimal 30. Ou seja, \(48_{(10)} = 00110000_{(2)} = 30_{(16)}\) .
Espaço : decimal 32, binário 00100000, hexadecimal 20. Ou seja, \(32_{(10)} = 00100000_{(2)} = 20_{(16)}\) .
Nova linha (LF) : decimal 10, binário 00001010, hexadecimal 0A. Ou seja, \(10_{(10)} = 00001010_{(2)} = 0A_{(16)}\) .

Como o binário representa 65 para 'A'? Observe os bits em 01000001. O bit mais à esquerda é para 128. Em seguida, 64, 32, 16, 8, 4, 2, 1. Apenas 64 e 1 estão ligados. Portanto \(01000001_{(2)} = 0\times128 + 1\times64 + 0\times32 + 0\times16 + 0\times8 + 0\times4 + 0\times2 + 1\times1 = 65\) .

Do teclado à tela

Pressione uma tecla. O teclado envia um código para o computador. O sistema o converte em um número correspondente a um caractere. Para muitas teclas, esse número é o código ASCII. O aplicativo armazena o número na memória. Quando exibe o texto, ele consulta o número e desenha a letra correspondente. Ao salvar, os números são inseridos no arquivo.

Como o texto se propaga em uma rede

Pense na mensagem "Oi!" . As letras são H, i e !. Seus números ASCII são 72, 105 e 33. Em binário, são 01001000, 01101001 e 00100001. A rede envia esses bits. O outro lado lê os bits. Vê os números. Mostra H, i e ! novamente. É assim que mensagens de texto simples se propagam.

ASCII estendido e páginas de código

As pessoas queriam mais símbolos. Queriam letras como é, ñ e ø. Queriam símbolos monetários como €. O conjunto de 7 bits tinha apenas 128 símbolos. Então, as pessoas usavam 8 bits. Com 8 bits, obtemos \(2^8 = 256\) símbolos. A metade superior, de 128 a 255, era usada para letras e símbolos extras. Mas havia um problema. Diferentes grupos escolhiam números diferentes para essas letras extras. Essas escolhas são chamadas de páginas de código .

ISO-8859-1 (Latin-1) é um conjunto comum para letras da Europa Ocidental. Ele coloca o é no número 233.
O Windows-1252 é muito semelhante ao Latin-1, mas utiliza alguns espaços, de 128 a 159, para pontuação, como aspas invertidas.

Como as páginas de código são diferentes, o mesmo número pode exibir um símbolo diferente em outro computador. Essa confusão é chamada de mojibake . Ela se parece com caracteres estranhos. Essa é uma das razões pelas quais o mundo adotou o Unicode.

ASCII e Unicode

Unicode é um padrão abrangente que pode exibir diversos idiomas, símbolos matemáticos e emojis. Ele possui espaço para mais de um milhão de símbolos. Existem muitas maneiras de armazenar Unicode. Uma forma popular é o UTF-8 .

ASCII é uma pequena parte do Unicode. Os primeiros 128 códigos Unicode correspondem exatamente ao ASCII.
Em UTF-8 , todos os caracteres ASCII usam um byte e têm os mesmos valores de 0 a 127. Portanto, qualquer texto ASCII já é um UTF-8 válido.
Letras além do ASCII ocupam dois ou mais bytes em UTF-8. Por exemplo, o caractere "é" em UTF-8 ocupa dois bytes. Você não precisa memorizar os bytes. O computador cuida disso para você.

Quantos bytes utiliza um texto?

Com texto exclusivamente ASCII, cada caractere usa um byte. Portanto, a palavra "gato" usa 3 bytes. A frase "oi mãe" tem 6 caracteres, incluindo o espaço, então usa 6 bytes. Em matemática simples, \(\textrm{bytes ASCII} = \textrm{número de caracteres}\) .

Ordem de classificação com ASCII

Os computadores geralmente classificam sequências de caracteres pelos seus números. A ordem ASCII agrupa os elementos de uma determinada maneira.

Os dígitos de 0 a 9 vêm antes das letras porque 48 a 57 são menores que 65 e 97.
As letras maiúsculas de A a Z vêm antes das minúsculas de a a z porque 65 a 90 são menores que 97 a 122.

Isso significa que "Zoo" vem antes de "apple" se compararmos os valores ASCII simples. A ordenação é feita por números, não pela pronúncia das palavras.

Códigos ASCII comuns que você precisa conhecer.

Espaço : 32
Exclamação ! : 33
Vírgula , : 44
Período : 46
Barra / : 47
Dígitos 0..9 : 48..57
Colon : : 58
Ponto e vírgula ; : 59
Ponto de interrogação ? : 63
No sinal @: 64
Letras maiúsculas de A a Z : 65 a 90
Colchete esquerdo [ : 91
Barra invertida \ : 92
Colchete direito ] : 93
Letras minúsculas de a a z : 97 a 122
Chaves { } : 123 e 125
Tilde ~ : 126

Observe que o símbolo " &" é representado pelo caractere "&". Seu número ASCII é 38. O sinal de mais (+) é 43. O sinal de menos (-) é 45.

Usos reais na tecnologia do dia a dia

Arquivos de texto simples (.txt): Muitas anotações simples usam apenas caracteres ASCII.
Programação : Letras, dígitos e símbolos em código geralmente vêm do ASCII. Por exemplo, instruções if usam as letras if e chaves { } do ASCII.
Arquivos CSV : Muitas tabelas de dados salvas como valores separados por vírgula usam vírgulas e dígitos ASCII.
Noções básicas de e-mail e web : Os sistemas de e-mail antigos usavam ASCII de 7 bits. Endereços da web e muitos comandos de protocolo usam letras e dígitos do ASCII.
Registros e configurações : Os registros do sistema e os arquivos de configuração geralmente seguem o formato ASCII para facilitar a leitura em qualquer lugar.

Padrões ASCII que ajudam

De maiúsculas para minúsculas : As minúsculas têm 32 caracteres a mais que as maiúsculas para a mesma letra. \(\;97 - 65 = 32\) , \(\;98 - 66 = 32\) , e assim por diante.
Dígitos : O dígito '0' é 48, '1' é 49, e assim por diante até '9', que é 57. O valor numérico de um dígito é \(48 + \textrm{o valor do dígito}\) . Por exemplo, \(48 + 7 = 55\) . Portanto, '7' é 55.

Como criar imagens com ASCII

As pessoas criam imagens usando apenas caracteres. Isso se chama arte ASCII . Aqui está um rostinho feito com caracteres ASCII.

:-) Um sorriso simples
(^_^) Cara amigável
o_O Surpreso

Cada elemento é composto apenas por caracteres como dois pontos, hífen e parênteses. Sem cores ou formas. Apenas texto.

História resumida, em palavras simples.

O ASCII surgiu a partir dos teletipos e dos primeiros computadores. Em 1963, uma primeira versão foi acordada. Ela permitiu que muitas máquinas diferentes se comunicassem entre si. Com um código compartilhado, uma letra como A representava o mesmo número em todos os lugares. Isso facilitou o envio de mensagens e a impressão de texto.

Quando o ASCII não é suficiente

O ASCII possui apenas 128 itens. Isso não é suficiente para todos os idiomas. Não consegue exibir chinês, hindi, árabe ou muitos outros alfabetos. Também não consegue exibir emojis. Além disso, não consegue exibir muitos símbolos matemáticos e musicais. Para esses casos, usamos o Unicode. O Unicode consegue exibir muitos alfabetos e símbolos. O UTF-8 é uma forma de armazená-los. A boa notícia é que todo texto ASCII funciona dentro do UTF-8. Portanto, os sistemas modernos conseguem ler o ASCII antigo com facilidade.

Como os aplicativos lidam com ASCII hoje em dia

A maioria dos aplicativos espera o formato UTF-8. Mas quando um arquivo contém apenas letras e símbolos ASCII, ele permanece o mesmo em UTF-8. Os programadores gostam disso porque simplifica o código. Páginas da web, APIs e muitas ferramentas usam UTF-8, que inclui o ASCII sem alterações.

Fatos numéricos simples e matemática amigável

O ASCII é um conjunto de 7 bits. Isso significa até \(2^7 = 128\) caracteres diferentes. Um conjunto expandido com 8 bits tem \(2^8 = 256\) itens. Se o seu texto tiver apenas caracteres ASCII e \(n\) caracteres, ele usará \(n\) bytes. Em uma mensagem curta como "OK" , \(n = 2\) Portanto, ela usa 2 bytes quando armazenada como ASCII ou UTF-8.

Vendo personagens ocultos

Alguns caracteres ASCII executam ações e não são impressos. O espaço imprime em branco. Mas LF e CR movem o cursor. A tecla TAB pula para outra tecla. Quando abrimos um arquivo em um editor específico, ele pode exibir LF como \n. Esse símbolo não faz parte do ASCII em si. É uma forma que o editor usa para indicar a quebra de linha.

Exemplos simples que parecem reais

Digitar uma senha de Wi-Fi com letras e dígitos usa o código ASCII para esses símbolos. O roteador e o telefone concordam com esses números.
Nomear um arquivo usando apenas letras de A a Z, números de a a z, números de 0 a 9 e símbolos como - e _ mantém a simplicidade e a segurança em diversos sistemas.
Escrever um assunto de e-mail usando apenas letras e pontuação padrão garante que servidores antigos consigam encaminhá-lo.

Coisas a observar

Aspas curvas vs. aspas retas : Textos de editores sofisticados podem usar “ ” em vez de “ “. Aspas retas são ASCII. Aspas curvas não são. Elas podem não ser exibidas corretamente em ferramentas antigas.
Páginas de código diferentes : Um arquivo salvo como Windows-1252 pode ser exibido incorretamente em um sistema que espera ISO-8859-1, ou vice-versa. Use UTF-8 para evitar isso. Texto somente em ASCII funcionará corretamente em ambos os casos.
Diferenças invisíveis : Um espaço (32) e uma TAB (9) parecem espaços em branco. Mas são caracteres diferentes. Isso é importante em programação e arquivos de dados.

Como os dispositivos usam ASCII em etapas simples

Imagine uma etiquetadora que imprime nomes. Ela lê o nome como caracteres. Ela transforma cada caractere em números ASCII. Ela armazena esses números na memória. Ela imprime as letras procurando como desenhar cada número. Se encontrar LF (10), ela passa para a próxima linha antes de imprimir mais.

Comparando três maneiras de escrever o código de um caractere.

Observe o caractere '!' novamente. Podemos escrever seu código de três maneiras. Decimal: 33. Binário: 00100001. Hexadecimal: 21. Em forma matemática, \(\;33_{(10)} = 00100001_{(2)} = 21_{(16)}\) . Cada forma representa o mesmo valor. Os aplicativos escolhem a forma que precisam. As pessoas geralmente leem em decimal. Os computadores preferem binário. Hexadecimal é uma forma abreviada para as pessoas lerem números binários.

Por que o ASCII durou tanto tempo?

O ASCII é pequeno e claro. Foi criado há muito tempo. Muitas ferramentas e protocolos foram construídos com base nele. Como os primeiros 128 códigos Unicode correspondem ao ASCII, o sistema ainda funciona hoje. É por isso que você pode abrir arquivos de texto muito antigos em um celular ou laptop novo e ver as mesmas letras.

Miniguia: como ler um arquivo curto

Abra um arquivo com o texto "Olá" . Os bytes são os números ASCII 72 101 108 108 111. Em binário, eles são 01001000 01100101 01101100 01101100 01101111. O aplicativo lê cada número e desenha "Olá" na tela. Se o próximo número for 10, ele passa para uma nova linha antes de desenhar mais texto. É assim que o processo é simples e constante.

Quando escolher somente ASCII

Quando você precisa do suporte básico mais amplo possível para ferramentas antigas e dispositivos simples.
Quando você armazena IDs, nomes de arquivos ou códigos que usam apenas letras, dígitos, hífens e sublinhados.
Quando você cria registros simples e mensagens de máquina para máquina que não precisam de acentos ou emojis.

Símbolos-chave que as pessoas usam com frequência

O hífen ( -) vale 45. O sublinhado ( _) vale 95. Eles ajudam a criar nomes de arquivos mais organizados.
Mais ( +) é 43. Igual a ( =) é 61. Muitos URLs e fórmulas os utilizam.
O caractere " &" é 38. Formulários da web e strings de consulta frequentemente o utilizam.
Dois pontos : é 58. Horários como 12:30 usam esse caractere.
O símbolo @ é 64. O email user@example.com o utiliza.

Verificação rápida de ideias com números pequenos

Pense no número 10. Em binário, é 00001010. Em decimal, é dez. Em ASCII, 10 é LF, a quebra de linha. Isso mostra como o mesmo número pode ser representado de maneiras diferentes. O significado vem de como usamos o número. Se dissermos que é um código de caractere, então 10 significa LF. Se dissermos que é apenas uma contagem de maçãs, então são dez maçãs. O contexto importa.

Para concluir, temos mais um exemplo.

Enviaremos a palavra "Sun" de um dispositivo para outro. Os códigos são 'S' 83, 'u' 117 e 'n' 110. Em binário, 83 é 01010011, 117 é 01110101 e 110 é 01101110. Os bits viajam como sinais de Ligado e Desligado. O outro dispositivo converte os bits de volta em números. Em seguida, converte os números em letras. Ele exibe a palavra "Sun" . Se o próximo código for 32, trata-se de um espaço. Se o próximo for 33, trata-se de um ponto de exclamação (!). As regras permanecem as mesmas a cada vez. Esse é o poder de um código compartilhado.

ascii