representação de caracteres - ifba portal · representação de caracteres ifba – instituto...

43
Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas Introdução à Ciência da Computação Prof. Msc. Antonio Carlos Souza Coletânea York University - ITEC 1011

Upload: dophuc

Post on 31-Dec-2018

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Representação de Caracteres

IFBA – Instituto Federal de Educ. Ciencia e TecBahia

Curso de Analise e Desenvolvimento de Sistemas

Introdução à Ciência da ComputaçãoProf. Msc. Antonio Carlos Souza

Coletânea

York University - ITEC 1011

Page 2: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Introdução

¡ ExemplosReal World

Data

Computer

DataInput device

Dear Mom: Keyboard 10110010…

Digitalcamera

10110010…

Page 3: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Formatos Apropriados

¡ A representação interna deve ser apropriada para o tipo de processamento (texto, imagem e som)

Page 4: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Tipos de Dados

¡ Númerosl Inteiro ou ponto fixol Ponto Flutuantel Número Decimal (BCD)

¡ Caracteresl ACSII (American Standard Code for

Information Interchange)l EBCDIC (Extended binary Coded Decimal

Interchange Code)

¡ Dados Lógicos¡ Endereços

Page 5: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Convenções

¡ Formatos Apropriadosl Unique to a product or companyl E.g., Microsoft Word, Corel Word Perfect, IBM

Lotus Notes

¡ Padrõesl Evolve two ways:

¡ Proprietary formats become de factostandards (e.g., Adobe PostScript, Apple Quick Time)

¡ Committee is struck to solve a problem (Motion Pictures Experts Group, MPEG)

Page 6: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Organizações Padrões

¡ ISO – International Standards Organization

¡ CSA – Canadian Standards Association

¡ ANSI – American National Standards Institute

¡ IEEE – Institute for Electrical and Electronics Engineers

¡ Etc.

Page 7: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Exemplos de Padrões

PostScript, TrueType, PDFOutline graphics/fonts

Sound Blaster, WAV, AUSound

MPEG-2, Quick TimeMotion picture

JPEG, GIF, PCX, TIFFImage

ASCII, EBCDIC, UnicodeAlphanumeric

StandardsType of Data

Page 8: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Por que Padrões?

¡ Padrões são “arbitrary”¡ Eles existem porque são:

l Convenientl Efficientl Flexiblel Appropriatel Etc.

Page 9: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Representação de Caracteres

¡ Em geral, usa-se códigos alfanuméricosl Código de 6 bitsl Código de 7 bits (ASCII)l EBCDICl ASCII estendidol ISO Latin - 1l Caracteres ANSIl Caracteres Unicode

Page 10: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Dados Alfanuméricos

¡ Problema: Distinguir entre o número 123 (one hundred and twenty-three) and the characters “123” (one, two, three)

¡ Quatro padrões para representar letras(alpha) and númerosl BCD – Binary-coded decimall ASCII – American standard code for

information interchangel EBCDIC – Extended binary-coded decimal

interchange codel Unicode

Page 11: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Código de 6 bits¡ Permite representar de 26 = 64 caracteres

¡ 26 letras maiúsculas

¡ 10 algarismos ( 0 1 2 3 4 5 6 7 8 9 )

¡ 28 caracteres especiais, incluindo Space

Page 12: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

7 bits (ASCII)

Page 13: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Binary-Coded Decimal (BCD)

¡ 4 bits por dígito

10019

10008

01117

01106

01015

01004

00113

00102

00011

00000

Bit patternDigit

Note: the following bit patterns are not used:

101010111100110111101111

Page 14: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Example

¡ 709310 = ? (in BCD)

7 0 9 3

0111 0000 1001 0011

Page 15: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Next 22 slides

Standard Alphanumeric Formats

¡ BCD¡ ASCII¡ EBCDIC¡ Unicode

Page 16: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

The Problem

¡ Representing text strings, such as“Hello, world”, in a computer

Page 17: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Codes and Characters

¡ Each character is coded as a byte¡ Most common coding system is

ASCII (Pronounced ass-key)¡ ASCII = American National

Standard Code for Information Interchange

¡ Defined in ANSI document X3.4-1977

Page 18: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

ASCII Features

¡ 7-bit code¡ 8th bit is unused (or used for a

parity bit)¡ 27 = 128 codes¡ Two general types of codes:

l 95 are “Graphic” codes (displayable on a console)

l 33 are “Control” codes (control features of the console or communications channel)

Page 19: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

ASCII Chart

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Page 20: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Page 21: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Most significant bit

Least significant bit

Page 22: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

e.g., ‘a’ = 1100001

Page 23: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

95 Graphic codes

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Page 24: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

33 Control codes

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Page 25: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Alphabetic codes

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Page 26: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Numeric codes

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Page 27: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Punctuation, etc.

Page 28: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

“Hello, world” Example

============

Binary010010000110010101101100011011000110111100101100001000000111011101100111011100100110110001100100

Hexadecimal48656C6C6F2C207767726C64

Decimal721011081081114432119103114108100

Hello,

world

============

============

Page 29: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Common Control Codes

¡ CR 0D carriage return¡ LF 0A line feed¡ HT 09 horizontal tab¡ DEL 7F delete¡ NULL 00 null

Hexadecimal code

Page 30: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Page 31: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

000 001 010 011 100 101 110 1110000 NULL DLE 0 @ P ` p0001 SOH DC1 ! 1 A Q a q0010 STX DC2 " 2 B R b r0011 ETX DC3 # 3 C S c s0100 EDT DC4 $ 4 D T d t0101 ENQ NAK % 5 E U e u0110 ACK SYN & 6 F V f v0111 BEL ETB ' 7 G W g w1000 BS CAN ( 8 H X h x1001 HT EM ) 9 I Y i y1010 LF SUB * : J Z j z1011 VT ESC + ; K [ k {1100 FF FS , < L \ l |1101 CR GS - = M ] m }1110 SO RS . > N ^ n ~1111 SI US / ? O _ o DEL

Page 32: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Next 1 slides

Standard Alphanumeric Formats

¡ BCD¡ ASCII¡ EBCDIC¡ Unicode

Page 33: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

EBCDIC

¡ Extended BCD Interchange Code (pronounced ebb’-se-dick)

¡ 8-bit code¡ Developed by IBM¡ Rarely used today¡ IBM mainframes only

Page 34: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

8 bits (EBCDIC)¡ Extended Binary Coded Decimal

Interchange Code

Page 35: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

8 bits (ASCII Estendido)

Page 36: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

ISO Latin-1

Page 37: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Caracteres ANSI

¡ Windows 9x suporta caracteres ANSIl American National Standards Institute

¡ Representação de 8 bits (256 caracteres)l 0 a 255

¡ Valores de 0 a 127: mesmos de ASCII¡ Entre 128 a 255: similar a ISO Latin-1

l Tem extensões e incompatibilidades

Page 38: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Next 2 slides

Standard Alphanumeric Formats

¡ BCD¡ ASCII¡ EBCDIC¡ Unicode

Page 39: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Unicode

¡ 16-bit standard¡ Developed by a consortia¡ Intended to supercede older 7- and

8-bit codes

Page 40: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Unicode Version 2.1

¡ 1998¡ Improves on version 2.0 ¡ Includes the Euro sign (20AC16 =

) ¡ From the standard:

…contains 38,887 distinct coded characters derived from the supported scripts. These characters cover the principal written languages of the Americas, Europe, the Middle East, Africa, India, Asia, and Pacifica.

http://www.unicode.org

Page 41: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Caracteres Unicode

¡ Windows NT usa Unicode 16-bitsl Cobre grande parte das línguas vivasl Também linguas mortas (uso escolar)

¡ Detalhesl http://www.unicode.org

Page 42: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Keyboard Input

¡ Key (“scan”) codes are converted to ASCII

¡ ASCII code sent to host computer¡ Received by the host as a “stream”

of data¡ Stored in buffer¡ Processed¡ Etc.

Page 43: Representação de Caracteres - IFBA Portal · Representação de Caracteres IFBA – Instituto Federal de Educ. Ciencia e Tec Bahia Curso de Analise e Desenvolvimento de Sistemas

Outras Entradas

¡ OCR – optical character recognition¡ Bar code readers¡ Voice/audio input¡ Punched cards¡ Images / objects¡ Pointing devices