unicode day 10 - 2/4/15 span 4350 cultura computacional en español harry howard tulane university

Post on 23-Jan-2016

213 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

UNICODEDay 10 - 2/4/15SPAN 4350

Cultura computacional en español

Harry Howard

Tulane University

Organización del curso

4-feb-2015CultCompES, Prof. Howard, Tulane University

2

http://www.tulane.edu/~howard/Span4350/

http://www.tulane.edu/~howard/CompCultES/

La prueba es el resumen.

Repaso

4-feb-2015

3

CultCompES, Prof. Howard, Tulane University

§6. Las expressions regulares

4-feb-2015

4

CultCompES, Prof. Howard, Tulane University

Un ejemplo

1. >>> C = 'cañón'2. >>> len(C)3. 74. >>> C5. 'ca\xf1\xf3n' 6. 'ca\xc3\xb1\xc3\xb3n'7. >>> import sys8. >>> sys.getdefaultencoding()9. 'ascii'

4-feb-2015CultCompES, Prof. Howard, Tulane University

5

¿Qué es ASCII?

http://en.wikipedia.org/wiki/ASCII The American Standard Code for Information

Interchange (ASCII, pronunciation: /ˈæski/ ass-kee;) is a character-encoding scheme originally based on the English alphabet. ASCII codes represent text in computers, communications equipment, and other devices that use text.

Most modern character-encoding schemes are based on ASCII, though they support many additional characters.

4-feb-2015CultCompES, Prof. Howard, Tulane University

6

Un cuadro de ASCII

4-feb-2015CultCompES, Prof. Howard, Tulane University

7

Arte de ASCII

4-feb-2015

CultCompES, Prof.

Howard, Tulane

University

8

4-feb-2015CultCompES, Prof. Howard, Tulane University

9

Presentación

Para el inglés, el ASCII es suficiente. Para toda lengua que tenga una letra 'rara', hay

que utilizar Unicode. Unicode tiene un millón de caracteres. Un fichero de texto tiene una codificación

determinada, así que necesitamos algún mecanismo para traducirla a Unicode. La traducción a Unicode se llama decodificación.

Por el contrario, para escribir Unicode a un fichero o una terminal, primero tenemos que traducirlo a una codificación adecuada Esta traducción de Unicode se llama codificación.

4-feb-2015CultCompES, Prof. Howard, Tulane University

10

Decodificación y codificación de UnicodeFig. 3.3

La decodificación y la codificación>>> C.decode('utf8')u'ca\xf1\xf3n'>>> len(u'ca\xf1\xf3n')5>>> print u'ca\xf1\xf3n'cañón>>> u'ca\xf1\xf3n'.encode('utf8')'ca\xc3\xb1\xc3\xb3n'>>> len('ca\xc3\xb1\xc3\xb3n')7>>> print 'ca\xc3\xb1\xc3\xb3n'cañón

4-feb-2015CultCompES, Prof. Howard, Tulane University

11

Re y Unicode

1. from re import findall, UNICODE

2. >>> findall(r'[a-z]+', C)

3. ['ca', 'n']

4. >>> findall(r'\w+', C)

5. ['ca', 'n']

6. >>> findall(r'\w+', C.decode('utf8'))

7. [u'ca', u'n']

8. >>> findall(r'\w+', C.decode('utf8'), UNICODE)

9. [u'ca\xf1\xf3n']

10. >>> findall(r'[a-z]+', C.decode('utf8'), UNICODE)

11. [u'ca', u'n']

4-feb-2015CultCompES, Prof. Howard, Tulane University

12

Las listas

El próximo día

4-feb-2015CultCompES, Prof. Howard, Tulane University

13

top related