unicode day 10 - 2/4/15 span 4350 cultura computacional en español harry howard tulane university

UNICODEDay 10 - 2/4/15SPAN 4350

Cultura computacional en español

Harry Howard

Tulane University

Organización del curso

4-feb-2015CultCompES, Prof. Howard, Tulane University

http://www.tulane.edu/~howard/Span4350/

http://www.tulane.edu/~howard/CompCultES/

La prueba es el resumen.

Repaso

4-feb-2015

CultCompES, Prof. Howard, Tulane University

§6. Las expressions regulares

4-feb-2015

CultCompES, Prof. Howard, Tulane University

Un ejemplo

1. >>> C = 'cañón'2. >>> len(C)3. 74. >>> C5. 'ca\xf1\xf3n' 6. 'ca\xc3\xb1\xc3\xb3n'7. >>> import sys8. >>> sys.getdefaultencoding()9. 'ascii'

¿Qué es ASCII?

http://en.wikipedia.org/wiki/ASCII The American Standard Code for Information

Interchange (ASCII, pronunciation: /ˈæski/ ass-kee;) is a character-encoding scheme originally based on the English alphabet. ASCII codes represent text in computers, communications equipment, and other devices that use text.

Most modern character-encoding schemes are based on ASCII, though they support many additional characters.

Un cuadro de ASCII

Arte de ASCII

4-feb-2015

CultCompES, Prof.

Howard, Tulane

University

Presentación

Para el inglés, el ASCII es suficiente. Para toda lengua que tenga una letra 'rara', hay

que utilizar Unicode. Unicode tiene un millón de caracteres. Un fichero de texto tiene una codificación

determinada, así que necesitamos algún mecanismo para traducirla a Unicode. La traducción a Unicode se llama decodificación.

Por el contrario, para escribir Unicode a un fichero o una terminal, primero tenemos que traducirlo a una codificación adecuada Esta traducción de Unicode se llama codificación.

Decodificación y codificación de UnicodeFig. 3.3

La decodificación y la codificación>>> C.decode('utf8')u'ca\xf1\xf3n'>>> len(u'ca\xf1\xf3n')5>>> print u'ca\xf1\xf3n'cañón>>> u'ca\xf1\xf3n'.encode('utf8')'ca\xc3\xb1\xc3\xb3n'>>> len('ca\xc3\xb1\xc3\xb3n')7>>> print 'ca\xc3\xb1\xc3\xb3n'cañón

Re y Unicode

1. from re import findall, UNICODE

2. >>> findall(r'[a-z]+', C)

3. ['ca', 'n']

4. >>> findall(r'\w+', C)

5. ['ca', 'n']

6. >>> findall(r'\w+', C.decode('utf8'))

7. [u'ca', u'n']

8. >>> findall(r'\w+', C.decode('utf8'), UNICODE)

9. [u'ca\xf1\xf3n']

10. >>> findall(r'[a-z]+', C.decode('utf8'), UNICODE)

11. [u'ca', u'n']

Las listas

El próximo día

unicode day 10 - 2/4/15 span 4350 cultura computacional en español harry howard tulane university

tulane university4

tulane universityorganizacin

tulane universityarte

tulane university6

tulane universityun

tulane universityqu

tulane universityun

tulane universityla

Documents

dificuldad computacional

taller: inteligencia computacional

03 aritmetica computacional

calculo computacional de estructuras moleculares

epistemologia computacional: intrudução

hidrologia computacional mdt sig

1-sistema computacional (a)

entorno computacional

scripts y funciones día18, 25-feb-15 span 4350 cultura...

ruleta (matematica computacional)

ambiente computacional no matlab

multifamily mailbox: 4350

information / segni/informacion tecnica tl series / serie...

las expressions regulares 2 day 7 - 1/28/15 span 4350...

manual laboratorio movil computacional

computacional c1

examen de estadística computacional

csc 4350 operating systems

las expressions regulares 4 day 9 - 2/2/15 span 4350 cultura...

mec computacional 2