Download - UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University
![Page 1: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/1.jpg)
UNICODEDay 10 - 2/4/15SPAN 4350
Cultura computacional en español
Harry Howard
Tulane University
![Page 2: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/2.jpg)
Organización del curso
4-feb-2015CultCompES, Prof. Howard, Tulane University
2
http://www.tulane.edu/~howard/Span4350/
http://www.tulane.edu/~howard/CompCultES/
![Page 3: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/3.jpg)
La prueba es el resumen.
Repaso
4-feb-2015
3
CultCompES, Prof. Howard, Tulane University
![Page 4: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/4.jpg)
§6. Las expressions regulares
4-feb-2015
4
CultCompES, Prof. Howard, Tulane University
![Page 5: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/5.jpg)
Un ejemplo
1. >>> C = 'cañón'2. >>> len(C)3. 74. >>> C5. 'ca\xf1\xf3n' 6. 'ca\xc3\xb1\xc3\xb3n'7. >>> import sys8. >>> sys.getdefaultencoding()9. 'ascii'
4-feb-2015CultCompES, Prof. Howard, Tulane University
5
![Page 6: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/6.jpg)
¿Qué es ASCII?
http://en.wikipedia.org/wiki/ASCII The American Standard Code for Information
Interchange (ASCII, pronunciation: /ˈæski/ ass-kee;) is a character-encoding scheme originally based on the English alphabet. ASCII codes represent text in computers, communications equipment, and other devices that use text.
Most modern character-encoding schemes are based on ASCII, though they support many additional characters.
4-feb-2015CultCompES, Prof. Howard, Tulane University
6
![Page 7: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/7.jpg)
Un cuadro de ASCII
4-feb-2015CultCompES, Prof. Howard, Tulane University
7
![Page 8: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/8.jpg)
Arte de ASCII
4-feb-2015
CultCompES, Prof.
Howard, Tulane
University
8
![Page 9: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/9.jpg)
4-feb-2015CultCompES, Prof. Howard, Tulane University
9
Presentación
Para el inglés, el ASCII es suficiente. Para toda lengua que tenga una letra 'rara', hay
que utilizar Unicode. Unicode tiene un millón de caracteres. Un fichero de texto tiene una codificación
determinada, así que necesitamos algún mecanismo para traducirla a Unicode. La traducción a Unicode se llama decodificación.
Por el contrario, para escribir Unicode a un fichero o una terminal, primero tenemos que traducirlo a una codificación adecuada Esta traducción de Unicode se llama codificación.
![Page 10: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/10.jpg)
4-feb-2015CultCompES, Prof. Howard, Tulane University
10
Decodificación y codificación de UnicodeFig. 3.3
![Page 11: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/11.jpg)
La decodificación y la codificación>>> C.decode('utf8')u'ca\xf1\xf3n'>>> len(u'ca\xf1\xf3n')5>>> print u'ca\xf1\xf3n'cañón>>> u'ca\xf1\xf3n'.encode('utf8')'ca\xc3\xb1\xc3\xb3n'>>> len('ca\xc3\xb1\xc3\xb3n')7>>> print 'ca\xc3\xb1\xc3\xb3n'cañón
4-feb-2015CultCompES, Prof. Howard, Tulane University
11
![Page 12: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/12.jpg)
Re y Unicode
1. from re import findall, UNICODE
2. >>> findall(r'[a-z]+', C)
3. ['ca', 'n']
4. >>> findall(r'\w+', C)
5. ['ca', 'n']
6. >>> findall(r'\w+', C.decode('utf8'))
7. [u'ca', u'n']
8. >>> findall(r'\w+', C.decode('utf8'), UNICODE)
9. [u'ca\xf1\xf3n']
10. >>> findall(r'[a-z]+', C.decode('utf8'), UNICODE)
11. [u'ca', u'n']
4-feb-2015CultCompES, Prof. Howard, Tulane University
12
![Page 13: UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University](https://reader035.vdocuments.us/reader035/viewer/2022070416/5665b48f1a28abb57c923151/html5/thumbnails/13.jpg)
Las listas
El próximo día
4-feb-2015CultCompES, Prof. Howard, Tulane University
13