algunos aspectos de la complejidad en el lenguaje€¦ · •first •prev •next •last •go...
TRANSCRIPT
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Algunos Aspectos de la
Complejidad en el Lenguaje
Pedro A. Pury
Facultad de Matematica Astronomıa y Fısica
Universidad Nacional de Cordoba
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Analisis R/S
Harold Edwin Hurst (1880–1978):
Hidrologo ingles, estudio los registros de 800 anos de las inundaciones del Nilo. Sus observa-
ciones empıricas basadas en un metodo propio llevaron al descubrimiento de la memoria de
largo alcance en los procesos naturales. Fue uno de los primeros en proponer la construccion
del gran reservorio de Aswan.
Referencias:
• Harold E. Hurst, Long-term storage capacity of reservoirs, Trans. Am. Soc. Civil Engineers,
116, 770-808 (1951).
• B. B. Mandelbrot and J. R. Wallis, Robustness of the rescales range R/S in the measurement
of noncyclic long runstatistical dependence, Water Resources Research 5, 967–988 (1969).
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Lluvias en Cordoba (1873–1992):
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
A partir de la serie temporal r(t) se fabrica el registro de incrementos acumulados:
ξ(t) =r(t)− 〈r(t)〉
σ, X(t) =
t∑u=1
ξ(u)
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Se particiona el record en segmentos de igual duracion s y se define un subrecord restando la
tendencia:
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
D(u, t, s) = X(t + u)−X(t)
−u
s(X(t + s)−X(t))
R(t, s) = max0≤u≤s
D(u, t, s)− min0≤u≤s
D(u, t, s)
S2(t, s) =1
s
s∑w=1
ξ2(t + w)−
(1
s
s∑w=1
ξ(t + w)
)2
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Ley de Hurst: < R(t, s)/S(t, s) >∼ sH con H > 1/2
En ausencia de memoria de largo alcance H = 1/2.
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Correlacion en una serie temporal
C(s) =< ξ(t) ξ(t + s) >
Correlacion de corto alcance: C(s) ≈ exp(−s/τ )
Correlacion de largo alcance: C(s) ≈ s−γ
γ ≈ 2(1−H)
Correlacion de corto alcance: γ ≥ 1 o H = 1/2Correlacion de largo alcance: 0 < γ < 1 o H > 0.5
Dimension fractal del record: D = 2−H .
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Detrended Fluctuation Analysis (DFA)
Serie temporal: secuencia de bases en ADN
r(t) = −1 base purica (adenina y guanina)r(t) = 1 base pirimıdica (timina o guanina)
DFA permite diferenciar regiones portadoras de “codigo”(tienen correlaciones de largo alcance) del resto.
Referencias:
• C.-K. Peng, S. V. Buldyrev S. Havlin, M. Simons, H. E. Stanley and A. L. Goldberger. Mosaic
organization of DNA nucleotides, Phys. Rev. E 49, 1685–1689 (1994).
• J. W. Kantelhardt, E. Koscielny-Bunde, H. A. Rego, S. Havlin and A. Bunde. Detecting
long–range correlations with detrended fluctuation analysis, Physica A 295 441–454, (2001).
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Linguıstica CuantitativaLista de rango y frecuencia para algunas palabras de The Origin of Species
(192665 palabras con un vocabulario de 8294 palabras distintas).
r(w) Palabra w f(w) r(w) Palabra w f(w)1 the 13.414 200 us 1192 of 9030 300 flower 843 and 5508 400 ordinary 654 in 5002 500 places 505 to 4514 600 archipelago 41
12 species 1791 700 against 3520 with 1383 800 acts 3030 other 905 900 stocked 2640 an 698 1.000 cirripedes 2250 when 516 2.000 vertebrae 960 thus 384 3.000 pedunculated 470 such 334 4.000 kill 380 under 305 5.000 cuts 290 even 277 6.000 heavily 1
100 should 250 8.000 natatory 1
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Ley de Zipf f (w) ≈ r(w)−α, α ≈ 1
Referencia:
• G. K. Zipf, Human Behavior and the Principle of Least Effort
(Addison-Wesley, Reading, 1949).
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Texto Aleatorio“Random shuffling”: Se genera con una permutacion al azar de todas las palabras de
un corpus. La tabla de rango-frecuencia de Zipf queda intacta.
Texto Markoviano
A partir de un dado corpus se construye la tabla de probabilidades para la siguiente letra:
A → pa
B → pb
TION SC C → pc
D → pd...
Ejemplo a partir del corpus de Shakespeare:
“MY FATHER STAY JAQUES ROSALINE THOUSAND YEA THEREFORE SUCH A SCURVY FELLOWS MEADS
AND OTHER ADDER WHERE O WHERE WERE AWAKE HIM OFF MY HOUSEHOLD WORMS OF NINE O
CLOCK OR A HUSBAND THAT WHICH HE PAINTER IN WHAT MAN IT MUST BE PITIED IN THE TRUTH OF
TWELVE AND IN DORSET NOR ADMIRATION EXIT COSTARD UNDER A WEATHER DROWN D COURTESY
YOURSELF OUR QUEEN ELIZABETH NAY AS THEREFORE MASTERLY”
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Codificacion del “corpus” literario
Se construye una serie de incrementos a partir de
un corpus substituyendo cada palabra por su cor-
respondiente rango de Zipf. El texto queda ası
codificado como una secuencia se rangos de Zipf,
y dada la tabla de equivalencias rango-palabra el
contenido de informacion queda intacto.
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Estimacion de H en “Corpora” Literarios
source original sequence truncation (5) sentences shuffled ranks shuffled
Shakespeare (1) 0.687± 0.040 0.658± 0.036 0.574± 0.035 0.524± 0.020Dickens (2) 0.738± 0.033 0.660± 0.034 0.573± 0.025 0.520± 0.021Darwin (3) 0.745± 0.045 0.678± 0.043 0.576± 0.033Simon’s model 0.550± 0.040 0.519± 0.032Markovian text (4) 0.533± 0.028
(1) 36 plays: 885534 words
(2) 56 books: 5616403 words
(3) 11 books: 1508483 words
(4) 1.2× 106 words generated from the the Shakespeare corpus with memory of 7 letters
(5) all ranks outside the interval 100 < rank < 2000 were deleted sequence
Referencia:
• Marcelo A. Montemurro and Pedro A. Pury. Long-Range Fractal Correlations in Literary
Corpora, Fractals 10, 451–461 (2002)
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Estimacion de H en un diccionarioWebster’s abridged dictionary (edition 1913)
Webster’s Dictionary H
original sequence 0.690± 0.031sequence without abbr. 0.699± 0.036entries shuffled (1) 0.548± 0.025
(1) from the text without abbreviations
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
El “clustering” de las palabras
Posiciones absolutas de las palabras en “The Origin of Species by means of Natural Selection”
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Distancia entre apariciones de una palabra
Desviacion estandar de la distancia entre apariciones de una dada palabra (normalizadas al texto aleatorio) vs. su rango;
correspondiente a “The Origin of Species by means of Natural Selection”
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Longitud de “palabra” en ADN
2 E. coli (genome completo)
4 S. cerevisiae (genome completo)
◦ C. elegans (genome completo)
• H. sapiens (22 millones de pares del cromosoma 22)
Referencia:
• M.Ortuno et al.. Keyword detection in natural languages and DNA, Europhys. Lett. 57,
759–764 (2002).
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Entropıa de la Distribucion de las Palabras
Se divide el texto en P partes y en cada una de ellas se computa la fraccion de apariciones de lapalabra w con respecto al numero total de palabras en la i-esima particion: fi(w) = ni(w)/Ni,y se construye la probabilidad de encontrar la palabra w en la particion i, dado que aparece enel texto:
pi(w) =fi(w)∑P
j=1 fj(w)
Se la utiliza en la entropıa se Shannon:
S(w) = − 1ln(P )
∑Pi=1 pi(w) ln(pi(w))
Para una distribucion uniforme pi = 1/P ⇒ S = 1.
Para una distribucion puntual pj = 1 y pi = 0 (i 6= j) ⇒ S = 0.
Referencia:
• Marcelo A. Montemurro and Damian H. Zanette. Entropic analysis of the role of words in
literary texts, Adv. Complex Systems, 5, 7-17 (2002).
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Entropıa para el texto particionado en capıtulos
Para un texto aleatorio Con P partes iguales resulta: (1− S) n ≈ (P − 1)/(2 ln P ).
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Ranking de keywordsPalabra Rango n σ (1− S) n
HYBRIDS 184 131 5.043 41.505STERILITY 262 95 5.636 30.208SPECIES 12 1791 1.922 30.078FORMS 49 524 2.291 27.121VARIETIES 58 426 3.079 25.182INSTINCTS 315 82 4.666 24.678BREEDS 190 127 3.080 22.455FERTILITY 333 79 3.849 20.232FORMATIONS 249 100 3.404 20.217CROSSED 255 97 3.839 20.076SELECTION 52 492 2.233 19.808ORGANS 138 179 2.820 19.127NEST 441 58 3.365 18.381INSTINCT 405 64 4.154 17.935RUDIMENTARY 319 81 3.345 17.432FORMATION 248 100 2.416 17.067BEES 342 77 4.080 16.861PLANTS 59 391 2.532 16.860CELLS 433 60 3.450 16.802POLLEN 218 112 3.705 16.322NATURAL 53 475 1.909 16.099GROUPS 132 190 2.695 15.768CROSSES 452 57 2.821 15.541WATER 186 129 2.709 14.827STERILE 371 70 3.441 13.981SEA 239 104 2.788 13.350SEEDS 197 120 2.793 12.740FERTILE 411 63 2.881 12.617ORGAN 275 91 3.590 12.375
•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit
Eficiencia en la deteccion de Keywords
De un total de 192.665 palabras correspondientes a un vocabulario de 8.294 entre las 283
primeras palabras del ranking se detectan con
(1− S) n: 118 palabras del glosario: 41, 7%
Referencia:
• Juan Pablo Herrera. Deteccion de Palabras Clave en Textos Literarios.
Trabajo Especial de Licenciatura en Computacion, Fa.M.A.F., 2005.