algunos aspectos de la complejidad en el lenguaje€¦ · •first •prev •next •last •go...

•First •Prev •Next •Last •Go Back •Full Screen •Close •Quit

Algunos Aspectos de la

Complejidad en el Lenguaje

Pedro A. Pury

Facultad de Matematica Astronomıa y Fısica

Universidad Nacional de Cordoba


Analisis R/S

Harold Edwin Hurst (1880–1978):

Hidrologo ingles, estudio los registros de 800 anos de las inundaciones del Nilo. Sus observa-

ciones empıricas basadas en un metodo propio llevaron al descubrimiento de la memoria de

largo alcance en los procesos naturales. Fue uno de los primeros en proponer la construccion

del gran reservorio de Aswan.

Referencias:

• Harold E. Hurst, Long-term storage capacity of reservoirs, Trans. Am. Soc. Civil Engineers,

116, 770-808 (1951).

• B. B. Mandelbrot and J. R. Wallis, Robustness of the rescales range R/S in the measurement

of noncyclic long runstatistical dependence, Water Resources Research 5, 967–988 (1969).


Lluvias en Cordoba (1873–1992):


A partir de la serie temporal r(t) se fabrica el registro de incrementos acumulados:

ξ(t) =r(t)− 〈r(t)〉

σ, X(t) =

t∑u=1

ξ(u)


Se particiona el record en segmentos de igual duracion s y se define un subrecord restando la

tendencia:


D(u, t, s) = X(t + u)−X(t)

−u

s(X(t + s)−X(t))

R(t, s) = max0≤u≤s

D(u, t, s)− min0≤u≤s

D(u, t, s)

S2(t, s) =1

s

s∑w=1

ξ2(t + w)−

(1

s

s∑w=1

ξ(t + w)

)2


Ley de Hurst: < R(t, s)/S(t, s) >∼ sH con H > 1/2

En ausencia de memoria de largo alcance H = 1/2.


Correlacion en una serie temporal

C(s) =< ξ(t) ξ(t + s) >

Correlacion de corto alcance: C(s) ≈ exp(−s/τ )

Correlacion de largo alcance: C(s) ≈ s−γ

γ ≈ 2(1−H)

Correlacion de corto alcance: γ ≥ 1 o H = 1/2Correlacion de largo alcance: 0 < γ < 1 o H > 0.5

Dimension fractal del record: D = 2−H .


Detrended Fluctuation Analysis (DFA)

Serie temporal: secuencia de bases en ADN

r(t) = −1 base purica (adenina y guanina)r(t) = 1 base pirimıdica (timina o guanina)

DFA permite diferenciar regiones portadoras de “codigo”(tienen correlaciones de largo alcance) del resto.

Referencias:

• C.-K. Peng, S. V. Buldyrev S. Havlin, M. Simons, H. E. Stanley and A. L. Goldberger. Mosaic

organization of DNA nucleotides, Phys. Rev. E 49, 1685–1689 (1994).

• J. W. Kantelhardt, E. Koscielny-Bunde, H. A. Rego, S. Havlin and A. Bunde. Detecting

long–range correlations with detrended fluctuation analysis, Physica A 295 441–454, (2001).


Linguıstica CuantitativaLista de rango y frecuencia para algunas palabras de The Origin of Species

(192665 palabras con un vocabulario de 8294 palabras distintas).

r(w) Palabra w f(w) r(w) Palabra w f(w)1 the 13.414 200 us 1192 of 9030 300 flower 843 and 5508 400 ordinary 654 in 5002 500 places 505 to 4514 600 archipelago 41

12 species 1791 700 against 3520 with 1383 800 acts 3030 other 905 900 stocked 2640 an 698 1.000 cirripedes 2250 when 516 2.000 vertebrae 960 thus 384 3.000 pedunculated 470 such 334 4.000 kill 380 under 305 5.000 cuts 290 even 277 6.000 heavily 1

100 should 250 8.000 natatory 1


Ley de Zipf f (w) ≈ r(w)−α, α ≈ 1

Referencia:

• G. K. Zipf, Human Behavior and the Principle of Least Effort

(Addison-Wesley, Reading, 1949).


Texto Aleatorio“Random shuffling”: Se genera con una permutacion al azar de todas las palabras de

un corpus. La tabla de rango-frecuencia de Zipf queda intacta.

Texto Markoviano

A partir de un dado corpus se construye la tabla de probabilidades para la siguiente letra:

A → pa

B → pb

TION SC C → pc

D → pd...

Ejemplo a partir del corpus de Shakespeare:

“MY FATHER STAY JAQUES ROSALINE THOUSAND YEA THEREFORE SUCH A SCURVY FELLOWS MEADS

AND OTHER ADDER WHERE O WHERE WERE AWAKE HIM OFF MY HOUSEHOLD WORMS OF NINE O

CLOCK OR A HUSBAND THAT WHICH HE PAINTER IN WHAT MAN IT MUST BE PITIED IN THE TRUTH OF

TWELVE AND IN DORSET NOR ADMIRATION EXIT COSTARD UNDER A WEATHER DROWN D COURTESY

YOURSELF OUR QUEEN ELIZABETH NAY AS THEREFORE MASTERLY”


Codificacion del “corpus” literario

Se construye una serie de incrementos a partir de

un corpus substituyendo cada palabra por su cor-

respondiente rango de Zipf. El texto queda ası

codificado como una secuencia se rangos de Zipf,

y dada la tabla de equivalencias rango-palabra el

contenido de informacion queda intacto.


Estimacion de H en “Corpora” Literarios

source original sequence truncation (5) sentences shuffled ranks shuffled

Shakespeare (1) 0.687± 0.040 0.658± 0.036 0.574± 0.035 0.524± 0.020Dickens (2) 0.738± 0.033 0.660± 0.034 0.573± 0.025 0.520± 0.021Darwin (3) 0.745± 0.045 0.678± 0.043 0.576± 0.033Simon’s model 0.550± 0.040 0.519± 0.032Markovian text (4) 0.533± 0.028

(1) 36 plays: 885534 words

(2) 56 books: 5616403 words

(3) 11 books: 1508483 words

(4) 1.2× 106 words generated from the the Shakespeare corpus with memory of 7 letters

(5) all ranks outside the interval 100 < rank < 2000 were deleted sequence

Referencia:

• Marcelo A. Montemurro and Pedro A. Pury. Long-Range Fractal Correlations in Literary

Corpora, Fractals 10, 451–461 (2002)


Estimacion de H en un diccionarioWebster’s abridged dictionary (edition 1913)

Webster’s Dictionary H

original sequence 0.690± 0.031sequence without abbr. 0.699± 0.036entries shuffled (1) 0.548± 0.025

(1) from the text without abbreviations


El “clustering” de las palabras

Posiciones absolutas de las palabras en “The Origin of Species by means of Natural Selection”


Distancia entre apariciones de una palabra

Desviacion estandar de la distancia entre apariciones de una dada palabra (normalizadas al texto aleatorio) vs. su rango;

correspondiente a “The Origin of Species by means of Natural Selection”


Longitud de “palabra” en ADN

2 E. coli (genome completo)

4 S. cerevisiae (genome completo)

◦ C. elegans (genome completo)

• H. sapiens (22 millones de pares del cromosoma 22)

Referencia:

• M.Ortuno et al.. Keyword detection in natural languages and DNA, Europhys. Lett. 57,

759–764 (2002).


Entropıa de la Distribucion de las Palabras

Se divide el texto en P partes y en cada una de ellas se computa la fraccion de apariciones de lapalabra w con respecto al numero total de palabras en la i-esima particion: fi(w) = ni(w)/Ni,y se construye la probabilidad de encontrar la palabra w en la particion i, dado que aparece enel texto:

pi(w) =fi(w)∑P

j=1 fj(w)

Se la utiliza en la entropıa se Shannon:

S(w) = − 1ln(P )

∑Pi=1 pi(w) ln(pi(w))

Para una distribucion uniforme pi = 1/P ⇒ S = 1.

Para una distribucion puntual pj = 1 y pi = 0 (i 6= j) ⇒ S = 0.

Referencia:

• Marcelo A. Montemurro and Damian H. Zanette. Entropic analysis of the role of words in

literary texts, Adv. Complex Systems, 5, 7-17 (2002).


Entropıa para el texto particionado en capıtulos

Para un texto aleatorio Con P partes iguales resulta: (1− S) n ≈ (P − 1)/(2 ln P ).


Ranking de keywordsPalabra Rango n σ (1− S) n

HYBRIDS 184 131 5.043 41.505STERILITY 262 95 5.636 30.208SPECIES 12 1791 1.922 30.078FORMS 49 524 2.291 27.121VARIETIES 58 426 3.079 25.182INSTINCTS 315 82 4.666 24.678BREEDS 190 127 3.080 22.455FERTILITY 333 79 3.849 20.232FORMATIONS 249 100 3.404 20.217CROSSED 255 97 3.839 20.076SELECTION 52 492 2.233 19.808ORGANS 138 179 2.820 19.127NEST 441 58 3.365 18.381INSTINCT 405 64 4.154 17.935RUDIMENTARY 319 81 3.345 17.432FORMATION 248 100 2.416 17.067BEES 342 77 4.080 16.861PLANTS 59 391 2.532 16.860CELLS 433 60 3.450 16.802POLLEN 218 112 3.705 16.322NATURAL 53 475 1.909 16.099GROUPS 132 190 2.695 15.768CROSSES 452 57 2.821 15.541WATER 186 129 2.709 14.827STERILE 371 70 3.441 13.981SEA 239 104 2.788 13.350SEEDS 197 120 2.793 12.740FERTILE 411 63 2.881 12.617ORGAN 275 91 3.590 12.375


Eficiencia en la deteccion de Keywords

De un total de 192.665 palabras correspondientes a un vocabulario de 8.294 entre las 283

primeras palabras del ranking se detectan con

(1− S) n: 118 palabras del glosario: 41, 7%

Referencia:

• Juan Pablo Herrera. Deteccion de Palabras Clave en Textos Literarios.

Trabajo Especial de Licenciatura en Computacion, Fa.M.A.F., 2005.

algunos aspectos de la complejidad en el lenguaje€¦ · •first •prev •next •last •go...

Documents