prof. dr. göran kauermann · prof. dr. göran kauermann is well renown researcher in the field of...

6
Prof. Dr. Göran Kauermann is well renown researcher in the field of statistics. He is a full Professor of Statistics in Germany and, since 2011 he holds the Chair of Statistics in Economics, Business Administration and Social Sciences at Ludwig- Maximilians-Universität München (LMU). He’s also the Spokesperson of the Elite Master's Programme in Data Science at LMU. On Friday, February 23 rd , he will give a seminar on Applied Statistics organized by the Applied Statistics Group of BCAM-Basque Center for Applied Mathematics and the UPV/ EHU Departments of Applied Economics III (Econometrics and Statistics) and Applied Mathematics, Statistics and Operations. The session, called “Statistical Models for Network Data Analysis – A Gentle Introduction”, is part of a series of seminars aimed to a general audience that intend to serve as a common ground and a meeting place for discussion and dissemination of Statistics and its potential applications. We’ve had the chance to interview Kauermann before his talk on Friday and here’s what he’s told us about Statistics, Big Data and Network Data Analysis: Thanks to technological advances the amount of data gathered nowadays has increased tremendously. How can statistics help analyse it? The avalanche of data and the challenges of the Big Data era have increased the reputation of statistics. Statistical reasoning and statistical thinking are important, well beyond the classical fields of statistics. This has led to the new scientific field of Data Science. Though the exact definition of Data Science is not consolidated yet, in my view, it is an intersection of statistics and computer science. The two disciplines approach data analysis from two different angles. While statisticians aim to answer the question “what’s going on”, data analytic tools from computer science (like machine learning) focus on prediction, that is they tackle the question “what happens next”. Both approaches are necessary and useful, dependent on the question and problem. In other words, yes, statistics can and should help to cope with the digital revolution, but it can only be successful if it goes hand in Prof. Dr. Göran Kauermann Statisticians aim to answer the question of what’s going on while Data Analytic tools from Computer Science focus on what happens next”

Upload: others

Post on 19-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Prof. Dr. Göran Kauermann · Prof. Dr. Göran Kauermann is well renown researcher in the field of statistics. He is a full Professor of Statistics in Germany and, since 2011 he holds

Prof. Dr. Göran Kauermann is well

renown researcher in the field of

statistics. He is a full Professor of

Statistics in Germany and, since 2011

he holds the Chair of Statistics in

Economics, Business Administration

and Social Sciences at Ludwig-

Maximilians-Universität München

(LMU). He’s also the Spokesperson of

the Elite Master's Programme in Data

Science at LMU.

On Friday, February 23rd, he will give a

s e m i n a r o n A p p l i e d S t a t i s t i c s

organized by the Applied Statistics

Group of BCAM-Basque Center for

Applied Mathematics and the UPV/

E H U D e p a r t m e n t s o f A p p l i e d

Economics III (Econometrics and

Statistics) and Applied Mathematics,

Statistics and Operations. The session,

called “Statistical Models for Network

Data Analysis – A Gentle Introduction”,

is part of a series of seminars aimed to

a general audience that intend to

serve as a common ground and a

meeting place for discussion and

dissemination of Statistics and its

potential applications.

We’ve had the chance to interview

Kauermann before his talk on Friday

and here’s what he’s told us about

Statistics, Big Data and Network Data

Analysis:

Thanks to technological advances the amount of data gathered nowadays has increased tremendously. How can statistics help analyse it?

The avalanche of data and the

challenges of the Big Data era have

increased the reputation of statistics.

Statistical reasoning and statistical

thinking are important, well beyond

the classical fields of statistics. This

has led to the new scientific field of

Data Science. Though the exact

definition of Data Science is not

consolidated yet, in my view, it is an

intersection of statistics and computer

science. The two disciplines approach

data analysis from two different

angles. While statisticians aim to

answer the question “what’s going

on”, data analytic tools from computer

science (like machine learning) focus

on prediction, that is they tackle the

question “what happens next”. Both

approaches are necessary and

useful, dependent on the question

and problem.

In other words, yes, statistics can

and should help to cope with the

digital revolution, but it can only

be successful if it goes hand in

Prof. Dr. Göran Kauermann

Statisticians aim to answer the question of what’s going on while Data Analytic tools from

Computer Science focus on what happens next”

Page 2: Prof. Dr. Göran Kauermann · Prof. Dr. Göran Kauermann is well renown researcher in the field of statistics. He is a full Professor of Statistics in Germany and, since 2011 he holds

hand with computer science in the

new direction of Data Science.

Having said that I also stress that

the traditional fields of statistics

(medical statistics, econometrics, etc.)

remain important at the same time.

Is it easier to work with big amounts of data or does it require more complex methods?

Certainly, statistics is challenged by

massive data, and some of our

routines just don’t work in Big Data.

But I don’t think it requires more

complex methods. Looking back,

statistical methods were always

limited by computational power and

flexibility, beginning with simple

matrix computation in the 50s and

now more complex methods now in

the big data era. However, some old,

t r a d i t i o n a l s t a t i s t i c a l a n d

computational ideas experience a

resurrection. Tensor methods and

linear algebra approximations (e.g.

singular value decomposition) are very

useful. Instead of analyzing all data

one pursues some approximations.

T h e m a t h e m a t i c a l c o n c e p t o f

sufficiency gets a new meaning.

Instead of working with all data, one

just calculates sufficient statistics,

which works even with large-scale

data. And after all, sampling appears

in new light, why analyzing all peta

byte of data instead of just drawing a

sample from the data. These are not

new or more complex methods, but

they are adapted and amended to new

and more complex data constellations.

You work in Network Data Analysis. How would you explain what that is?

Network data are very simple in

structure. A set of actors (nodes)

interact with each other (edges). The

interaction can be friendship, which is

just a zero/one coding (1 = friendship

b e t w e e n t w o n o d e s , 0 = n o

friendship), or it can be a valued

interaction, e.g. a trade flow between

actors. And even though the structure

is simple, the modelling of such data is

difficult if one assumes that the

existence of an edge depends on the

existence of other edges. That is to

say, if the edges, considered as

random variables, are mutually

dependent. The easiest form to

understand this is in a friendship

network. The chance of two actors to

build up friendship might depend on

the number friends these two actors

have in common. In other words, it

depends on other edges. Such mutual

dependence makes the modelling

exercise difficult.

What kind of network data do you usually analyse? Could you give us any examples?

The classical field of network data

analysis comes from social science,

where networks represent friendship

networks. However, the models and

methods are not limited to this kind of

network. Other examples are trading

network, interaction networks of

scientists, flow networks, etc.

What kind of statistical models do you use to work with that sort of data?

The workhorse in statistical network

data analysis is the Exponential

Random Graph Model. It considers the

network as a random matrix with 0/1

entries and models the probability of

such matrix in the form of an

exponential family distribution. This

a l l o w s f o r s o m e i n t u i t i v e

interpretation but suffers from

numerical hurdles. These will be

exemplified in the talk I’ll give at

BCAM.

Göran Kauermann’s seminar will be held at

BCAM (Alameda Mazarredo 14, Bilbao)

on Friday, February 23rd, at 13:00 pm.

[email protected] Tel. +34 946 567 842

Page 3: Prof. Dr. Göran Kauermann · Prof. Dr. Göran Kauermann is well renown researcher in the field of statistics. He is a full Professor of Statistics in Germany and, since 2011 he holds

Göran Kauermann es un reconocido

investigador en el campo de la

e s t a d í s t i c a . E s C a t e d r á t i c o d e

Estadística en Alemania y, desde 2011,

ocupa la Cátedra de Estadística en

E c o n o m í a , A d m i n i s t r a c i ó n d e

Empresas y Ciencias Sociales en la

Ludwig-Maximil ians-Universität

München (LMU). También es el

Portavoz del Programa Elite Master en

Ciencias de Datos en la LMU.

El viernes 23 de febrero impartirá un

seminario sobre Estadística Aplicada

organizado por el Grupo de Estadística

A p l i c a d a d e l C e n t r o V a s c o d e

Matemática Aplicada (BCAM) y los

Departamentos de Economía Aplicada

III (Econometría y Estadística) y

Matemática Aplicada, Estadísticas y

Operaciones de la UPV / EHU. La

sesión, titulada "Statistical models for

network data analysis – a gentle

introduction (Modelos estadísticos

para el análisis de datos en red: una

introducción que todos podremos

comprender", forma parte de una serie

de seminarios que pretenden servir

c o m o b a s e c o m ú n y l u g a r d e

encuentro para el debate y la difusión

de la Estadística y sus posibles

apl icac iones . Hemos tenido la

o p o r t u n i d a d d e e n t r e v i s t a r a

Kauermann antes de su presentación

del viernes y esto es lo que nos ha

contado sobre la Estadística, el Big

Data y el Análisis de Datos en Red:

Gracias a los avances tecnológicos actualmente se recopila una cantidad de datos enormemente mayor. ¿Cómo ayuda la estadística a analizarla?

La avalancha de datos y los desafíos de

la era del Big Data han incrementado

el prestigio de la estadística. El

r a z o n a m i e n t o e s t a d í s t i c o y e l

p e n s a m i e n t o e s t a d í s t i c o s o n

importantes, mucho más allá de las

áreas clásicas de la estadística. Esto ha

dado lugar al nuevo campo científico

de la Ciencia de Datos. Aunque la

definición exacta de Ciencia de Datos

aún no está consolidada, en mi

opinión, es una confluencia de la

estadística y la informática. Cada

disciplina aborda el análisis de datos

desde ángulos diferentes. Si bien la

estadística busca responder a la

pregunta "¿qué está pasando?", las

herramientas de análisis de datos de la

informática (como el aprendizaje

a u t o m á t i c o ) s e c e n t r a n e n l a

predicción, es decir, abordan la

pregunta "¿qué sucede después?".

Ambos enfoques son necesarios y

útiles, dependiendo de la pregunta y el

problema. En otras palabras, sí, la

estadística puede y debe ayudar guiar

la revolución digital, pero solo puede

tener éxito si lo hace de la mano de la

informática en la nueva dirección de la

Ciencia de Datos. Dicho esto, también

Prof. Dr. Göran KauermannLa estadística busca responder a la pregunta ¿qué está pasando?, mientras que las herramientas de análisis de

datos de la informática se centran en la predicción”

Page 4: Prof. Dr. Göran Kauermann · Prof. Dr. Göran Kauermann is well renown researcher in the field of statistics. He is a full Professor of Statistics in Germany and, since 2011 he holds

quiero destacar que los campos

tradic ionales de la estadíst ica

(estadística médica, econometría, etc.)

siguen siendo igual de importantes

que antes.

¿Es más fácil trabajar con grandes cantidades de datos o requiere métodos más complejos?

Ciertamente, la estadística debe lidiar

con una cantidad masiva de datos, y

a l g u n a s d e n u e s t r a s r u t i n a s

simplemente no funcionan en Big

Data. Pero no me parece que se

requiera de métodos más complejos.

E n r e t r o s p e c t i v a , l o s m é t o d o s

estadísticos siempre han estado

limitados por el poder y la flexibilidad

computacional, comenzando por la

computación matricial simple en los

años 50 y ahora con métodos más

complejos en la actual era del big data.

S i n e m b a r g o , a l g u n a s i d e a s

estadísticas y computacionales

antiguas han resurgido. Los métodos

tensoriales y las aproximaciones de

álgebra lineal (por ejemplo, la

descomposición en valores singulares)

son muy útiles. En lugar de analizar

todos los datos, se opta por utilizar

alguna aproximación. El concepto

matemático de suficiencia adquiere un

nuevo significado. En lugar de trabajar

con todos los datos, uno simplemente

calcula el estadístico suficiente, que

funciona incluso con datos a gran

escala. Y después de todo, el muestreo

aparece en una nueva faceta, ¿por qué

analizar todos los petabytes de datos

en lugar de simplemente extraer una

muestra de ellos? Estos no son

métodos nuevos o más complejos,

pero se adaptan y modifican a tenor

de las nuevas y más complejas

constelaciones de datos.

Trabaja en Análisis de Datos en Red. ¿Cómo explicaría en qué consiste?

os datos en red tienen una estructura

muy simple. Una serie de actores

(nodos) interactúan entre sí (aristas).

La interacción puede ser de amistad,

que no es más que una codificación

cero / uno (1 = amistad entre dos

nodos, 0 = sin amistad), o puede ser

una interacción de valor, por ejemplo,

un intercambio entre los actores. Y a

pesar de que la estructura es simple, el

modelado de este tipo de datos es

complejo s i se supone que la

existencia de una arista depende de la

existencia de otras aristas. Es decir, si

las aristas, consideradas como

variables aleatorias, son mutuamente

dependientes. La forma más sencilla

de entender esto es una red de

amistad. La posibilidad de que dos

actores construyan una amistad puede

depender del número de amigos que

estos dos actores tienen en común. En

otras palabras, depende de otras

aristas. Tal dependencia mutua

dificulta el ejercicio de modelado.

¿Qué tipo de datos en red analiza generalmente? ¿Podría darnos algún ejemplo?

El ámbito clásico del análisis de datos

en red proviene de las ciencias

sociales, donde las redes representan

redes de amistad. Sin embargo, los

modelos y métodos no están limitados

a este tipo de red. Otros ejemplos son

r e d e s c o m e r c i a l e s , r e d e s d e

interacción de científicos, redes de

flujo, etc.

¿Qué tipo de modelos estadísticos utiliza para trabajar con ese tipo de datos?

El caballo de batalla en el análisis

estadístico de datos en red es el

m o d e l o d e g r a f o s a l e a t o r i o s

exponenciales. Considera la red como

una matriz aleatoria con entradas 0/1

y modela la probabilidad de dicha

matriz en forma de una familia de

distribución exponencial. Esto permite

realizar una interpretación intuitiva

pero adolece de trabas numéricas. Esto

se ejemplificará en la charla que daré

el viernes.

El seminario de Göran Kauermann tendrá lugar

en BCAM (Alameda Mazarredo 14, Bilbao) el viernes 23 de febrero a

las 13:00 pm.

[email protected] Tel. +34 946 567 842

Page 5: Prof. Dr. Göran Kauermann · Prof. Dr. Göran Kauermann is well renown researcher in the field of statistics. He is a full Professor of Statistics in Germany and, since 2011 he holds

Göran Kauermann estatistikaren

arloko izen handiko ikertzailea da.

E s t a t i s t i k a k o k a t e d r a d u n a d a

Alemanian, eta Ludwig-Maximilians-

Universität München-eko (LMU)

Ekonomiaren Estatistikako, Enpresen

A d m i n i s t r a z i o k o e t a Z i e n t z i a

Sozialetako katedraren arduradun da

2011z geroztik. Halaber, LMUko Datuen

Zientziako Elite Master Programaren

ordezkaria da.

Otsailaren 23an, ostiralean, Estatistika

Aplikatuari buruzko mintegi bat

emango du, Matematika Aplikatuen

Euskal Zentroko (BCAM) Estatistika

Aplikatuen taldeak eta UPV/EHUko

Ekonomia Aplikatua III (Ekonometria

eta Estatistika) eta Matematika

Aplikatua, Estatistika eta Ikerkuntza

O p e r a t i b o a s a i l e k a n t o l a t u t a .

“Statistical Models for Network Data

Analysis – A Gentle Introduction” da

saioaren izenburua (Sareko datu-

analisia egiteko eredu estatistikoak:

sarrera samurra). Estatistikaz eta hark

i z a n d i t z a k e e n a p l i k a z i o e z

eztabaidatzeko eta dibulgatzeko

a r d a t z e t a t o p a g u n e i z a t e k o

h e l b u r u a r e k i n a n t o l a t u t a k o

mintegietako bat da.

Kauermann ostiraleko hitzaldia baino

lehen elkarrizketatzeko aukera izan

d u g u , e t a h a u x e e s a n d i g u

estatistikari, Big Datari eta sareko

datu-analisiari buruz: 

Aurrerapen teknologikoei esker, ikaragarri handitu da gaur egun biltzen den datu-kantitatea. Nola lagundu dezake estatistikak datuok analizatzen?

Gaur egungo datu-oldeak eta Big

Dataren aroaren erronkek asko

handitu dute estatistikaren ospea.

Arrazonamendu estatistikoa eta

p e n t s a m e n d u e s t a t i s t i k o a

garrantzitsuak dira, estatistikaren

ohiko eremuetatik kanpo ere. Horrek

eremu zientifiko berri bat ekarri du,

D a t u e n Z i e n t z i a r e n a . D a t u e n

Zientziaren definizio zehatza oraindik

ezarri ez den arren, nire ustez,

estatistikaren eta informatikaren

arteko elkargunea da. Bi jakintza-

arloek bi ikuspegitatik heltzen diote

datu-analisiari. Estatistikak “zer ari da

gertatzen?” galderari erantzun nahi

dio, eta, bestalde, datu-analisiko

erreminta informatikoak (hala nola

ikasketa automatikoa) predikzioaz

arduratzen dira, alegia, “zer gertatuko

da gero?” galderari erantzun nahi

diote. Bi ikuspegiak dira beharrezkoak

eta erabilgarriak, galderaren eta

arazoaren arabera. Beste era batera

esanda, bai, estatistikak iraultza

digitalari aurre egiten lagundu

dakioke eta lagundu beharko lioke,

baina arrakasta izango du soilik

informatikarekin batera jotzen badu

Datuen Zientziaren norabide berrian.

Nolanahi ere, nabarmendu nahi dut

Göran Kauermann doktorea

Estatistikak “zer ari da gertatzen?” galderari erantzun nahi dio eta d a t u - a n a l i s i k o

e r r e m i n t a i n f o r m a t i k o a k predikzioaz arduratzen dira”

Page 6: Prof. Dr. Göran Kauermann · Prof. Dr. Göran Kauermann is well renown researcher in the field of statistics. He is a full Professor of Statistics in Germany and, since 2011 he holds

estatistikaren ohiko arloak (estatistika

medikoa, ekonometria eta abar) lehen

bezain garrantzitsu izaten jarraitzen

dutela.

E r r a z a g o a d a d a t u - k a n t i t a t e handiekin lan egitea edo metodo konplexuagoak behar dira?

Zalantzarik gabe, datu-kantitate oso

h a n d i a k e r r o n k a d i r a

e s t a t i s t i k a r e n t z a t , e t a g u r e

errutinetako askok ez dute balio Big

Datarako. Baina ez dut uste metodo

konplexuagorik behar denik. Atzera

b e g i r a , m e t o d o e s t a t i s t i k o a k

mugatuta egon izan dira beti ahalmen

eta malgutasun konputazionalaren

a r a b e r a ; 5 0 e k o h a m a r k a d a k o

konputazio matrizial sinpletik hasi eta

Big Dataren aroaren oraingo metodo

konplexuagoetaraino. Hala ere,

berpiztu egin dira lehengo ohiko

z e n b a i t i d e i a e s t a t i s t i k o e t a

konputazional. Oso erabilgarriak dira

tentsore-metodoak eta a l jebra

linealeko hurbilketak (adibidez, balio

singularretako deskonposizioa). Datu

guztiak analizatu beharrean, zenbait

h u r b i l k e t a e r a b i l t z e n d i r a .

M a t e m a t i k a k o n a h i k o t a s u n

kontzeptuak beste esanahi bat

hartzen du. Datu guztiekin jardun

beharrean, estat ist iko nahikoa

kalkulatzen da, zeinak datu-eskala

handietarako ere balio baitu. Azken

batean, lagina beste ikuspegi batetik

hartzen dugu: zertarako aztertu datu-

petabyte guztiak, datuetatik lagin bat

atera beharrean? Horiek ez dira

metodo berri edo konplexuagoak,

baizik eta egokitu eta eraldatu egin

dira datu-konstelazio berri eta

konplexuagoen arabera.

Sareko datu-analisian aritzen zara. Nola azalduko zenuke zer den hori?

Sareko datuek oso egitura sinplea

d u t e . M u l t z o b a t e k o a k t o r e a k

(nodoak) elkarrekiko interakzioan

d a b i l t z a ( e r t z a k ) . I n t e r a k z i o a

adiskidetasunezkoa izan daiteke, zeina

zero/bat kodeketa besterik ez baita (1

= bi nodoren arteko adiskidetasuna, 0

= adiskidetasunik ez), edo baliozko

interakzio bat izan daiteke, adibidez,

aktoreen arteko truke-fluxua. Egitura

sinplea bada ere, zaila da halako

datuak modelizatzea, baldin eta jotzen

bada ertz baten existentzia beste ertz

batzuen existentziaren araberakoa

dela. Alegia, baldin eta ertzak, ausazko

a l d a g a i g i s a h a r t u z , e l k a r r e n

m e n d e k o a k b a d i r a . H o r i

adiskidetasunezko sare baten bidez

ulertzen da errazen. Bi aktorek

adiskidetasun bat eraikitzeko duten

posibilitatea honen araberakoa izan

daiteke: bi aktore horiek zenbat lagun

komun dituzten. Beste era batera

esanda, beste ertzen araberakoa

izango da. Elkarrekiko mendetasun

horrek modelizazio-eragiketa zailtzen

du.

Zer sare-datu mota analizatu ohi duzu zuk? Adibideren bat emango diguzu?

Sareko datu-analisiaren ohiko eremua

d i r a g i z a r t e - z i e n t z i a k , n o n

adiskidetasun-sareak adierazten

baitira sareetan. Nolanahi ere, ereduak

eta metodoak ez dira mugatzen sare-

mota horretara. Beste zenbait adibide:

salerosketa-sareak, zientzialarien

harreman-sareak, fluxu-sareak…

Zer eredu estatistiko mota erabiltzen duzu datu-mota horrekin lan egiteko?

Sareko datu-analisi estatistikoaren

m u i n a d a a u s a z k o g r a f o

esponentzialen eredua. Ereduaren

arabera, 0/1 sarrerak dituen ausazko

matrizetzat hartzen da sarea, eta

familia-banaketa esponentzial baten

gisara modelizatzen du matrizearen

probabilitatea. Horrek aukera ematen

du zenbait interpretazio intuitibo

egiteko, baina baditu zenbakizko

trabak ere. Hori guztia azalduko dut

adibideak erabiliz, ostiralean emango

dudan hitzaldian.

Göran Kauermannen mintegia BCAMen

izango da (Mazarredo Zumarkalea 14, Bilbao)

otsailaren 23an, ostirala, 13:00etan.

[email protected] Tel. +34 946 567 842