Prof. Dr. Göran Kauermann is well
renown researcher in the field of
statistics. He is a full Professor of
Statistics in Germany and, since 2011
he holds the Chair of Statistics in
Economics, Business Administration
and Social Sciences at Ludwig-
Maximilians-Universität München
(LMU). He’s also the Spokesperson of
the Elite Master's Programme in Data
Science at LMU.
On Friday, February 23rd, he will give a
s e m i n a r o n A p p l i e d S t a t i s t i c s
organized by the Applied Statistics
Group of BCAM-Basque Center for
Applied Mathematics and the UPV/
E H U D e p a r t m e n t s o f A p p l i e d
Economics III (Econometrics and
Statistics) and Applied Mathematics,
Statistics and Operations. The session,
called “Statistical Models for Network
Data Analysis – A Gentle Introduction”,
is part of a series of seminars aimed to
a general audience that intend to
serve as a common ground and a
meeting place for discussion and
dissemination of Statistics and its
potential applications.
We’ve had the chance to interview
Kauermann before his talk on Friday
and here’s what he’s told us about
Statistics, Big Data and Network Data
Analysis:
Thanks to technological advances the amount of data gathered nowadays has increased tremendously. How can statistics help analyse it?
The avalanche of data and the
challenges of the Big Data era have
increased the reputation of statistics.
Statistical reasoning and statistical
thinking are important, well beyond
the classical fields of statistics. This
has led to the new scientific field of
Data Science. Though the exact
definition of Data Science is not
consolidated yet, in my view, it is an
intersection of statistics and computer
science. The two disciplines approach
data analysis from two different
angles. While statisticians aim to
answer the question “what’s going
on”, data analytic tools from computer
science (like machine learning) focus
on prediction, that is they tackle the
question “what happens next”. Both
approaches are necessary and
useful, dependent on the question
and problem.
In other words, yes, statistics can
and should help to cope with the
digital revolution, but it can only
be successful if it goes hand in
Prof. Dr. Göran Kauermann
Statisticians aim to answer the question of what’s going on while Data Analytic tools from
Computer Science focus on what happens next”
“
hand with computer science in the
new direction of Data Science.
Having said that I also stress that
the traditional fields of statistics
(medical statistics, econometrics, etc.)
remain important at the same time.
Is it easier to work with big amounts of data or does it require more complex methods?
Certainly, statistics is challenged by
massive data, and some of our
routines just don’t work in Big Data.
But I don’t think it requires more
complex methods. Looking back,
statistical methods were always
limited by computational power and
flexibility, beginning with simple
matrix computation in the 50s and
now more complex methods now in
the big data era. However, some old,
t r a d i t i o n a l s t a t i s t i c a l a n d
computational ideas experience a
resurrection. Tensor methods and
linear algebra approximations (e.g.
singular value decomposition) are very
useful. Instead of analyzing all data
one pursues some approximations.
T h e m a t h e m a t i c a l c o n c e p t o f
sufficiency gets a new meaning.
Instead of working with all data, one
just calculates sufficient statistics,
which works even with large-scale
data. And after all, sampling appears
in new light, why analyzing all peta
byte of data instead of just drawing a
sample from the data. These are not
new or more complex methods, but
they are adapted and amended to new
and more complex data constellations.
You work in Network Data Analysis. How would you explain what that is?
Network data are very simple in
structure. A set of actors (nodes)
interact with each other (edges). The
interaction can be friendship, which is
just a zero/one coding (1 = friendship
b e t w e e n t w o n o d e s , 0 = n o
friendship), or it can be a valued
interaction, e.g. a trade flow between
actors. And even though the structure
is simple, the modelling of such data is
difficult if one assumes that the
existence of an edge depends on the
existence of other edges. That is to
say, if the edges, considered as
random variables, are mutually
dependent. The easiest form to
understand this is in a friendship
network. The chance of two actors to
build up friendship might depend on
the number friends these two actors
have in common. In other words, it
depends on other edges. Such mutual
dependence makes the modelling
exercise difficult.
What kind of network data do you usually analyse? Could you give us any examples?
The classical field of network data
analysis comes from social science,
where networks represent friendship
networks. However, the models and
methods are not limited to this kind of
network. Other examples are trading
network, interaction networks of
scientists, flow networks, etc.
What kind of statistical models do you use to work with that sort of data?
The workhorse in statistical network
data analysis is the Exponential
Random Graph Model. It considers the
network as a random matrix with 0/1
entries and models the probability of
such matrix in the form of an
exponential family distribution. This
a l l o w s f o r s o m e i n t u i t i v e
interpretation but suffers from
numerical hurdles. These will be
exemplified in the talk I’ll give at
BCAM.
Göran Kauermann’s seminar will be held at
BCAM (Alameda Mazarredo 14, Bilbao)
on Friday, February 23rd, at 13:00 pm.
[email protected] Tel. +34 946 567 842
Göran Kauermann es un reconocido
investigador en el campo de la
e s t a d í s t i c a . E s C a t e d r á t i c o d e
Estadística en Alemania y, desde 2011,
ocupa la Cátedra de Estadística en
E c o n o m í a , A d m i n i s t r a c i ó n d e
Empresas y Ciencias Sociales en la
Ludwig-Maximil ians-Universität
München (LMU). También es el
Portavoz del Programa Elite Master en
Ciencias de Datos en la LMU.
El viernes 23 de febrero impartirá un
seminario sobre Estadística Aplicada
organizado por el Grupo de Estadística
A p l i c a d a d e l C e n t r o V a s c o d e
Matemática Aplicada (BCAM) y los
Departamentos de Economía Aplicada
III (Econometría y Estadística) y
Matemática Aplicada, Estadísticas y
Operaciones de la UPV / EHU. La
sesión, titulada "Statistical models for
network data analysis – a gentle
introduction (Modelos estadísticos
para el análisis de datos en red: una
introducción que todos podremos
comprender", forma parte de una serie
de seminarios que pretenden servir
c o m o b a s e c o m ú n y l u g a r d e
encuentro para el debate y la difusión
de la Estadística y sus posibles
apl icac iones . Hemos tenido la
o p o r t u n i d a d d e e n t r e v i s t a r a
Kauermann antes de su presentación
del viernes y esto es lo que nos ha
contado sobre la Estadística, el Big
Data y el Análisis de Datos en Red:
Gracias a los avances tecnológicos actualmente se recopila una cantidad de datos enormemente mayor. ¿Cómo ayuda la estadística a analizarla?
La avalancha de datos y los desafíos de
la era del Big Data han incrementado
el prestigio de la estadística. El
r a z o n a m i e n t o e s t a d í s t i c o y e l
p e n s a m i e n t o e s t a d í s t i c o s o n
importantes, mucho más allá de las
áreas clásicas de la estadística. Esto ha
dado lugar al nuevo campo científico
de la Ciencia de Datos. Aunque la
definición exacta de Ciencia de Datos
aún no está consolidada, en mi
opinión, es una confluencia de la
estadística y la informática. Cada
disciplina aborda el análisis de datos
desde ángulos diferentes. Si bien la
estadística busca responder a la
pregunta "¿qué está pasando?", las
herramientas de análisis de datos de la
informática (como el aprendizaje
a u t o m á t i c o ) s e c e n t r a n e n l a
predicción, es decir, abordan la
pregunta "¿qué sucede después?".
Ambos enfoques son necesarios y
útiles, dependiendo de la pregunta y el
problema. En otras palabras, sí, la
estadística puede y debe ayudar guiar
la revolución digital, pero solo puede
tener éxito si lo hace de la mano de la
informática en la nueva dirección de la
Ciencia de Datos. Dicho esto, también
Prof. Dr. Göran KauermannLa estadística busca responder a la pregunta ¿qué está pasando?, mientras que las herramientas de análisis de
datos de la informática se centran en la predicción”
“
quiero destacar que los campos
tradic ionales de la estadíst ica
(estadística médica, econometría, etc.)
siguen siendo igual de importantes
que antes.
¿Es más fácil trabajar con grandes cantidades de datos o requiere métodos más complejos?
Ciertamente, la estadística debe lidiar
con una cantidad masiva de datos, y
a l g u n a s d e n u e s t r a s r u t i n a s
simplemente no funcionan en Big
Data. Pero no me parece que se
requiera de métodos más complejos.
E n r e t r o s p e c t i v a , l o s m é t o d o s
estadísticos siempre han estado
limitados por el poder y la flexibilidad
computacional, comenzando por la
computación matricial simple en los
años 50 y ahora con métodos más
complejos en la actual era del big data.
S i n e m b a r g o , a l g u n a s i d e a s
estadísticas y computacionales
antiguas han resurgido. Los métodos
tensoriales y las aproximaciones de
álgebra lineal (por ejemplo, la
descomposición en valores singulares)
son muy útiles. En lugar de analizar
todos los datos, se opta por utilizar
alguna aproximación. El concepto
matemático de suficiencia adquiere un
nuevo significado. En lugar de trabajar
con todos los datos, uno simplemente
calcula el estadístico suficiente, que
funciona incluso con datos a gran
escala. Y después de todo, el muestreo
aparece en una nueva faceta, ¿por qué
analizar todos los petabytes de datos
en lugar de simplemente extraer una
muestra de ellos? Estos no son
métodos nuevos o más complejos,
pero se adaptan y modifican a tenor
de las nuevas y más complejas
constelaciones de datos.
Trabaja en Análisis de Datos en Red. ¿Cómo explicaría en qué consiste?
os datos en red tienen una estructura
muy simple. Una serie de actores
(nodos) interactúan entre sí (aristas).
La interacción puede ser de amistad,
que no es más que una codificación
cero / uno (1 = amistad entre dos
nodos, 0 = sin amistad), o puede ser
una interacción de valor, por ejemplo,
un intercambio entre los actores. Y a
pesar de que la estructura es simple, el
modelado de este tipo de datos es
complejo s i se supone que la
existencia de una arista depende de la
existencia de otras aristas. Es decir, si
las aristas, consideradas como
variables aleatorias, son mutuamente
dependientes. La forma más sencilla
de entender esto es una red de
amistad. La posibilidad de que dos
actores construyan una amistad puede
depender del número de amigos que
estos dos actores tienen en común. En
otras palabras, depende de otras
aristas. Tal dependencia mutua
dificulta el ejercicio de modelado.
¿Qué tipo de datos en red analiza generalmente? ¿Podría darnos algún ejemplo?
El ámbito clásico del análisis de datos
en red proviene de las ciencias
sociales, donde las redes representan
redes de amistad. Sin embargo, los
modelos y métodos no están limitados
a este tipo de red. Otros ejemplos son
r e d e s c o m e r c i a l e s , r e d e s d e
interacción de científicos, redes de
flujo, etc.
¿Qué tipo de modelos estadísticos utiliza para trabajar con ese tipo de datos?
El caballo de batalla en el análisis
estadístico de datos en red es el
m o d e l o d e g r a f o s a l e a t o r i o s
exponenciales. Considera la red como
una matriz aleatoria con entradas 0/1
y modela la probabilidad de dicha
matriz en forma de una familia de
distribución exponencial. Esto permite
realizar una interpretación intuitiva
pero adolece de trabas numéricas. Esto
se ejemplificará en la charla que daré
el viernes.
El seminario de Göran Kauermann tendrá lugar
en BCAM (Alameda Mazarredo 14, Bilbao) el viernes 23 de febrero a
las 13:00 pm.
[email protected] Tel. +34 946 567 842
Göran Kauermann estatistikaren
arloko izen handiko ikertzailea da.
E s t a t i s t i k a k o k a t e d r a d u n a d a
Alemanian, eta Ludwig-Maximilians-
Universität München-eko (LMU)
Ekonomiaren Estatistikako, Enpresen
A d m i n i s t r a z i o k o e t a Z i e n t z i a
Sozialetako katedraren arduradun da
2011z geroztik. Halaber, LMUko Datuen
Zientziako Elite Master Programaren
ordezkaria da.
Otsailaren 23an, ostiralean, Estatistika
Aplikatuari buruzko mintegi bat
emango du, Matematika Aplikatuen
Euskal Zentroko (BCAM) Estatistika
Aplikatuen taldeak eta UPV/EHUko
Ekonomia Aplikatua III (Ekonometria
eta Estatistika) eta Matematika
Aplikatua, Estatistika eta Ikerkuntza
O p e r a t i b o a s a i l e k a n t o l a t u t a .
“Statistical Models for Network Data
Analysis – A Gentle Introduction” da
saioaren izenburua (Sareko datu-
analisia egiteko eredu estatistikoak:
sarrera samurra). Estatistikaz eta hark
i z a n d i t z a k e e n a p l i k a z i o e z
eztabaidatzeko eta dibulgatzeko
a r d a t z e t a t o p a g u n e i z a t e k o
h e l b u r u a r e k i n a n t o l a t u t a k o
mintegietako bat da.
Kauermann ostiraleko hitzaldia baino
lehen elkarrizketatzeko aukera izan
d u g u , e t a h a u x e e s a n d i g u
estatistikari, Big Datari eta sareko
datu-analisiari buruz:
Aurrerapen teknologikoei esker, ikaragarri handitu da gaur egun biltzen den datu-kantitatea. Nola lagundu dezake estatistikak datuok analizatzen?
Gaur egungo datu-oldeak eta Big
Dataren aroaren erronkek asko
handitu dute estatistikaren ospea.
Arrazonamendu estatistikoa eta
p e n t s a m e n d u e s t a t i s t i k o a
garrantzitsuak dira, estatistikaren
ohiko eremuetatik kanpo ere. Horrek
eremu zientifiko berri bat ekarri du,
D a t u e n Z i e n t z i a r e n a . D a t u e n
Zientziaren definizio zehatza oraindik
ezarri ez den arren, nire ustez,
estatistikaren eta informatikaren
arteko elkargunea da. Bi jakintza-
arloek bi ikuspegitatik heltzen diote
datu-analisiari. Estatistikak “zer ari da
gertatzen?” galderari erantzun nahi
dio, eta, bestalde, datu-analisiko
erreminta informatikoak (hala nola
ikasketa automatikoa) predikzioaz
arduratzen dira, alegia, “zer gertatuko
da gero?” galderari erantzun nahi
diote. Bi ikuspegiak dira beharrezkoak
eta erabilgarriak, galderaren eta
arazoaren arabera. Beste era batera
esanda, bai, estatistikak iraultza
digitalari aurre egiten lagundu
dakioke eta lagundu beharko lioke,
baina arrakasta izango du soilik
informatikarekin batera jotzen badu
Datuen Zientziaren norabide berrian.
Nolanahi ere, nabarmendu nahi dut
Göran Kauermann doktorea
Estatistikak “zer ari da gertatzen?” galderari erantzun nahi dio eta d a t u - a n a l i s i k o
e r r e m i n t a i n f o r m a t i k o a k predikzioaz arduratzen dira”
“
estatistikaren ohiko arloak (estatistika
medikoa, ekonometria eta abar) lehen
bezain garrantzitsu izaten jarraitzen
dutela.
E r r a z a g o a d a d a t u - k a n t i t a t e handiekin lan egitea edo metodo konplexuagoak behar dira?
Zalantzarik gabe, datu-kantitate oso
h a n d i a k e r r o n k a d i r a
e s t a t i s t i k a r e n t z a t , e t a g u r e
errutinetako askok ez dute balio Big
Datarako. Baina ez dut uste metodo
konplexuagorik behar denik. Atzera
b e g i r a , m e t o d o e s t a t i s t i k o a k
mugatuta egon izan dira beti ahalmen
eta malgutasun konputazionalaren
a r a b e r a ; 5 0 e k o h a m a r k a d a k o
konputazio matrizial sinpletik hasi eta
Big Dataren aroaren oraingo metodo
konplexuagoetaraino. Hala ere,
berpiztu egin dira lehengo ohiko
z e n b a i t i d e i a e s t a t i s t i k o e t a
konputazional. Oso erabilgarriak dira
tentsore-metodoak eta a l jebra
linealeko hurbilketak (adibidez, balio
singularretako deskonposizioa). Datu
guztiak analizatu beharrean, zenbait
h u r b i l k e t a e r a b i l t z e n d i r a .
M a t e m a t i k a k o n a h i k o t a s u n
kontzeptuak beste esanahi bat
hartzen du. Datu guztiekin jardun
beharrean, estat ist iko nahikoa
kalkulatzen da, zeinak datu-eskala
handietarako ere balio baitu. Azken
batean, lagina beste ikuspegi batetik
hartzen dugu: zertarako aztertu datu-
petabyte guztiak, datuetatik lagin bat
atera beharrean? Horiek ez dira
metodo berri edo konplexuagoak,
baizik eta egokitu eta eraldatu egin
dira datu-konstelazio berri eta
konplexuagoen arabera.
Sareko datu-analisian aritzen zara. Nola azalduko zenuke zer den hori?
Sareko datuek oso egitura sinplea
d u t e . M u l t z o b a t e k o a k t o r e a k
(nodoak) elkarrekiko interakzioan
d a b i l t z a ( e r t z a k ) . I n t e r a k z i o a
adiskidetasunezkoa izan daiteke, zeina
zero/bat kodeketa besterik ez baita (1
= bi nodoren arteko adiskidetasuna, 0
= adiskidetasunik ez), edo baliozko
interakzio bat izan daiteke, adibidez,
aktoreen arteko truke-fluxua. Egitura
sinplea bada ere, zaila da halako
datuak modelizatzea, baldin eta jotzen
bada ertz baten existentzia beste ertz
batzuen existentziaren araberakoa
dela. Alegia, baldin eta ertzak, ausazko
a l d a g a i g i s a h a r t u z , e l k a r r e n
m e n d e k o a k b a d i r a . H o r i
adiskidetasunezko sare baten bidez
ulertzen da errazen. Bi aktorek
adiskidetasun bat eraikitzeko duten
posibilitatea honen araberakoa izan
daiteke: bi aktore horiek zenbat lagun
komun dituzten. Beste era batera
esanda, beste ertzen araberakoa
izango da. Elkarrekiko mendetasun
horrek modelizazio-eragiketa zailtzen
du.
Zer sare-datu mota analizatu ohi duzu zuk? Adibideren bat emango diguzu?
Sareko datu-analisiaren ohiko eremua
d i r a g i z a r t e - z i e n t z i a k , n o n
adiskidetasun-sareak adierazten
baitira sareetan. Nolanahi ere, ereduak
eta metodoak ez dira mugatzen sare-
mota horretara. Beste zenbait adibide:
salerosketa-sareak, zientzialarien
harreman-sareak, fluxu-sareak…
Zer eredu estatistiko mota erabiltzen duzu datu-mota horrekin lan egiteko?
Sareko datu-analisi estatistikoaren
m u i n a d a a u s a z k o g r a f o
esponentzialen eredua. Ereduaren
arabera, 0/1 sarrerak dituen ausazko
matrizetzat hartzen da sarea, eta
familia-banaketa esponentzial baten
gisara modelizatzen du matrizearen
probabilitatea. Horrek aukera ematen
du zenbait interpretazio intuitibo
egiteko, baina baditu zenbakizko
trabak ere. Hori guztia azalduko dut
adibideak erabiliz, ostiralean emango
dudan hitzaldian.
Göran Kauermannen mintegia BCAMen
izango da (Mazarredo Zumarkalea 14, Bilbao)
otsailaren 23an, ostirala, 13:00etan.
[email protected] Tel. +34 946 567 842