proyecto fin de carrera ingeniería...

Equation Chapter 1 Section 1

Proyecto Fin de Carrera

Ingeniería Aeronáutica

Análisis Sobre la Creación de Empleo para

Trabajadores Cualificados Combinando

Datos de la Muestra Continua de Vidas

Laborales y de Linkedin.

Autor: Ana María Jiménez Anaya

Tutor: Fernando Núñez Hernández

Sevilla, 2016

Departamento de Organización Industrial

y Gestión de Empresas I

Escuela Técnica Superior de Ingeniería

Universidad de Sevilla

Proyecto Fin de Carrera

Ingeniería Aeronáutica

Análisis Sobre la Creación de Empleo para

Trabajadores Cualificados Combinando Datos

de la Muestra Continua de Vidas Laborales y de

Linkedin.

Autor:

Ana María Jiménez Anaya

Tutor:

Fernando Núñez Hernández

Profesor Contratado Doctor

Departamento de Organización Industrial y Gestión de Empresas I

Escuela Técnica Superior de Ingeniería

Universidad de Sevilla

Sevilla, 2016

Dedicatoria

A mis padres, José y Mari Carmen.

Agradecimientos

Me gustaría agradecerle a mi tutor, Fernando Núñez, su implicación, buen trato, colaboración y enseñanza en todo el desarrollo del proyecto. Asimismo, agradecer a Pablo Álvarez de Toledo su disposición para aportar sus ideas y sus conocimientos en el estudio llevado a cabo en este proyecto. Sin duda, la realización de este proyecto no hubiera sido posible sin ellos.

Agradecer también a Carlos Usabiaga haberse ofrecido a ser el primer lector.

Quisiera agradecer a mis padres el que siempre hayan confiado en mí, agradecerles todo el apoyo y comprensión en todos los años de estudio. Por animarme siempre en los momentos más difíciles, ellos me han hecho creer en mí cuando más lo necesitaba.

A mi hermano, darle las gracias por hacerme ver siempre otro punto de vista.

A mi tío Antonio y a mi tía Ana Mari, por mostrar siempre interés y animarme.

Fundamentales en esta estapa universitaria, han sido mis amigos. A pesar de no siempre haber compartido todo el tiempo que hubiera querido con ellos, me han demostrado su apoyo y cariño tan importantes en ciertos momentos. En especial Marta, Blanca y Juan; sin olvidarme de Javi, por sus consejos, por animarme en estos últimos años de estudio y con quienes cada vez que nos reunimos le doy gracias a la vida por haberlos conocido. A todos los compañeros con los que he compartido tantas horas de clases, prácticas y estudio, de todos he aprendido algo. En especial de los que tengo además su amistad que espero conservar para siempre.

En el comienzo de esta nueva etapa, me gustaría agradecerles también a mis compañeros de trabajo el apoyo y seguridad en mí misma que me han transmitido.

A todos ellos, muchas gracias.

Ana María Jiménez Anaya

Sevilla, 2016

Resumen

Este trabajo contiene el proyecto fin de carrera titulado “Análisis Sobre la Creación de

Empleo para Trabajadores Cualificados Combinando Datos de la Muestra Continua de Vidas

Laborales y de Linkedin”, correspondiente a la titulación de Ingeniería Aeronáutica. Este

proyecto lleva a cabo un análisis centrado en cómo se emparejan entre sí empresas y titulados

por la Universidad de Sevilla en el mercado de trabajo. Para ello se emplea una metodología

empírica aplicada a los datos de las colocaciones procedentes de dos fuentes de datos: la Muestra

Continua de Vidas Laborales (MCVL) y los datos de empleo procedentes del portal web

profesional Linkedin. A partir de estos datos de entrada se definen una serie de segmentos

laborales de trabajador y de puesto según las características de los trabajadores y los puestos de

trabajo. Estos segmentos son agrupados en clusters y posteriores biclusters según la similitud que

muestran a la hora de emparejarse –el tratamiento de los datos se ha llevado a cabo con el

software STATA–. Esto da una visión general del proceso de emparejamiento en el mercado de

trabajo así como, permite identificar los principales flujos de entrada al mercado de trabajo. Este

proceso de análisis se lleva a cabo en ambas muestras, de forma que se puede realizar una

contrastación de los resultados obtenidos con ambas muestras.

Abstract

This paper presents the final project “Study of the Qualified Workers Matching Process

Contrasting Available Information on Job Placements Registered in the Continuous Sample of

Working Life and Linkedin”. This project focuses on analysing how graduates of the University

of Seville and firms match. To achieve this, we implement an empirical methodology using job

placement information from the Spanish labour market. This information comes from two

relevant data sources: the administrative registers of the Continuous Sample of Working Lives

(Muestra Continua de Vidas Laborales, MCVL) and job data from the Linkedin web-site. A

proposal of labour market segmentation is obtained from some explanatory variables which

reflect characteristics of workers and jobs. According to the similarity in terms of how workers

and vacancies segments match, these segments are grouped into clusters and biclusters using the

Stata software. Grouping workers and jobs into segments, and segments into clusters and

biclusters, we get an overview of the labour matching process and we can identify the main job

creation flows. This analysis process is implemented in both samples achieving a contrastation

for both samples’ analysis results.

Índice

1. Introducción. 15 2. Fundamentos teóricos y modelo empírico. 18 2.1. La medición del mercado de trabajo en España. 18 2.1.1.Los flujos en el mercado laboral español. 20 2.2. La función de emparejamiento y la curva de Beveridge. 21 3. Una metodología de segmentación del mercado de trabajo. 25 3.1. ¿Quién se empareja con quién en el mercado de trabajo? 25 3.2. Propensión al emparejamiento y similitud entre segmentos. 26 3.3. Proceso de agrupamiento en clusters y biclusters. 28 4. Fuentes de datos. 30 4.1. Los datos de la Muestra Continua de Vidas Laborales. 30 4.2. Los datos procedentes de la red profesional Linkedin. 33 5. Secuencia de cálculos. 36 5.1. Tratamiento de los datos de la MCVL. 36 5.1.1. Análisis de la estructura del cluster de segmentos de trabajador. 41 5.2. Tratamiento de los datos de Linkedin. 47 6. Análisis del bicluster. 51 6.1. Descripción del Bicluster de la MCVL. Conexión con Linkedin. 51 6.1.1. Clusters de segmentos de trabajador. 51 6.1.2. Clusters de segmentos de puesto. 55 6.1.3. Biclusters de segmentos conjuntos. 58 6.2. Resultados obtenidos a partir de los datos de Linkedin. 65 6.2.1. Análisis comparativo de los datos de Linkedin y de la MCVL. 65 6.2.2. Análisis del emparejamiento entre titulaciones y empresas a partir de los datos de Linkedin. Análisis global y análisis bicluster. 70 6.2.2.1. Análisis global del emparejamiento entre titulaciones y empresas a partir de los datos de Linkedin. 71 6.2.2.2 Análisis "bicluster" del emparejamiento entre titulaciones y empresas a partir de los datos de Linkedin. 77 7. Conclusiones y líneas futuras. 81 Bibliografía 85 Glosario 86 Anexos 87

ÍNDICE DE TABLAS

Tabla 4.1. Distribución de las colocaciones por ocupaciones en la MCVL. 31 Tabla 4.2. Distribución de las colocaciones por provincias en la MCVL. 32 Tabla 4.3. Distribución de las colocaciones por ocupaciones en Linkedin. 34 Tabla 4.4. Distribución de las colocaciones por provincias en Linkedin. 35 Tabla 5.1. Distribución de las propensiones al emparejamiento. 39 Tabla 5.2. Distribución de las disimilitudes promedio. 40 Tabla 5.3. Diecisiete clusters de provincias según disimilitud promedio. 46 Tabla 5.4. Cinco clusters de grupos de ocupación según disimilitud promedio. 47 Tabla 6.1. Descripción de los CST de la MCVL que tienen conexión con Linkedin. 52 Tabla 6.2. Descripción de los CST de la MCVL que tienen un mayor número de

colocaciones. 54 Tabla 6.3. Descripción de los CSP de la MCVL que tienen conexión con Linkedin. 55 Tabla 6.4. Descripción de los CSP de la MCVL que tienen un mayor número de

colocaciones. 57 Tabla 6.5. Descripción de los biclusters de la MCVL que forma el CST 41 con los

clusters de los segmentos de puesto que tienen conexión con Linkedin. 58 Tabla 6.6. Descripción de los biclusters de la MCVL que forma el CST 33 con los

clusters de los segmentos de puesto que tienen conexión con Linkedin. 62 Tabla 6.10. Descripción de los biclusters de la MCVL que tienen mayor número de

colocaciones. 64 Tabla 6.11. Propensión al emparejamiento en la MCVL y en Linkedin de los biclusters

más representativos en Linkedin. 69 Tabla 6.12. Distribución de las colocaciones de los CST respecto al total de

colocaciones en la MCVL y en Linkedin. Clusters más representativos en Linkedin. 70 Tabla 6.13. Emparejamientos entre 80 titulaciones y 1.005 empresas. Datos de

Linkedin. 72 Tabla 6.14. Emparejamientos entre 41 grupos de titulaciones y 100 grupos de empresas.

Datos de Linkedin. Colocaciones conjuntas superiores a 9. 74 Tabla 6.15. Colocaciones entre los 12 clusters de grupos de titulaciones y los 10 clusters

de grupos de sectores de actividad según las colocaciones conjuntas. Datos de Linkedin. 75

Tabla 6.16. Emparejamientos entre los 12 clusters de grupos de titulaciones y los 10 clusters de grupos de sectores de actividad según las propensiones al emparejamiento. Datos de Linkedin. 76

Tabla 6.17. Colocaciones de Linkedin dentro del bicluster de la MCVL. 78 Tabla 6.18. Descripción de los biclusters con un mayor número de colocaciones en la

muestra de Linkedin. 79

ÍNDICE DE FIGURAS

Figura 2.1. Evolución de la tasa de desempleo española según la EPA. Período de

tiempo 1977 - 2016. 19 Figura 2.2. Flujos entre las diferentes categorías laborales. Miles de personas. 21

Figura 2.3. Efecto de una mejora de la información sobre la curva de Beveridge. 24

Figura 5.1. Diagrama de actividades para generar un mapa bicluster por provincias y ocupaciones. 37

Figura 5.2. Diagrama de actividades para generar un conjunto de clusters de provincias. 43

Figura 5.3. Diagrama de actividades para generar un conjunto de clusters de grupos de ocupación. 44

Figura 5.4. Dendrograma de 41 grupos de titulaciones. 50

Figura 6.1. Distribución de las colocaciones de los CST con los diferentes CSP en la MCVL y en Linkedin. 65

Figura 6.2. Distribución de las colocaciones de los CST con los diferentes CSP en la MCVL y en Linkedin. CST 31, 35 y 41 67

Figura 6.3. Propensión al emparejamiento de los biclusters en la MCVL y en Linkedin. 68

1. INTRODUCCIÓN.

El hecho de que en España haya aumentado la tasa de desempleo en la última década más

que en el resto de los países europeos, ha propiciado que hayan sido numerosos los estudios

sobre el mercado laboral en España en los últimos años. Además, cada vez resulta más habitual

encontrar estudios sobre el mercado de trabajo que adoptan una perspectiva de flujos, siguiendo

la línea marcada por los economistas Peter Diamond, Dale Mortensen y Christopher Pissarides

–Premios Nobel de Economía 2010–, que pueden ser considerados como pioneros en adoptar

un enfoque del mercado de trabajo basado, no sólo en los niveles o stocks de empleo y

desempleo, sino también en los flujos de personas que se producen entre el empleo, el

desempleo y la inactividad. En este sentido, el presente proyecto toma como referencia

fundamental el marco teórico explicativo del funcionamiento del mercado de trabajo propuesto

por Pissarides (2000), el cual supone una importante aportación a los modelos de equilibrio de

búsqueda y emparejamiento entre trabajadores y puestos vacantes. En la sección segunda del

presente proyecto detallaremos las tres ecuaciones del modelo matématico sobre el desempleo

de equilibrio propuesto por Pissarides: la ecuación de creación de empleo, la ecuación de salarios

y la curva de Beveridge.

El presente trabajo trata de analizar hacia qué tipo de empresas se han dirigido los titulados

de la Universidad de Sevilla en los últimos años de la reciente crisis económica; esto es, se lleva a

cabo un análisis de cómo se emparejan entre sí empresas y titulaciones de la Universidad de

Sevilla. Los datos empleados proceden de dos bases de datos de colocaciones: la Muestra Continua

de Vidas Laborales (MCVL) y el portal web profesional Linkedin.

Los datos de la MCVL que hemos empleado contienen 1.967.441 colocaciones o altas

laborales correspondientes al año de la muestra, 2013, y a los dos años anteriores –hay que tener

en cuenta que la MCVL contiene la vida laboral presente y pasada de cada individuo de la

muestra–. La otra muestra empleada se ha obtenido de Linkedin y se compone de titulados por

la Universidad de Sevilla principalmente procedentes de las titulaciones de Ingeniería, Economía,

Administración de Empresas, Derecho y Finanzas. Esta muestra está formada por 498

individuos de los que se estudian 1747 colocaciones, de las cuales 94 se han producido en el

extranjero.

Los datos de emparejamiento permiten desarrollar una metodología empírica de

segmentación que se explica con detalle en la sección tercera de este proyecto. Dicho esquema

de segmentación consiste en agrupar, según una serie de características relevantes en el

emparejamiento, a los trabajadores que buscan empleo en segmentos de trabajador y a los

puestos de trabajo que ofrecen las empresas en segmentos de puesto, de forma que cada

colocación observada acaba dando lugar a un segmento conjunto formado por la unión de los

dos segmentos anteriores. Puesto que los datos segmentados permiten medir el grado de

similitud entre dos segmentos cualesquiera, se puede aplicar la técnica de clusters a estos

segmentos, dando lugar a clusters de segmentos de trabajadores similares y a clusters de

segmentos de puestos similares. Además, la unión en base a colocaciones de los clusters de

segmentos de trabajadores y de los clusters de segmentos de puestos da lugar a clusters de

segmentos conjuntos llamados biclusters, que si muestran una propensión elevada al

emparejamiento pueden constituir auténticos mercados de trabajo locales.

Las características extraídas de los datos de ambas muestras se detallan en la sección cuarta.

De los datos de la MCVL se han empleado fundamentalmente las variables que describen la

provincia y la ocupación tanto del trabajador como del puesto en cada episodio de empleo. A

partir de los datos de Linkedin se ha podido reconstruir la vida laboral de cada individuo de la

muestra extraída, generando y codificando variables del trabajador, en el momento de la

colocación, como el sexo, la edad, la titulación, el grupo de ocupación y el municipio de

residencia; por parte del puesto, se han podido conocer las tareas requeridas, el grupo de

ocupación, el sector de actividad y el municipio de la empresa.

El proceso de análisis de los datos y la estructura de la programación realizada para el

tratamiento de los datos se detalla en la sección quinta, mientras que la sección sexta se centra en

explicar los resultados obtenidos de este proceso. Un aspecto importante del proyecto es que el

análisis de los resultados está centrado en los clusters y biclusters laborales de la MCVL en los

que existe una mayor presencia de las colocaciones procedentes de la base de datos Linkedin,

llamados clusters y biclusters “representativos”. En este sentido, se ha comenzado el análisis

conjunto comprobando la similitud de las distribuciones de las colocaciones de la MCVL y de

Linkedin dentro de dichas agrupaciones representativas.

Tras comprobar la similitud de las distribuciones de ambas muestras se han realizado tres

tipos de análisis. Por un lado, se ha analizado con detalle la localización y composición de cada

cluster de trabajador y de puesto representativo dentro de la MCVL, así como la de los biclusters

(o mercados de trabajo locales) que forman dichos clusters al emparejarse entre sí por las

colocaciones que se producen entre los segmentos que los componen. Por otro lado, se ha

obtenido una matriz de emparejamientos, con datos de Likedin, entre las titulaciones de los

trabajadores y las empresas, pudiendo conocerse la propensión al emparejamiento entre ellos.

Dado el elevado número de titulaciones y de empresas obtenido, éstos han sido agrupados en

clusters de titulaciones y en clusters de empresas, que conjuntamente dan lugar a biclusters, y

que han sido analizados a diferentes niveles. Finalmente, el análisis de los biclusters de la MCVL

ha podido ampliarse gracias a la información sobre titulaciones y empresas que aportan los datos

de Linkedin (todo ello dentro de los biclusters representativos).

El proyecto concluye con la sección séptima donde se exponen las principales

conclusiones obtenidas y las posibles líneas de investigación futura.

Nuestro trabajo puede aportar una información estructurada para las políticas activas del

mercado de trabajo. Al dividir el mercado en un conjunto de biclusters o mercados específicos

permitimos el diseño de políticas de empleo específicas para cada mercado, políticas que van a

depender de su estructura laboral –formación de los trabajadores, tipo de contratación, tipo de

jornada, nivel salarial promedio, nivel de autoempleo, canales de búsqueda, ratio vacantes-

desempleo, tipos de empresas… etc.– Evidentemente, la calidad de estas políticas dependerá en

gran medida del grado de información que se tenga sobre cada mercado específico. En este

sentido, la información aportada por Linkedin, por ejemplo sobre titulaciones de los

trabajadores y sobre empresas, ha de ser tenida en cuenta a la hora de complementar bases de

datos como la MCVL.

2. FUNDAMENTOS TEÓRICOS Y MODELO EMPÍRICO.

2.1. La medición del mercado de trabajo en España.

Las estadísticas sobre la tasa de desempleo y sobre la generación de empleo se comentan

de forma frecuente en los medios de comunicación junto con otras variables macroeconómicas

de interés, por este motivo resulta interesante conocer de dónde provienen esas series del

mercado de trabajo. La mayoría de los países se basan en grandes encuestas a los hogares para

calcular la tasa de desempleo. En el caso particular de España, es el Instituto Nacional de

Estadística (INE) el que se encarga de realizar una encuesta sobre la población activa, la EPA

(Encuesta de Población Activa), que permite conocer la tasa trimestral de desempleo junto con otros

indicadores del mercado de trabajo. Esta encuesta, que se publica desde 1976, se rige por unos

estándares internacionales consensuados por la Organización Internacional del Trabajo (OIT).

Su periodicidad es trimestral y abarca a unos 60.000 hogares (unas 180.000 personas) cada

trimestre. La EPA clasifica a una persona en la categoría de ocupada si tiene trabajo en el

momento de la entrevista que se le realiza y en la categoría de desempleada si no tiene trabajo y

ha estado buscando un empleo en los últimos meses bien sea enviando candidaturas, estudiando

ofertas de empleo, estando en contacto con oficinas de empleo temporal o realizando gestiones

para obtener permisos y licencias con el fin de encontrar trabajo. Por tanto, se consideran

desempleadas las personas que no tienen empleo y lo están buscando activamente; las personas

que no están trabajando ni buscando trabajo se consideran inactivas. La tasa de desempleo es

igual al cociente entre el número de trabajadores desempleados y el número de trabajadores

activos, siendo la población activa la formada por las personas ocupadas y las desempleadas.

Asimismo, la EPA suministra la información necesaria a la Oficina Estadística de la Unión

Europea (EUROSTAT), para elaborar la ECFT (Encuesta Comunitaria de Fuerza de Trabajo), que es

la que recoge información armonizada en el ámbito europeo sobre el mercado laboral.

La tasa de desempleo española ha sido históricamente muy sensible a las recesiones y a las

expansiones de la economía –más que la economía norteamericana u otras economías de

nuestro entorno–. En las últimas décadas, se han alcanzado puntos máximos de tasa de

desempleo al final de la crisis de la primera mitad de los años ochenta y, posteriormente, al final

de la recesión del periodo 1992-1993. Tras esta segunda recesión, la tasa de desempleo comenzó

a descender hasta alcanzar un nivel del 9% en 2007 –hablándose del “milagro español” para

referirse a la caída del paro experimentada en esa etapa expansiva–. Sin embargo, a partir de

2008, como muestra la Figura 2.1, la tasa de desempleo comienza a subir de nuevo hasta

alcanzar valores máximos en los años 2012 y 2013, con tasas de desempleo cercanas al 27%.

Finalmente, a partir de 2014 la tasa comienza de nuevo a descender como consecuencia de la

leve recuperación de la economía.

Figura 2.1. Evolución de la tasa de desempleo española según la EPA. Período de tiempo 1977-2016.

Fuente: Elaboración propia a partir de los datos de la EPA.

Otra fuente sobre datos de desempleo en España es la proporcionada por el Sistema

Público de Empleo Estatal (SPEE, antiguo INEM). Se trata de un registro administrativo

dependiente del Ministerio de Empleo y Seguridad Social en el que se inscriben demandantes de

empleo que están en paro (demandantes parados) o quienes buscan un mejor empleo; también

hace falta inscribirse como demandante de empleo para poder recibir cursos formativos de

carácter público o para tener derecho a cobrar una prestación contributiva o un subsidio.

En cuanto a las series de empleo, cabe destacar que la EPA publica una serie trimestral

sobre el nivel o stock de ocupados, mientras que si se quiere obtener datos sobre el flujo de

generación de nuevos empleos se puede acudir a los datos procedentes del Registro de Afiliación

a la Seguridad Social, que registra todas las altas laborales (y de cobro de prestación) que se van

produciendo en la Seguridad Social cada año. El Registro de Afiliación es un registro

Tasa de desempleo trimestral en España. EPA. 1977:T1 - 2016:T1.

u (%)_hombres

u (%)_mujeres

administrativo dependiente del Ministerio de Empleo y Seguridad Social.

Por lo general, las cifras de empleo y desempleo obtenidas de estas fuentes no coinciden

con exactitud, ya que la EPA es una encuesta y los datos del SPEE y del Registro de Afiliación

de la Seguridad Social recogen situaciones administrativas. Variables como el empleo sumergido

o la diferente periodicidad de las encuestas pueden condicionar los resultados ofrecidos por unas

y otras fuentes.

Según la OIT, la tasa de desempleo disminuirá en España hasta el 21,5% en 2016 y se

situará en el 21,3% en 2017, lo que indica una cierta recuperación de la economía española. Esta

cierta recuperación puede deberse a una peor calidad en el empleo, es decir, existencia de más

empleo con sueldos más bajos y de sobrecualificación en el empleo. Sin embargo, la OIT afirma

que “todavía la situación es preocupante”. En este sentido, las proyecciones para el crecimiento

del empleo son pesimistas, dado que este organismo estima que será del 0,9% en 2016 y nulo en

2017, mientras que en el 2015 fue del 1,8%.

2.1.1. Los flujos en el mercado laboral español.

Debido a que en una economía continuamente se crean y destruyen puestos de trabajo, se

producen flujos1 continuos de trabajadores que ocupan puestos o los abandonan. Es por esto

que el mercado laboral no es estático, observándose continuos flujos de personas entre los

colectivos de empleados, desempleados e inactivos.

Según los datos obtenidos de la EPA, la tasa de actividad y la tasa de paro toman unos

valores de 59,4% y 20,9% respectivamente en el cuarto trimestre de 2015 –estos valores

ascienden a 59,2% y 21% en el primer trimestre del año 2016–. Por su parte, los flujos de

entrada y salida al empleo toman valores parecidos, que se sitúan en torno a 1,3 millones de

personas.

A continuación, se representan los flujos del mercado de trabajo en España durante el

cuarto trimestre de 2015 –datos de la EPA–:

1 Un análisis sobre los flujos del mercado de trabajo español puede encontrarse en el artículo de Antolín, P. (1997).

Figura 2.2. Flujos entre las diferentes categorías laborales. Miles de personas.

Fuente: Elaboración propia a partir de los datos de la EPA.

2.2. La función de emparejamiento y la curva de Beveridge.

En 2010 recibieron el premio Nobel de Economía los profesores estadounidenses Peter

Diamond y Dale T. Mortensen, y el grecochipriota nacionalizado británico Christopher

Pissarides, los cuales proponen modelos de búsqueda de empleo (search and matching models)

donde las empresas y los trabajadores experimientan una serie de fricciones o dificultades para

conseguir emparejamientos productivos entre ellos. Mortensen y Pissarides profundizaron en las

investigaciones de Diamond sobre el emparejamiento laboral y el desempleo de búsqueda.

Pissarides ha aportado un concepto útil para el desarrollo de los modelos de búsqueda y

emparejamiento: la función agregada de emparejamiento. Haciendo una similitud con la función

de producción, la cual expresa la relación existente entre inputs (insumos) y outputs (productos),

Pissarides considera el número de desempleados y el número de vacantes como inputs de la

producción de empleos.

La función de emparejamiento forma parte de un modelo más amplio, conocido como

Modelo del Desempleo de Equilibrio –Pissarides (2000)–2, que contiene tres ecuaciones

fundamentales que permiten determinar las variables desempleo (U), vacantes (V) y salario real

2 Como marco teórico de referencia en este proyecto se toma el modelo de Pissarides que forma parte de Pissarides, (2000):

Equilibrium Unemployment Theory.

EMPLEADOS18.094,2 Milesde personas.

DESEMPLEADOS4.779,5 Miles de personas.

INACTIVOS8.044,1 Miles de personas.

1.373,2 1.391,3 1.234,7 1.336,9

1.635,3

1.637,8

(w) en el mercado de trabajo en condiciones de equilibrio. Estas tres ecuaciones son la ecuación

de salarios, la ecuación de creación de empleo y la relación teórica de equilibrio entre vacantes y

desempleo conocida con el nombre de curva de Beveridge. En dicha curva, el nivel de

desempleo se mantiene estable porque se cumple la igualdad entre los flujos de entrada al

desempleo y de salida del desempleo –este último flujo, el de salida del desempleo, de puede

modelizar a través de la función de emparejamiento–. El presente proyecto se puede relacionar,

al menos a nivel empírico, con estas dos expresiones funcionales, la función de emparejamiento

y la curva de Beveridge.

El trabajo de Pissarides (2000) ha reavivado el interés por la curva de Beveridge y por los

modelos de búsqueda y emparejamiento, tanto a nivel teórico como empírico. Según este autor,

el mercado de trabajo está formado por trabajadores que son diferentes entre sí, por puestos que

son diferentes entre sí, y por una serie de desajustes y de falta de información que dificultan el

emparejamiento. La función de emparejamiento considera estos aspectos, que Pissarides

denomina “fricciones”, sin necesidad de modelizarlos explícitamente, de manera que, en su

expresión más simple, considera como entradas el número de puestos vacantes (V) y de

personas en desempleo (U) en cada período, y como salida el número de colocaciones (M) que

se produce en cada período.

M = M(U, V) (2.1)

Se suele asumir en la literatura que la función de emparejamiento presenta rendimientos a

escala constantes: xM = M(xU, xV), siendo x un valor positivo cualquiera.

Una variable importante en el modelo es la que relaciona el número de puestos vacantes

por trabajador desempleado:

θ = V/U (2.2)

La variable θ es una medida del grado de “tensión” del mercado laboral. Según esta

variable, las empresas pueden ocupar un puesto de trabajo con más facilidad cuando θ es

reducido, es decir, cuando hay pocas vacantes en relación al número de desempleados.

Asimismo, un valor pequeño de θ indica también un mayor grado de congestión de los

desempleados a la hora de competir por los puestos vacantes. A partir de esta variable se pueden

definir dos tasas: la tasa de llegada de un emparejamiento para una vacante y la tasa de llegada de

un emparejamiento para un trabajador, ecuaciones (2.3) y (2.4) respectivamente:

𝑀(𝑈,𝑉)

𝑉 = M(U/V,1) = q(θ) q’(θ)<0 (2.3)

𝑀(𝑈 ,𝑉)

𝑈 = M(1,V/U) = p(θ) =θ q(θ) p’(θ)>0 (2.4)

Otro supuesto simplificador, habitual dentro de los modelos de búsqueda y

emparejamiento, consiste en considerar una tasa de separación o de destrucción de empleo

exógena (s), de modo que el flujo de destrucción de empleo viene dado, en cada período, por el

producto sN, donde N representa el nivel de empleo de la economía, que se puede expresar

además como la diferencia entre el nivel de población activa (L) y el nivel de desempleo (U).

Como se ha comentado, en el equilibrio del modelo los flujos de entrada al desempleo y de

salida del desempleo se igualan, de manera que el nivel de desempleo tiende a permanecer

estable:

𝑈 = 0 M(U, V) = sN θq(θ)U = s(L – U) = sL – sU θq(θ)U + sU = sL

U =𝑠𝐿

𝑠+𝜃𝑞 (𝜃) u =

𝒔+𝜽𝒒(𝜽) donde u=U/L es la tasa de desempleo (2.5)

La ecuación (2.5) recibe el nombre de curva de Beveridge, y tiene pendiente negativa en el

espacio (V, U): cuando en el mercado de trabajo aumentan las vacantes, aumenta también el

número de emparejamientos o flujo de salida del desempleo, lo cual, dado un flujo inicial de

entrada al desempleo, hace caer el nivel de desempleo. Sin embargo, al generarse más empleo, y

dada la tasa de destrucción de empleo s, comienza a aumentar el flujo de entrada al desempleo, el

cual finalmente vuelve a igualarse con el flujo de salida pero para un nivel de desempleo menor.

El presente proyecto, al proponer una mejora de la información sobre el emparejamiento

basada en aplicar una metología de cluster a los datos sobre la generación de empleo, supone

desde el punto de vista de la función de emparejamiento un “avance tecnológico”, ya que dicha

mejora informativa debe permitir que se generen más emparejamientos a partir de unos

volúmenes iniciales de puestos vacantes y de trabajadores desempleados. Un emparejamiento

más eficiente tendrá como resultado una reducción de los niveles de desempleo y de puestos

vacantes de la economía, produciéndose como consecuencia de esto un desplazamiento hacia el

origen de la curva de Beberidge, tal y como se muestra en la siguiente figura:

Figura 2.3. Efecto de una mejora de la información sobre la curva de Beveridge.

Fuente: Elaboración propia a partir del modelo de Pissarides (2000).

3. UNA METODOLOGÍA DE SEGMENTACIÓN DEL MERCADO DE

TRABAJO.

3.1. ¿Quién se empareja con quién en el mercado de trabajo?

Este estudio toma como referencia fundamental el trabajo de Álvarez de Toledo et al.

(2016)3. Dicho trabajo define, a partir de una base de datos de colocaciones, una serie de

segmentos laborales según las características del trabajador, cuando éste se encuentra buscando

empleo, y según las características del puesto vacante una vez que se ocupa. En este proyecto, se

va a suponer que en un período de año t determinado, cada trabajador que busca un empleo es

asignado a uno de los n segmentos de trabajador existentes i1i2(t) (los atributos i1 e i2 representan

respectivamente la provincia de residencia del trabajador y su grupo de ocupación durante su

búsqueda), cada vacante es asignada a uno de los m segmentos de puesto j1j2(t) (los atributos j1 y j2

representan respectivamente la provincia del centro de trabajo y el grupo de ocupación o

cotización de la vacante), y cada uno de los emparejamientos trabajador-puesto da lugar a un

segmento conjunto i1i2j1j2(t) formado por la unión del segmento del trabajador y del puesto. Bajo

este esquema, habrá tantos segmentos de trabajador, de puesto y conjuntos como

combinaciones se puedan formar, respectivamente, con los posibles valores de (i1, i2), (j1, j2) e

(i1, i2, j1, j2). La información sobre colocaciones tratada de esta forma da lugar a una matriz de

dimensiones n x m de distribución de frecuencias o colocaciones, donde cada fila representa a un

segmento de trabajador4 i1i2, cada columna representa a un segmento de puesto j1j2, y cada

elemento de la matriz –que denotaremos como Mi1i2j1j2– representa el número de

emparejamientos producido en el segmento conjunto i1i2j1j2 correspondiente; la matriz

completa muestra, por tanto, “quién se empareja con quién”. El número total de colocaciones

en cada período, M, es la suma de todos los elementos de la matriz –es decir, la suma de las

colocaciones observadas en todos los segmentos conjuntos–. La cantidad de emparejamientos

en cada segmento de trabajador, que se denota a lo largo del estudio como Mi1i2, y en cada

segmento de puesto, que se denota como Mj1j2, viene dada respectivamente por la suma, en la

matriz, de la fila y de la columna correspondiente al segmento.

Asimismo, también va a resultar necesario para el estudio llevado a cabo conocer el

3 Se ha tomado como referencia fundamental en este estudio Álvarez de Toledo, P., Núñez, F. y Usabiaga, C. (2016). 4 Dado que nuestro análisis tiene un carácter estático, de aquí en adelante omitiremos el subíndice temporal.

número de colocaciones observadas en cada característica considerada individualmente; es

decir, Mi1, Mi2, Mj1 y Mj2.

3.2. Propensión al emparejamiento y similitud entre segmentos.

Con este esquema de partida, se proponen dos medidas empíricas obtenidas a partir de los

datos de emparejamiento: la “propensión al emparejamiento” entre un segmento de trabajador y

un segmento de puesto, y el “grado de similitud” entre dos segmentos de trabajador o dos

segmentos de puesto.

La propensión al emparejamiento entre un segmento de trabajador i1i2 y un segmento de

puesto j1j2 determinados, pmi1i2j1j2, se obtiene como el cociente entre la probabilidad, de

acuerdo con los datos de partida, de observar una colocación en el segmento conjunto que

forman (pi1i2j1j2) y la probabilidad de que se produjera dicha colocación en el caso de que el

proceso de emparejamiento fuera puramente aleatorio (𝑝 i1i2j1j2 ; colocaciones asignadas “por

sorteo”). La probabilidad pi1i2j1j2 es la probabilidad real u observada y la probabilidad 𝑝 i1i2j1j2 es la

probabilidad estimada. De forma que la propensión al emparejamiento se calcula como sigue:

𝑝𝑚𝑖1𝑖2𝑗1𝑗2 =𝑝𝑖1𝑖2𝑗1𝑗2

𝑝 i1i2j1j2 =

𝑝𝑖1𝑖2𝑗1𝑗2

𝑝i1· 𝑝i2·𝑝j1·𝑝j2=

𝑀𝑖1𝑖2𝑗1𝑗2

𝑀𝑀 i1𝑀

·𝑀 i2𝑀

··𝑀 j1

𝑀·𝑀 j2

= 𝑀𝑖1𝑖2𝑗1𝑗2· 𝑀3

𝑀i1·𝑀i2·𝑀j1·𝑀j2 (3.1)

En la matriz de emparejamientos, cada frecuencia conjunta Mi1i2j1j2 tiene que ser menor, o

a lo sumo igual, que el valor más pequeño de las frecuencias individuales del segmento {Mi1, Mi2,

Mj1, Mj2}. Para una mejor comprensión de esto, se va a considerar el siguiente ejemplo:

supongamos que se tiene el valor Mi1i2 de colocaciones en el segmento de trabajador formado

por los titulados universitarios (i2) de Sevilla (i1). Siendo Mi1=10 las colocaciones totales en

Sevilla y Mi2=6 el número de colocaciones totales de los titulados universitarios. Por su parte,

supongamos que Mj1j2 es el número de colocaciones en el segmento de puesto formado por las

vacantes de trabajo para los titulados universitarios (j2) en Córdoba (j1). En este caso,

supongamos que se tienen los valores de Mj1=9 para las vacantes cubiertas en Córdoba y Mj2 =5

para los vacantes cubiertas por titulados universitarios. Según todos estos datos, el total de

colocaciones en el segmento conjunto i1i2j1j2 de trabajadores Titulados Universitarios de Sevilla

con vacantes de Córdoba para Titulados Universitarios no puede ser superior a 5, puesto que

sólo ha habido un total de 5 colocaciones en puestos vacantes para Titulados Universitarios –es

por esto que si alguna frecuencia individual es cero, el valor de la frecuencia conjunta será nulo

para el segmento conjunto–.

Según la ecuación 3.1, el valor de pmi1i2j1j2 oscilará entre 0 y M3 , tomará el valor nulo

cuando Mi1i2j1j2 = 0 y tomará un valor máximo de M3 en el caso particular de que Mi1i2j1j2 = Mi1 =

Mi2 = Mj1 = Mj2 = 1. Una propensión mayor a uno indicará que la “conexión” entre el segmento

de trabajador y el segmento de puesto es más fuerte que la que se obtendría en un escenario de

asignación aleatoria de las colocaciones, y a la inversa sucede cuando dicha propensión es menor

a la unidad –en ambos casos, diremos que nuestro mercado de trabajo está “segmentado”–. La

segmentación puede surgir al menos por tres motivos: porque exista preferencia de ciertos tipos

de trabajadores por ciertos tipos de puestos, porque ocurra lo inverso, o porque los trabajadores

y las empresas estén empleando similares canales de búsqueda.

Aparte de la propensión al emparejamiento oferta-demanda que se acaba de formular, los

datos segmentados permiten medir el grado de similitud entre dos segmentos. Se considera que

dos segmentos de trabajador, i1i2 e i1’i2’, son “similares” cuando sus emparejamientos se

distribuyen porcentualmente de forma parecida entre los distintos segmento de puesto, es decir,

cuando se asemejan en la forma en que se emparejan con los segmentos de puesto. Y a la

inversa, se consideran “similares” dos segmentos de puesto, j1j2 y j1’j2’, cuando se asemejan en

la forma en que se emparejan con los diferentes segmentos de trabajador.

𝑠𝑖𝑚𝑖1𝑖2−𝑖1′𝑖2′ = min 𝑀𝑖1𝑖2𝑗1𝑗2

𝑀𝑖1𝑖2,𝑀𝑖1′𝑖2′𝑗1𝑗2

𝑀𝑖1′𝑖2′

𝑗1𝑗2

El valor de la similitud 𝑠𝑤𝑖1𝑖2−𝑖1′𝑖2′ oscila entre cero y uno. Una similitud de cero se debe a

que i1i2 e i1’i2’ tienen colocaciones con segmentos de puesto totalmente distintos. Cuando es

uno es porque las distribuciones de las colocaciones de ambos segmentos de trabajador son

idénticas.

Análogamente, consideramos a dos segmentos de puesto “similares” cuando sus

emparejamientos se distribuyen de forma similar entre los distintos segmentos de trabajador; en

este caso, la medida de similitud vendría dada por:

𝑠𝑖𝑚𝑗1𝑗2−𝑗1′ 𝑗2′ = 𝑚𝑖𝑛 𝑀𝑖1𝑖2𝑗1𝑗2

𝑀𝑗1𝑗2,𝑀𝑖1𝑖2𝑗1′ 𝑗2′

𝑀𝑗1′ 𝑗2′

𝑖1𝑖2

3.3. Proceso de agrupamiento en clusters y biclusters.

Las dos medidas de similitud propuestas se pueden emplear para obtener sendos clusters

jerárquicos de segmentos: un cluster de segmentos de trabajador y un cluster de segmentos de

puesto. Por ejemplo, en el caso de los trabajadores, el cluster consiste en ir agrupando los

segmentos de trabajador de partida en grupos o clusters de segmentos, basando esta agrupación

en la medida de similitud entre ellos previamente explicada.

El cluster jerárquico consiste en ir agrupando progresivamente a los segmentos de

trabajador menos distantes (más similares entre sí) en clusters, que a su vez se unen entre sí

dando lugar a clusters mayores (que contienen cada vez un mayor número de segmentos). Es

decir, se comienza considerando cada segmento por separado, después se agrupan los dos

segmentos entre los que existe mayor similitud (menor distancia), y así sucesivamente, pudiendo

continuarse el proceso hasta la fusión de todos los segmentos (o los grupos de ellos) en un único

cluster. En cada ronda de agrupamiento la distancia entre dos clusters cualesquiera se calcula

como la media de todas las distancias de los elementos (segmentos) de uno y otro cluster5.

El proceso de agrupamiento se puede detener en un número de clusters determinado, por

ejemplo tratando de garantizar la existencia de clusters cuyos elementos sean relativamente

homogéneos. Además, los resultados de este proceso de agrupamiento en clusters pueden

mostrarse gráficamente mediante una figura en forma de árbol conocida con el nombre de

“dendrograma”, que muestra cómo se van formando clusters cada vez mayores y, por tanto,

más heterogéneos. Todo este análisis se puede desarrollar de manera análoga por el lado de los

segmentos de puesto.

Una vez que se han obtenido los clusters de segmentos de trabajador y de segmentos de

puesto resulta posible generar un bicluster del mercado mediante la combinación de los clusters

anteriores en base a los intercambios o emparejamientos producidos entre ellos; es decir, entre

los segmentos de los clusters de segmentos de trabajador y los segmentos de los clusters de

segmentos de puesto. Esto da lugar a una matriz de emparejamientos que en lugar de estar

expresada en términos de segmentos de trabajador, segmentos de puesto y segmentos

conjuntos, va a quedar expresada en términos de clusters de segmentos de trabajador, clusters de

5 Hay que indicar que este método presenta el inconveniente de que no trata a cada cluster como un elemento único a la hora de calcular su distancia respecto a otros clusters, sino que calcula dicha distancia relacionando a todos los elementos agrupados dentro del cluster con todos los elementos del otro cluster.

segmentos de puesto y clusters de segmentos conjuntos o biclusters, siendo posible aplicar el

concepto de propensión al emparejamiento a cada bicluster de manera análoga a como se hizo a

nivel de segmentos laborales.

La ventaja principal de este proceso de agregación de elementos en grupos similares radica

en que permite analizar de forma sintética bases de datos formadas por millones de

observaciones, cuyo análisis individual sería demasiado laborioso.

Como mostraremos más adelante, el análisis de cluster aplicado a nuestras dos bases de

datos de colocaciones, la MCVL y Linkedin, nos va a permitir realizar un análisis comparativo de

las mismas y comprobar hasta qué punto una muestra puede complementar a la otra en el

análisis de ciertos biclusters comunes.

4. FUENTES DE DATOS.

Son dos las bases de datos empleadas en este proyecto, la Muestra Continua de Vidas

Laborales (MCVL) y los datos de empleo procedentes del portal web profesional de Linkedin.

4.1. Los datos de la Muestra Continua de Vidas Laborales.

La Muestra Continua de Vidas Laborales (MCVL), un conjunto organizado de datos anónimos

extraídos de registros administrativos procedentes de varios organismos, tales como la Seguridad

Social, el Padrón Municipal y la Agencia Tributaria. Se viene publicando desde 2004 y cada

persona que forma parte de la muestra debe cumplir dos requisitos independientes entre sí:

(1) Ser uno de los números de identificador de persona física (IPF) –normalmente dicho número

es el del DNI de la persona– llamados “seleccionables”, los cuales salen de realizar una

extracción aleatoria del 4% todos los números IPF posibles –este conjunto de números

seleccionables no varía de un año a otro, lo que garantiza la estructura de panel de la muestra–.

(2) Formar parte de la población de referencia, que es la formada por todos los individuos que

tuvieron alguna relación con la Seguridad Social, como afiliado o como pensionista, en un

determinado año; es decir, la población está formada por todas las personas que han estado en

situación de afiliado en alta o recibiendo alguna pensión de la Seguridad Social en algún

momento del año de referencia, sea cual sea el tiempo que hayan permanecido en esa situación.

La MCVL tiene carácter anual y contiene algo más de un millón de personas. Para cada

sujeto seleccionado se conoce su historial laboral hasta donde se conserven registros

informatizados, de ahí su carácter continuo. La información de la muestra se organiza en seis

tablas: personas, afiliación (vida laboral), bases de cotización, pensiones, convivientes y datos

fiscales. De las seis tablas que componen la muestra, sólo se considera en este proyecto la

información proporcionada por los archivos de información personal y de afiliación, puesto que

lo relevante en este estudio es la vida laboral de los individuos y algunas de sus características

personales.

La muestra empleada en este proyecto ha sido la correspondiente al año 2013, aunque se

ha optado por mantener la vida laboral de cada individuo en el año 2013 y en los dos años

anteriores, 2011 y 2012. Del fichero de afiliación se toman las variables referentes al puesto: la

provincia del centro de trabajo, el grupo de cotización (u ocupación) del puesto y el

sector de actividad del puesto. La otra variable de entrada en el procesamiento de datos es la

provincia del trabajador, que se obtiene a partir de la variable del municipio de residencia del

trabajador contenida en el fichero de características personales. En cada episodio de empleo, se

definen las variables grupo de ocupación del trabajador y sector de actividad del trabajador,

durante su búsqueda de empleo, como similares respectivamente a las variables ocupación del

puesto y actividad del puesto del empleo del trabajador inmediatamente anterior –si es que lo

tuviere–. El total de colocaciones de la muestra utilizada asciende a 1.967.441 colocaciones (una

media de cinco colocaciones por individuo).

Las tablas 4.1 y 4.2 realizan una descripción de los datos de emparejamiento obtenidos en

términos de ocupaciones y provincias.

Tabla 4.1. Distribución de las colocaciones por ocupaciones en la MCVL.

Fuente: Elaboración propia a partir de los datos de la MCVL.

Como se puede comprobar en la tabla, la mayoría de las colocaciones, el 75,4%, se

producen entre ocupaciones del puesto y ocupaciones del trabajor que son de la misma

categoría. En el resto de colocaciones se produce un desajuste entre la ocupación de

procedencia del trabajador y la ocupación del puesto. Por ejemplo, podemos destacar la

existencia de casos de sobrecualificación del trabajador, ya que trabajadores oficiales de 1ª y 2ª

Ocupación Trabajador Ocupación Puesto Colocaciones Porcentaje %

Mayores de 18 no cualificados Mayores de 18 no cualificados 501.859 25,51

Oficiales 1ª y 2ª Oficiales 1ª y 2ª 246.429 12,53

Oficiales 3ª y especialistas Oficiales 3ª y especialistas 189.926 9,65

Auxiliares administrativos Auxiliares administrativos 162.606 8,26

Ingenieros técnicos, ayudantes titulados Ingenieros técnicos, ayudantes titulados 100.059 5,09

Jefes administrativos y de taller Jefes administrativos y de taller 75.429 3,83

Oficiales administrativos Oficiales administrativos 70.996 3,61

Subalternos Subalternos 70.521 3,58

Ingenieros, licenciados, alta dirección Ingenieros, licenciados, alta dirección 65.983 3,35

Auxiliares administrativos Mayores de 18 no cualificados 44.540 2,26

Oficiales 1ª y 2ª Mayores de 18 no cualificados 33.992 1,73

Oficiales 3ª y especialistas Mayores de 18 no cualificados 31.275 1,59

Mayores de 18 no cualificados Oficiales 3ª y especialistas 30.937 1,57

Mayores de 18 no cualificados Oficiales 1ª y 2ª 29.910 1,52

Oficiales 1ª y 2ª Oficiales 3ª y especialistas 23.680 1,20

Oficiales 3ª y especialistas Oficiales 1ª y 2ª 23.633 1,20

Ayudantes no titulados Ayudantes no titulados 20.486 1,04

245.180 12,46

1.967.441 100

son contratados como oficiales de 3ª o como no cualificados. La sobrecualifciación, fenómeno

observado en el mercado laboral español, implica que el nivel de formación de los trabajadores

supera al requerido por el puesto que ocupan.

Tabla 4.2. Distribución de las colocaciones por provincias en la MCVL.

Como se observa en la tabla 4.2, el mayor porcentaje de colocaciones corresponde a

trabajadores y puestos de la misma provincia. Este hecho pone de relieve que los trabajadores

tienen preferencia por los puestos vacantes que se producen en la provincia donde residen.

Asimismo, las colocaciones han sido mayoritarias en las provincias de Barcelona, Madrid,

Valencia, Sevilla, Murcia y Málaga, por este orden. Destacar que estas provincias se

corresponden con las de mayor población y en las cuales existe mayor temporalidad en el

empleo, puesto que, son provincias con elevado turismo y agricultura las cuales concentran un

Provincia Trabajador Provincia Puesto Colocaciones Porcentaje %

Barcelona Barcelona 202.242 10,28

Madrid Madrid 197.475 10,04

Valencia Valencia 94.352 4,80

Sevilla Sevilla 93.728 4,76

Murcia Murcia 60.935 3,10

Málaga Málaga 60.241 3,06

Cádiz Cádiz 54.526 2,77

Alicante Alicante 52.364 2,66

Bizkaia Bizkaia 48.460 2,46

Jaén Jaén 47.375 2,41

Islas Baleares Islas Baleares 43.501 2,21

Coruña, A Coruña, A 42.240 2,15

Pontevedra Pontevedra 41.707 2,12

Córdoba Córdoba 40.861 2,08

Zaragoza Zaragoza 37.229 1,89

Palmas, Las Palmas, Las 36.710 1,87

Santa Cruz de Tenerife Santa Cruz de Tenerife 36.333 1,85

Granada Granada 35.829 1,82

Badajoz Badajoz 35.692 1,81

Asturias Asturias 32.280 1,64

Huelva Huelva 31.741 1,61

Navarra Navarra 30.417 1,55

Gipuzkoa Gipuzkoa 26.697 1,36

Tarragona Tarragona 25.397 1,29

Almería Almería 24.754 1,26

Girona Girona 23.969 1,22

Cantabria Cantabria 19.661 1,00

490.725 24,94

1.967.441 100Total

elevado número de empleo en determinados meses del año.

4.2. Los datos procedentes de la red profesional Linkedin.

La otra base de datos empleada en este proyecto consiste en una muestra no aleatoria de

titulados de la Universidad de Sevilla extraída del portal web de contactos profesionales

Linkedin. La muestra está compuesta principalmente por las titulaciones de Ingeniero,

Economía, Administración de Empresas, Finanzas y Derecho. Esta muestra está formada por

498 individuos de los que se analizan 1747 colocaciones –una media de 3,5 colocaciones por

persona–; 94 de las colocaciones se han producido fuera de España.

Linkedin es actualmente la mayor red profesional, cuenta con 400 millones de usuarios en

200 países de todo el mundo. El principal propósito de este sitio web es poner en contacto a

trabajadores y empresas para que puedan establecer relaciones profesionales. Los trabajadores

pueden seguir a las empresas y recibir información acerca de ofertas de trabajo de las mismas;

por su parte, los empleadores pueden disponer de información sobre la trayectoria profesional

de los candidatos a ocupar un puesto en su negocio. Linkedin6 se lanzó en mayo de 2003 y

cuenta con un modelo de negocio diversificado e ingresos provenientes de suscripciones de

usuarios y publicidad.

Para obtener una muestra de este portal se ha creado un grupo en él titulado “Economía,

Ingeniería y Empleo”, al cual se han ido uniendo titulados de la Universidad de Sevilla previa

invitación al grupo. La elección de las invitaciones de los integrantes del grupo ha sido aleatoria y

según sugerencias de Linkedin sobre contactos de segundo y tercer nivel, considerados

contactos cercanos por presentar algún miembro en común u otra característica como puede ser

la Universidad de Sevilla. Se ha extraído la información de la vida laboral de estas personas

integrantes del grupo y se ha recogido esta información en un fichero excel considerando todas

las colocaciones, desde 2010 hasta 2015; los datos de Linkedin obtenidos cubren dos años más

que los de la MCVL, para evitar que su tamaño fuera demasiado reducido.

A diferencia de lo que sucede con los datos de la MCVL, que son entregados por la

Seguridad Social con todas las variables codificadas y listas para ser explotadas. La información

sobre episodios de empleo obtenida de Linkedin ha requerido un importante trabajo de

6 Como última noticia de Junio (2016), Microsoft compra la plataforma de contactos profesionales Linkedin.

recopilación de datos (no estructurados) y de codificación de las diferentes variables

consideradas. De cada individuo que compone la muestra se registra el nombre completo, el

enlace a su perfil de Linkedin, el sexo (1 si hombre, 2 si mujer), la edad (codificada por tramos),

la formación poseída y las tareas desempeñadas en cada puesto de trabajo que haya tenido. La

formación ha sido codificada según el listado de códigos de titulaciones universitarias publicado

por el Ministerio de Educación, Cultura y Deporte. En cuanto al puesto, se ha extraído

información sobre el municipio del centro de trabajo, el sector de actividad de la empresa y el

grupo de ocupación del puesto. El municipio del puesto y el sector de actividad se han

codificado siguiendo respectivamente la Clasificación de Municipios y la Clasificación Nacional

de Actividades Económicas (CNAE-2009), ambas publicadas por el INE. El grupo de

ocupación se ha codificado siguiendo la clasificación de los grupos de cotización de la MCVL, lo

cual es útil para poder comparar ambas muestras7.

En cada episodio de empleo, se definen las variables del trabajador municipio (o provincia)

y grupo de ocupación como similares respectivamente a las variables del puesto municipio y

grupo de ocupación en el episodio de empleo del trabajador inmediatamente anterior –si es que

lo tuviere–. A partir de aquí, podemos analizar las colocaciones de Linkedin según ocupación y

provincia del trabajador y del puesto.

Tabla 4.3. Distribución de las colocaciones por ocupaciones en Linkedin.

Fuente: Elaboración propia.

Como se observa en la tabla 4.3, en la mayoría de las colocaciones coincide la ocupación

del trabajador y del puesto, aunque hay un porcentaje de casos superior al 5% donde el

7 También se ha optado por codificar la ocupación del puesto siguiendo la Clasificación Nacional de Ocupaciones CNO-2011 del INE, pero finalmente dicha clasificación no ha sido empleada en este proyecto.

Ocupación Trabajador Ocupación Puesto Colocaciones Porcentaje %

Ingenieros, licenciados, alta dirección Ingenieros, licenciados, alta dirección 1.195 68,40

Ayudantes no titulados Ayudantes no titulados 254 14,54

Ingenieros técnicos, ayudantes titulados Ingenieros técnicos, ayudantes titulados 147 8,41

Ayudantes no titulados Ingenieros, licenciados, alta dirección 85 4,87

Ingenieros técnicos, ayudantes titulados Ingenieros, licenciados, alta dirección 15 0,86

Ingenieros, licenciados, alta dirección Ingenieros técnicos, ayudantes titulados 11 0,63

Ingenieros, licenciados, alta dirección Ayudantes no titulados 8 0,46

32 1,8

1.747 100

trabajador se mueve a un grupo de ocupación superior al que tenía en su empleo anterior,

sucediendo también lo contrario pero en un menor porcentaje.

Tabla 4.4. Distribución de las colocaciones por provincias en Linkedin.

En el caso de las provincias, ocurre lo mismo que lo observado en la MCVL. Predomina el

caso en que las vacantes son ocupadas por trabajadores que residían ya en la misma provincia de

la vacante en su empleo inmediatamente anterior. Debido a que la muestra de Linkedin se

compone mayoritariamente de titulados universitarios de la Universidad de Sevilla, la mayoría de

las colocaciones se producen en la provincia de Sevilla, aunque también se observan porcentajes

relativamente elevados en colocaciones donde las provincias del trabajador y del puesto son

Madrid, Cádiz y Barcelona. También se pueden destacar las colocaciones de trabajadores que se

desplazan desde Sevilla al extranjero, las cuales suponen un 2,5% del total –la muestra de

Linkedin contiene colocaciones en el extranjero, lo cual no sucede en la MCVL–.

Provincia Trabajador Provincia Puesto Colocaciones Porcentaje %

Sevilla Sevilla 1.006 57,58

Madrid Madrid 147 8,41

Cádiz Cádiz 55 3,15

Barcelona Barcelona 46 2,63

Sevilla Extranjero 44 2,52

Huelva Huelva 28 1,60

Sevilla Madrid 26 1,49

Sevilla Cádiz 19 1,09

Valencia Valencia 19 1,09

Málaga Málaga 17 0,97

340 19,46

1.747 100

5. SECUENCIA DE CÁLCULOS.

5.1. Tratamiento de los datos de la MCVL.

Siguiendo la metodología de segmentación descrita en la sección tercera, vamos a partir de

los datos de la MCVL para obtener un mapa bicluster del mercado de trabajo español. Dicho

bicluster estará formado por la unión de los clusters de segmentos de trabajador “CST” y de los

clusters de segmentos de puesto “CSP” en base a las colocaciones que se producen entre los

segmentos de trabajador i1i2 y los segmentos de puesto j1j2 que componen cada uno de los

clusters. Este proceso de obtención del bicluster se ha desarrollado con el programa estadístico

Stata. El objetivo de este apartado es precisamente explicar la estructura de los cálculos

desarrollados con este programa, para lo cual se va a emplear una serie de diagramas de

actividades que representan la secuencia de pasos seguida en el tratamiento de los datos. El

primer diagrama, el más general –figura 5.1.–, contiene los pasos llevados a cabo para pasar de

los datos en bruto de la MCVL del año 2013 a la obtención de 85 clusters de trabajadores y 85

de puestos y, a partir de éstos, a la obtención de un mapa o matriz de biclusters.

1º) Se lleva a cabo la apertura del fichero de datos de la MCVL-2013 y se acotan las

observaciones de manera que cada fila de la muestra seleccionada represente una colocación o

alta laboral correspondiente al período 2011-2013. El total de colocaciones de la muestra

asciende a 1.967.441.

2º) Se lleva a cabo la segmentación de la base de datos por las variables provincia y

ocupación del trabajador y del puesto, variables cuya obtención a partir de los datos en bruto se

ha detallado en la sección anterior8. Se han seleccionado estas variables porque son las que, a

nuestro entender, generan un mayor grado de segmentación en el mercado laboral español. Las

variables provincia y grupo de ocupación del trabajador (i1, i2 respectivamente) conforman el

segmento de trabajador i1i2. Del mismo modo, la provincia y el grupo de ocupación del puesto

(j1, j2 respectivamente) conforman el segmento de puesto j1j2. Finalmente, la unión de las

8 Aquellas colocaciones para las que no se conocen o la provincia o la ocupación del trabajador o del puesto han sido

eliminadas de la base de datos debido a que no se pueden encuadrar en ningún segmento concreto. Esto sucede, por ejemplo, cuando la primera experiencia laboral de un individuo se ha producido en el período analizado 2011-2013, ya que la variable ocupación del trabajador en cada colocación se ha definido como la ocupación del puesto en su empleo inmediatamente anterior, y en el caso que se comenta no existe dicha experiencia anterior.

cuatro características anteriores da lugar a la formación del segmento conjunto i1i2j1j2.

Figura 5.1. Diagrama de actividades para generar un mapa bicluster por provincias y

ocupaciones.

Tras la segmentación de los datos de la MCVL se han observado 571 segmentos de

trabajador no nulos (con colocaciones) de los 572 posibles (572 porque combinamos 52

provincias9 de trabajador con 11 grupos de ocupación de trabajador); es decir, sólo hay un

9 En estas 52 provincias se incluyen las dos ciudades autonómicas Ceuta y Melilla.

Mercado de trabajo español

BbasdfBase Datos de Colocaciones 2011-2013. Fuente: MCVL 2013.

BbasdfBase Datos segmentada con una única fila por segmento conjunto.

Segmentación de la base de datos por provincias y ocupación del trabajadory del puesto.

Cálculo de las frecuencias Mi1 Mi2 Mj1 Mj2 Mi1i2 Mj1j2 Mi1i2j1j2 M

Toma de datos

Matriz de disimilitudde los segmentos de trabajador "i1i2" entre sí.

Matriz de disimilitudde los segmentos de puesto "j1j2" entre sí.

85 Clusters de los 571 segmentos de trabajadores.

85 Clusters de los 561 segmentos depuestos.

Obtención de Biclusters.

Cálculo de las propensiones pmi1i2j1j2 .

Cálculo de similitudes y disimilitudes en los segmentos de trabajador y de puestos.

Cluster Jerárquico de "i1i2". Cluster Jerárquico de "j1j2".

Clustering en la matriz de 85*85 Clusters.

segmento de trabajador nulo (que no presenta colocaciones). Por otro lado, se han observado

561 segmentos de puestos con colocaciones de los 572 posibles, por lo que hay once segmentos

de puesto nulos (que no presentan colocaciones). En términos de segmentos conjuntos, se

observan un total de 38.468 segmentos conjuntos no nulos de un total de 327.184 segmentos

posibles –lo que representa el 11,8% de los casos–. El total de segmentos conjuntos posibles es

el resultado de multiplicar 572 segmentos de trabajador por 572 segmentos de puesto.

3º) Se generan las variables que miden la frecuencia o número de colocaciones observadas

en cada característica y en cada tipo de segmento. De esta manera, se generan las variables Mi1,

Mi2, Mj1, Mj2, Mi1i2, Mj1j2, Mi1i2j1j2, que miden respectivamente las colocaciones producidas en cada

provincia de trabajador i1, cada ocupación de trabajador i2, cada provincia de puesto j1, cada

ocupación de puesto j2, cada segmento de trabajador i1i2, cada segmento de puesto j1j2 y cada

segmento conjunto i1i2j1j2. Una vez que se tiene toda esta información, se puede reducir la base

de datos a una única fila por segmento conjunto sin perder información sobre el número de

colocaciones; al reducir el número de filas de 1.967.441 a 38.468 se consigue una base de datos

más manejable y más fácil de interpretar.

4º) De acuerdo con la ecuación (3.1), se procede al cálculo de las propensiones al

emparejamiento 𝑝𝑚𝑖1𝑖2𝑗1𝑗2 de todos los segmentos de trabajador con todos los segmentos de

puesto, empleando para ello las frecuencias obtenidas anteriormente. Para ello resulta necesario

generar la probabilidad de observar una colocación en un segmento conjunto determinado

𝑝𝑖1𝑖2𝑗1𝑗2, y las probabilidades 𝑝i1, 𝑝i2,𝑝j1 𝑦 𝑝j2 de observar una colocación en cada atributo o

característica por separado; el producto de estas probabilidades individuales 𝑝 i1i2j1j2 representa la

probabilidad estimada de observar una colocación en el segmento conjunto analizado.

La Tabla 5.1 muestra las características de la distribución seguida por la variable de

propensión al emparejamiento. La mayor parte de los segmentos, un 64%, muestran una

propensión menor a la unidad, pero un 10% de ellos muestran propensiones mayores a 20,

propensiones muy por encima de la unidad que representan a segmentos de trabajador y de

puesto que se emparejan con mayor intensidad de lo que sería de esperar en un escenario de

emparejamiento aleatorio.

Tabla 5.1. Distribución de las propensiones al emparejamiento.

5º) De acuerdo con las ecuaciones (3.2) y (3.3) se procede a calcular las similitudes de los

segmentos de trabajadores entre sí y de los segmentos de puesto entre sí. Como se explicó en la

sección tercera, la similitud entre dos segmentos cualesquiera se basa en la superposición de sus

distribuciones de colocaciones, es decir, en lo que se parecen por la forma en que ambos se

emparejan con el otro lado del mercado. Las similitudes entre los segmentos de trabajador se

pueden expresar a través de una matriz simétrica de 571 filas y 571 columnas, donde cada

elemento de la matriz contiene la similitud entre el segmento de trabajador de la fila

correspondiente y el segmento de trabajador de la columna correspondiente –análogamente

sucede con los 561 segmentos de puesto–.

6º) A partir de las medidas de similitud obtenidas anteriormente, la metodología de clusters

aplicada en este proyecto permite agrupar de forma jerárquica a los diferentes segmentos (de

trabajador o de puesto) según las similitudes entre ellos. Debido a que el programa Stata trabaja

en términos de distancia o disimilitud, se ha procedido a calcular la disimilitud entre cada pareja

de segmentos como uno menos el valor de la similitud, obteniendo de esta forma sendas

matrices de distancias que se mueven entre cero y uno, una matriz para los segmentos de

trabajador y otra para los segmentos de puesto –en ambas matrices la diagonal principal es nula

95% 57,53

99% 661,76

64% 1,00

75% 2,64

90% 20,60

10% 0,04

25% 0,10

50% (mediana) 0,41

Percentiles

1% 0,01

5% 0,02

Nº de observaciones 38.468

Valor medio 116

Desviación estándar 3.702

puesto que mide la disimilitud de un segmento consigo mismo–. La Tabla 5.2 muestra la

distribución de las disimilitudes promedio de las diferentes parejas de segmentos, disimilitudes

que se pueden calcular como la media aritmética de la disimilitud de esos segmentos cuando son

de trabajador y cuando son de puesto. En general, la variable toma valores cercanos a uno, la

máxima disimilitud, lo cual apunta a que existe una clara segmentación en el emparejamiento en

términos de provincias y ocupaciones.

Tabla 5.2. Distribución de las disimilitudes promedio.

A pesar de estas elevadas disimilitudes, lo cierto es que algunos segmentos se parecen más

entre sí que otros, y eso va a permitir realizar un análisis de cluster que va a dar lugar a la

generación de dos clusters, uno de segmentos de trabajador y otro de segmentos de puesto. El

método de cluster jerárquico, explicado en la sección tercera, consiste básicamente en ir

agrupando elementos con escasa disimilitud para dar lugar a grupos o clusters de segmentos que,

a su vez, se irán uniendo entre sí en función de su disimilitud promedio. El cluster se puede

representar en un diagrama en forma de árbol donde se puede apreciar cómo se van uniendo los

segmentos (o los grupos de ellos ya formados) en grupos cada vez mayores y más heterogéneos.

Además, un cluster se puede detener y analizar cuando queda un número determinado de

grupos que todavía no se han unido entre sí.

En este proyecto se ha optado por detener el cluster de segmentos de trabajador i1i2

cuando restan 85 grupos o clusters, número que viene justificado por la comparación que se va a

realizar a continuación de dicho cluster con otros dos clusters que agrupan respectivamente a las

provincias por separado en 17 clusters y a las ocupaciones por separado en 5 clusters (17x5 =

50% (mediana)

Nº de observaciones 326.041

Valor medio

Desviación estándar

Percentiles

75% 1,00

85). Por su parte, el cluster de segmentos de puesto j1j2 también va a estar compuesto por 85

grupos, de manera que el bicluster formado por la conexión entre los clusters de segmentos de

trabajador y los clusters de segmentos de puesto se va a poder representar como una matriz

cuadrada de emparejamientos de magnitud 85 filas y 85 columnas.

7º) El último paso de la Figura 5.1 consiste en la generación de un mapa bicluster de

segmentos laborales a partir de la unión de los 85 clusters de segmentos de trabajador y de los 85

clusters de segmentos de puesto, en función de las colocaciones que se han producido dentro de

la muestra entre sus respectivos segmentos de trabajador y de puesto. Por tanto, cada bicluster

está formado por una serie de segmentos conjuntos que pueden mostrar propensiones al

emparejamiento más o menos elevadas. Aquellos biclusters cuyos segmentos conjuntos

muestran en promedio una elevada propensión al emparejamiento pueden ser considerados

como islas laborales o mercados de trabajo locales, en el sentido de que los trabajadores de los

diferentes segmentos de trabajador del cluster de trabajador tienden a emparejarse de forma

relativamente intensa con los puestos de los diferentes segmentos de puesto del cluster de

puesto. En la sección siguiente analizaremos algunos de estos mercados.

5.1.1. Análisis de la estructura del cluster de segmentos de trabajador.

Nuestros datos permiten agrupar las 52 provincias de la muestra en 17 clusters de

provincias o comunidades* y los 11 grupos de ocupación en 5 clusters de grupos de ocupación.

De esta forma, resulta posible imaginar un conjunto de 85 clusters que es el resultado de

combinar cada una de las 17 comunidades* o clusters de grupos de provincias con cada uno de

los 5 clusters de ocupación. Se trataría de 85 clusters “puros” o independientes entre sí, ya que

cada uno de ellos estaría formado por una única comunidad* y un único grupo de ocupación. A

partir de ahí, se puede comprobar en qué medida se parecen a estos clusters puros los 85 clusters

de segmentos de trabajador (o los 85 clusters de segmentos de puesto) obtenidos anteriormente

a partir de nuestros datos. Así, un determinado cluster real (basado en los datos) se estará

alejando de una estructura pura como la descrita anteriormente si está formado por más de una

comunidad o más de un cluster de ocupación –este análisis comparativo se abordará en la

sección siguiente–.

En la línea descrita en el párrafo anterior, se ha aplicado un cluster a las 52 provincias

españolas de forma separada (sin combinar con las ocupaciones) en función de la disimilitud

promedio10 entre ellas, deteniéndose el proceso cuando restan 17 clusters de provincias o

comunidades*, lo cual permite apreciar hasta qué punto las 52 provincias se han agrupado de

forma similar a como se agrupan en las 17 Comunidades Autónomas españolas –el proceso

seguido para generar este cluster se muestra en la Figura 5.2–. Por otro lado, se ha aplicado un

cluster a los 11 grupos de ocupación de forma separada (sin combinar con las provincias) en

función de la disimilitud promedio11 entre ellas, deteniéndose el proceso cuando restan 5 clusters

de ocupaciones claramente diferenciados –el proceso seguido para generar este cluster se

muestra en la Figura 5.3–.

10 Primero se calculan las similitudes y seguidamente las disimilitudes debido a que el programa informático Stata trabaja con valores de disimilitudes. De forma que, se promedian las dos disimilitudes generadas para cada posible pareja de provincias: la disimilitud cuando son provincias de trabajador y la disimilitud cuando son provincia de puesto. 11 Primero se calculan las similitudes y seguidamente las disimilitudes debido a que el programa informático Stata trabaja con valores de disimilitudes. De forma que, se promedian las dos disimilitudes generadas para cada posible pareja de ocupaciones: la disimilitud cuando son ocupaciones de trabajador y la disimilitud cuando son ocupaciones de puesto.

Figura 5.2. Diagrama de actividades para generar un conjunto de clusters de

provincias.

Bbasdf

Base Datos segmentada con una única variable "provincia", obteniéndose un total de 52 provincias.

Segmentación de la base de datos por provincias y ocupación del trabajador y del puesto.

Cálculo de las frecuencias Mi1 Mj1 Mi1j1

Toma de datos

Matriz de disimilitudde los segmentos de trabajador "i1" entre sí.

Matriz de disimilitudde los segmentos de puesto "j1" entre sí.

Obtención de 17 Clusters de provincias.

Cálculo de similitudes y disimilitudes en los segmentos de trabajador y de puesto.

Cálculo de las propensiones pmi1j1 .

Cluster Jerárquico de "i1". Cluster Jerárquico de "j1".

Clustering

Matriz de disimilitudpromedio de los segmentos con la única variable provincia.

Figura 5.3. Diagrama de actividades para generar un conjunto de clusters de grupos

de ocupación.

Las Tablas 5.3 y 5.4 muestran las agrupaciones obtenidas siguiendo los procesos descritos.

Bbasdf

Segmentación de la base de datos por provincias y ocupación del trabajador y del puesto.

Cálculo de las frecuencias Mi2 Mj2 Mi2j2 .

Toma de datos

Cálculo de las propensiones pmi2j2 .Cálculo de similitudes y disimilitudes en los segmentos de trabajador y de puesto.

Cluster Jerárquico de "i2". Cluster Jerárquico de "j2".

Clustering.

Matriz de disimilitudde los segmentos de trabajador "i2" entre sí.

Matriz de disimilitudde los segmentos de puesto "j2" entre sí.

Base Datos segmentada con una única variable "ocupación" obteniéndose un total de 11 ocupaciones.

Matriz de disimilitudpromedio de los segmentos con la única variable ocupación.

Obtención de 5 Clusters de ocupaciones.

La Tabla 5.3 muestra la agrupación de las 52 provincias en 17 clusters de provincias. Se

han escrito sin asterisco12 el cluster de provincias cuya composición en provincias es igual a la

Comunidad Autónoma oficial correspondiente y con un asterisco y denotación distinta si la

composición en provincias de dicho cluster resultante no coincide con la Comunidad Autónoma

oficial bien porque incluye provincias que actualmente pertenecen a otra Comunidad o bien

porque le falta alguna provincia respecto a la composición actual real.

12 El proceso de agrupación en clusters llevado a cabo a las 52 provincias permite obtener 17 comunidades* o clusters de provincias de forma que se escriben igual a la Comunidad Autónoma oficial correspondiente si su composición en provincias no se ve alterada o si su composición no coincida con dicha Comunidad, su nombre se escribe con un asterisco y distinta denotación.

Tabla 5.3. Diecisiete clusters de provincias según disimilitud promedio.

En general, la mayoría de las provincias se agrupan con las de su alrededor siguiendo la

misma estructura de provincias y Comunidades Autónomas que existe actualmente en España.

Los clusters de provincias que han visto alterada su composición en provincias respecto a la

actual composición de la correspondiente Comunidad Autónoma, se denotan con un asterisco y

distinta nomenclatura. Las provincias Toledo y Guadalajara se agrupan con Madrid en lugar de

Extremadura

Canarias

Galicia

Sevilla

Córdoba

Melilla

Huelva

Granada

Cádiz

Las Palmas

A Coruña

Andalucía*

Almería

Málaga

Diecisiete clusters de

provincias

(comunidades*)

Provincias que

componen el cluster

Ávila

Castilla-La-Mancha*

Albacete

Cuenca

Ciudad Real

Alicante-Murcia*

Murcia

Alicante

Valencia-Castellón*

Valencia

Barcelona

Aragón*

Zaragoza

Huesca

Teruel

Lleida

Cataluña*

Girona

Tarragona

Cáceres

Santa Cruz de Tenerife

Diecisiete clusters de

provincias

(comunidades*)

Provincias que

componen el cluster

Gipuzkoa

Álava

La Rioja

País Vasco

Castellón

Bizkaia

Castilla-y-León*

Guadalajara

Segovia

Madrid

Toledo

Madrid*

Navarra

Cantabria

Zamora

Salamanca

Valladolid

Palencia

La Rioja

Navarra

Cantabria

Asturias

Islas Baleares

Asturias

Pontevedra

Ourense

Burgos

Islas Baleares

Badajoz

formar cluster con las provincias de Castilla La Mancha. A Madrid también se unen provincias

de la Comunidad Autónoma de Castilla y León. La provincia de Lleida se une a la Comunidad

de Aragón por lo que el cluster de Cataluña difiere de la composición en provincias que tiene en

la actualidad. Valencia y Castellón quedan separadas de la provincia de Alicante, la cual se une al

cluster de Murcia. Las ciudades autónomas Ceuta y Melilla se unen al cluster de Andalucía.

Tabla 5.4. Cinco clusters de grupos de ocupación según disimilitud promedio.

Por el lado de las ocupaciones, se obtienen cinco grupos fundamentales que denotaremos

como: Titulados Universitarios, Jefes, Ayudantes Administrativos Subalternos, Oficiales y

Trabajadores No Cualificados. La categoría que más nos interesa en este proyecto es la de los

Titulados Universitarios que agrupa a trabajadores de Alta Dirección, Licenciados, Ingenieros,

Ingenieros Técnicos y Ayudantes Titulados13.

5.2. Tratamiento de los datos de Linkedin.

Los datos de la muestra obtenida de Linkedin se han recogido inicialmente en un archivo

excel que contiene para cada individuo tantas filas como colocaciones se le hayan contabilizado.

Para cada episodio de empleo se tiene información tanto del trabajador como del puesto y la

13 Como ayudantes titulados se agrupan los diplomados y arquitectos técnicos.

Cinco clusters de grupos de ocupación Ocupaciones que componen el cluster

Ingenieros, Licenciados y Alta Dirección

Ingenieros Técnicos y Ayudantes Titulados

Jefes Administrativos y Jefes de Taller

Titulados Universitarios

Ayudantes Administrativos Subalternos

Oficiales

Trabajadores No CualificadosTrabajadores Menores 18 años

Oficiales Administrativos

Subalternos

Auxiliares Administrativos

Oficiales 1ª y 2ª

Oficiales 3ª y Especialistas

Trabajadores Mayores 18 años No Cualificados

Ayudantes No Titulados

empresa. Del puesto y la empresa se ha podido extraer información sobre el nombre de la

empresa, su actividad CNAE, el grupo de ocupación del puesto, tanto a nivel de la clasificación

de grupos de cotización de la MCVL como a nivel de la clasificación de grupos de ocupación de

la CNO-2011, la provincia (o país en el caso de colocaciones en el extranjero) del puesto y las

tareas requeridas por el puesto. A nivel del trabajador, se ha podido extraer información sobre el

sexo, la edad, la titulación y la fecha de cada empleo; además, en cada colocación se supone que

la provincia, la actividad y la ocupación del trabajador (durante la búsqueda que le ha llevado a

dicha colocación) vienen dadas por la provincia, la actividad y la ocupación de su empleo

inmediatamente anterior, si es que lo hubiere14.

La muestra de Linkedin tiene el inconveniente de no ser aleatoria, presentando un claro

sesgo hacia trabajadores cualificados, especialmente hacia los titulados en ingeniería, pero tiene la

ventaja de que aporta información sobre el emparejamiento que no está disponible en la MCVL,

como la titulación del trabajador o el nombre de la empresa; además, Linkedin incluye

colocaciones que tienen lugar en el Extranjero.

El análisis de los datos de Linkedin que se propone en este proyecto consiste básicamente

en analizar la propensión al emparejamiento entre las titulaciones de los trabajadores y los tipos

de empresas que hay en la muestra. A su vez, este análisis se puede hacer de forma combinada o

de forma independiente respecto a los datos procedentes de la MCVL. Hay que tener en cuenta

que resulta posible situar cada colocación de Linkedin en el bicluster de provincias y

ocupaciones obtenido con la MCVL, de forma que se pueden conocer los biclusters de la

MCVL en los que existe un mayor número de colocaciones de Linkedin. Dicha interrelación es

posible porque de cada colocación de Linkedin conocemos también la provincia y la ocupación

del trabajador i1i2 y la provincia y la ocupación del puesto j1j2.

El análisis de la propensión al emparejamiento entre las titulaciones de los trabajadores y

los tipos de empresas se puede hacer a diferentes niveles de agregación. Inicialmente, la muestra

de Linkedin contiene 1.747 colocaciones, en las cuales existen 80 titulaciones distintas y 1.005

empresas distintas15. A partir de aquí se proponen dos niveles de agregación que van a permitir

llevar a cabo un análisis más claro o sintético.

14 En el caso del primer episodio de empleo del individuo, se asigna un valor de 0 “desconocido” a estas variables del trabajador, puesto que no existe un episodio de empleo anterior que sirva de referencia. 15 En realidad, se parte de un total de 1.277 empresas, pero al homogeneizar una serie de nombres de empresas y al agrupar una serie de empresas, por dedicarse al mismo sector (universidad, banca, etc.), quedan reducidas a 1.005.

A) Las matrices de emparejamientos y de propensiones entre 80 titulaciones y 1.005

empresas quedan reducidas por agregación a 41 grupos de titulaciones y 100 grupos de

empresas. Las titulaciones han sido agrupadas por similitud a partir del procedimiento de cluster

descrito en la sección tercera, de manera que dos titulaciones son más parecidas entre sí cuanto

más se parecen en la forma en que se emparejan con las diferentes empresas. En lo que se

refiere a las empresas, las 1.005 de la muestra se han dividido inicialmente en dos grupos,

aquellas empresas que tienen cuatro o más colocaciones, que son un total de 53, y el resto de

empresas, 952, que han sido agrupadas mediante cluster en 47 grupos de empresas –en general,

las empresas de un grupo determinado pertenecen al mismo sector de actividad–; análogamente,

dos empresas son similares entre sí cuando se están emparejando con el mismo tipo de

titulaciones. Las 53 empresas iniciales y los 47 grupos de empresas obtenidos dan lugar a las 100

empresas o grupos de ellas mencionados.

B) Las matrices de emparejamientos y de propensiones entre los 41 grupos de titulaciones

y los 100 grupos de empresas queda reducida por agregación a 12 grupos de titulaciones y 10

grupos de empresas. Nuevamente, ambas agrupaciones se han hecho mediante clusters

jerárquicos basados en la similitud entre los elementos (los grupos de titulaciones o los grupos de

empresas). Los 12 grupos de titulaciones han sido denominados como: Ingeniero Aeronáutico,

Ingeniero Superior, Ingeniero Técnico, Arquitectura, Ciencias, Humanidades, Magisterio,

Periodismo, Economía y Empresa, Bellas Artes, Derecho y Salud; mientras que los 10 grupos

de empresa han sido denominados como: Sector Aeronáutico, Agricultura, Construcción,

Consultoría, I+D+i y Educación, TICs, Sector Industrial, Industria Química, Servicios Públicos

y Servicios Privados –las sucesivas agrupaciones pueden consultarse en el Anexo de este

proyecto–.

Para ilustrar los procesos de agrupamiento, la Figura 5.4 muestra el dendrograma cuando

restan 41 grupos de titutlaciones. Obsérvese que cuando se alcanza un nivel de disimilitud de 0,4

quedan 12 clusters o grupos de titulaciones en el dendrograma; o dicho de otra foma, la última

unión de grupos de titulaciones que ha dado lugar a la formación de 12 grupos o clusters se ha

producido con una disimilitud cercana a 0,4.

Figura 5.4. Dendrograma de 41 grupos de titulaciones.

Administración PúblicaBellas ArtesPeriodismo

ArquitectoIngeniero Técnico de Obras Públicas

Ingeniero Técnico IndustrialIngeniero de Organización Industrial

Ingeniero de MaterialesFilosofía

Ingeniero de Caminos, Canales y PuertosPsicología

HistoriaRelaciones Laborales

Ingeniero en InformáticaIngeniero Geólogo

Ingeniero Técnico en Diseño IndustrialEconomía

LADEMagisterio

MatemáticasPublicidad

FilologíaIngeniero de MinasArquitecto Técnico

FísicaIngeniero Industrial

Ingeniero Técnico AeronáuticoIngeniero de Telecomunicación

Ingeniero AgrónomoIngeniero Técnico Agrícola

QuímicaIngeniero Técnico en Informática

BiotecnologíaIngeniero Aeronáutico

Ingeniero Técnico de MinasCiencias Ambientales

Ingeniero QuímicoDerecho

Diplomado en Ciencias EmpresarialesEnfermería

Medicina

0 .2 .4 .6 .8 1

Disimilitud

6. ANÁLISIS DEL BICLUSTER.

En la sección anterior se explicó cómo emplear la MCVL para generar un bicluster

laboral formado por la intersección de 85 CST (clusters de segmentos de trabajador) y 85

CSP (clusters de segmentos de puesto). Podemos conocer el total de colocaciones que se ha

producido en un determinado CST agregando todas las colocaciones producidas en los

diferentes segmentos de trabajador que lo componen. Análogamente, podemos conocer el

total de colocaciones que se ha producido en un determinado CSP agregando todas las

colocaciones de los segmentos de puesto que lo componen. Finalmente, cada intersección de

un CST y de un CSP constituye un cluster conjunto (o bicluster) cuyas colocaciones son las

que se producen en los segmentos conjuntos que lo componen. Recuérdese que los

segmentos conjuntos están formados por la unión de segmentos de trabajador y de

segmentos de puesto, los cuales a su vez están formados respectivamente por la provincia y

la ocupación del trabajador y por la provincia y la ocupación del puesto. En este sentido,

como también se conocen estos cuatro atributos en las colocaciones extraídas de la base de

datos de Linkedin, va a resultar posible situar a dichas colocaciones dentro del bicluster

generado con la MCVL, lo cual, como se mostrará en la sección 6.2.2, va a permitir sacar

provecho de la información extra, no contenida en la MCVL, que contienen los datos de

Linkedin sobre el emparejamiento laboral en ciertos biclusters.

6.1. Descripción del Bicluster de la MCVL. Conexión con Linkedin.

6.1.1. Clusters de segmentos de trabajador.

De los 85 CST obtenidos con los datos de la MCVL, en este apartado se van a explicar

con detalle aquéllos donde también la muestra de Linkedin ha tenido una presencia

relativamente importante en términos de colocaciones producidas. Estos CST son, según su

posición en el dendrograma generado, los clusters de segmentos de trabajador 31, 33, 35, 41 y

Asimismo, se analizará el grado de “pureza” o segmentación de estos clusters reales en

comparación con el cluster “puro” comentado en la sección anterior, que consiste básicamente

en obtener un conjunto de 85 clusters independientes entre sí mediante la combinación (una a

una) de las 17 agrupaciones de provincias o comunidades* surgidas al generar un cluster de

provincias con los datos de la MCVL y las 5 agrupaciones o clusters de grupos de ocupación

surgidas de generar un cluster de grupos de ocupación con los datos de la MCVL; de esta

manera, cada cluster conjunto está formado por una única comunidad y un único cluster de

grupos de ocupación, de ahí su carácter puro. Las Tablas 5.3 y 5.4 de la sección 5 recogen

respectivamente qué provincias hay contenidas en cada una de las 17 comunidades* o clusters

de provincias y qué grupos de ocupación forman cada uno de los 5 clusters de grupos de

ocupación.

Una vez que se ha construido el mapa de 85 clusters puros, se puede comprobar en qué

medida se parecen a ellos los 85 CST reales (o los 85 CSP reales) obtenidos a partir de los datos

de la MCVL, para lo cual va a resultar necesario describir dichos clusters en función de los 17

clusters de provincias y los 5 clusters de ocupación definidos en el cluster puro –recuérdese que

los CST y los CSP reales vienen definidos inicialmente en términos de 52 provincias y 11 grupos

de ocupación, pero para que sean comparables con el cluster puro han de describirse en

términos de los 17 clusters de provincias y de los 5 clusters de grupos de ocupaciones que

conforman el cluster puro–. Así, un determinado cluster real se estará alejando de una estructura

de cluster pura si está formado por colocaciones que pertenecen a más de un cluster de

provincia y/o a más de un cluster de ocupación.

Los CST generados con la MCVL donde los datos de colocaciones de Linkedin tienen una

mayor presencia son los siguientes:

Tabla 6.1. Descripción de los CST de la MCVL que tienen conexión con Linkedin.

47.948

27.493

23.436

15.138

11.674

CST (conectados

con Linkedin)

Cluster de provincias

(comunidades*)

Cluster de grupos de

ocupación

Colocaciones

% Colocaciones

Colocaciones

Oficiales 27,8%

Ayudantes Adm. Subalternos 23,7%

41 Andalucía*

Trabajadores No Cualificados

98.877

158Castilla-La-Mancha* 8,2%

Castilla-y-León* 2,5%

Madrid*

Titulados Universitarios 16.952

61Cataluña*

Titulados Universitarios 13.27687,9%

52Aragón* 12,1%

35 Andalucía* Titulados Universitarios 10.145 100,0%

Andalucía* Titulados Universitarios 8.642 100,0% 836

Fuente: Elaboración propia a partir de los datos de Linkedin y de la MCVL.

El cluster de mayor número de colocaciones es el cluster 41, con 98.877 colocaciones en la

MCVL en el período considerado (2011-2013) –288 colocaciones de Linkedin están situadas en

este cluster–. El cluster está localizado en su totalidad en la comunidad de Andalucía* y sus

colocaciones se corresponden con los siguientes clusters de grupos de ocupaciones: el 48,5% de

las colocaciones se dan en la ocupación de Trabajadores No Cualificados, el 27,8% corresponde

a Oficiales, y el 23,7% a Ayudantes Administrativos.

El siguiente cluster con mayor número de colocaciones es el cluster número 33, con cerca

de 17.000 colocaciones en la MCVL –158 colocaciones de Linkedin están situadas en este

cluster–. Este cluster se corresponde en su totalidad con trabajadores Titulados Universitarios, y

se reparte en 3 comunidades: Madrid*, que representa un 89,3% de las colocaciones del cluster,

y Castilla-La-Mancha* y Castilla-y-León*, que participan en menores porcentajes.

El siguiente cluster, con 13.276 colocaciones en la MCVL (y 52 colocaciones en Linkedin),

es el cluster número 61, el cual está formado también por Titulados Universitarios al 100%. El

cluster se situa principalmente en la comunidad de Cataluña* (87,9 %), aunque también tiene

colocaciones en la comunidad de Aragón* (12,1 %).

Finalmente, los clusters 35 y 31 se corresponden en su totalidad con Titulados Superiores

de Andalucía*. El cluster 35 tiene 10.145 colocaciones en la MCVL y 119 en Linkedin, mientras

que el cluster 31 tiene 8.642 colocaciones en la MCVL y 836 en Linkedin.

Como se puede observar, en tres de los cinco clusters de segmentos de trabajador se

observa más de una comunidad* o cluster de grupo de provincias o más de un cluster de grupos

de ocupaciones lo que implica una estructura del cluster no pura en el sentido descrito

anteriormente.

Por otra parte, además de estos clusters de segmentos de trabajador en los que la muestra

de Linkedin ha situado a la mayoría de las colocaciones, existen otros clusters de segmentos de

trabajador en los que la MCVL tiene un elevado número de colocaciones por lo que son

importantes y dignos de consideración. Se van a detallar a continuación los cinco clusters de

segmentos de trabajador obtenidos con mayor número de colocaciones en la MCVL, entre los

cuales se encuentra el CST 41 ya mencionado.

Tabla 6.2. Descripción de los CST de la MCVL que tienen un mayor número de

colocaciones.

Como se puede observar en la Tabla 6.2, estos clusters se caracterizan por presentar en su

composición varios clusters de grupos de ocupaciones. Los dos grupos de ocupaciones que

mayor porcentaje presentan son Ayudantes Administrativos Subalternos y Trabajadores No

Cualificados y un único cluster de provincias en todos ellos. El CST 16 es el que tiene mayor

número de colocaciones (208.137 colocaciones) y está situado en Madrid*. El siguiente con

200.607 colocaciones, está localizado en Cataluña*. En ambos, los clusters de grupos de

ocupaciones predominantes son Ayudantes Administrativos Subalternos y Oficiales (más del

70% de las colocaciones en ambos clusters). Los siguientes clusters de segmentos de trabajador

con mayor número de colocaciones son el CST 41 y el CST 70, ambos con similar número de

colocaciones. El CST 41 tiene 98.877 colocaciones y se localiza en Andalucía*. El CST 70, con

96.519, se localiza en Valencia-Castellón*. Por último, el CST 43 presenta 66.753 colocaciones y

se localiza también en Andalucía*. En éstos tres, los clusters de grupos de ocupaciones

predominantes son Oficiales y Trabajadores No Cualificados.

En todos los clusters de segmentos de trabajador con mayor número de colocaciones en la

82.278

71.107

54.752

78.945

65.669

55.993

47.948

27.493

23.436

38.822

32.517

22.498

22.914

22.786

16.608

4.445 6,7%

43 Andalucía*

66.753

Oficiales 34,1%

70 Valencia-Castellón*

96.519

Oficiales 40,2%

Trabajadores No Cualificados 33,7%

41 Andalucía*

98.877

Oficiales 27,8%

64 Cataluña*

Ayudantes Adm. Subalternos

200.607

Oficiales 32,7%

16 Madrid*

208.137

Oficiales 34,2%

CST (con mayor

número de

colocaciones en la

(comunidades*)Cluster de grupos de ocupación Colocaciones MCVL

% Colocaciones

MCVL obtenidos se observa más de un cluster de grupos de ocupaciones, aunque todos ellos se

componen de un único cluster de grupos de provincias o comunidad*, lo que implica que estos

clusters son también no puros en el sentido de las ocupaciones.

6.1.2. Clusters de segmentos de puesto.

En los segmentos de puestos, se obtienen cuatro clusters representativos, con mayor

conexión con Linkedin. Estos clusters, y la heterogeneidad de cada uno, se pueden entender

con más claridad en la siguiente tabla –Tabla 6.3-. Estos CSP son, según su posición en el

dendrograma generado, los clusters de segmentos de puesto 47, 16, 34 y 11. La composición de

cada cluster se detalla a continuación.

Tabla 6.3. Descripción de los CSP de la MCVL que tienen conexión con Linkedin.

Con un mayor número de colocaciones está el cluster de puesto 47, con 239.175

colocaciones en la MCVL en el período considerado (2011-2013) y 66 colocaciones en la

muestra de Linkedin en el período 2010-2015, el cual se localiza en el grupo de provincias del

cluster denotado Cataluña*. Las ocupaciones de este cluster destacan por su variedad,

encontrándose una amplia variedad de vacantes que cubren todas las ocupaciones: Ayudantes

82.534

67.663

56.783

32.195

16.556

Colocaciones

CSP (conectados con

Linkedin)

% Colocaciones

47 Cataluña* 66Trabajadores No Cualificados

Oficiales

239.175

16 Andalucía*

Oficiales

34 19.496

Titulados Universitarios 4,1%

Madrid*

Navarra

Castilla-La-Mancha*

Castilla-y-León*

La Rioja

301103.768

Andalucía*

Alicante-Murcia*

Castilla-La-Mancha*

Castilla-y-León*

Titulados Universitarios 11.473

Administrativos Subalternos, Oficiales, Trabajadores No Cualificados y Titulados Universitarios,

con porcentajes similares en el cluster.

El siguiente cluster con mayor número de colocaciones es el cluster número 16, con

103.768 colocaciones en la MCVL y 301 colocaciones en la muestra de Linkedin. Este cluster

está situado en Andalucía* en su totalidad. Destaca también por la variedad de puestos

ocupados, los cuales cubren todos los grupos de ocupaciones: Trabajadores No Cualificados,

Oficiales, Ayudantes Administrativos Subalternos, Titulados Universitarios y Jefes.

El cluster 34 presenta 19.496 colocaciones en la MCVL y 173 en Linkedin y se localiza en

los grupos de provincias Madrid*, Navarra, Castilla-La-Mancha*, Castilla-y-León y La Rioja, con

mayor porcentaje de este cluster en Madrid* (el 84,9%). Las ocupaciones de este cluster se

enmarcan en el cluster de grupos de ocupaciones Titulados Universitarios en la totalidad del

cluster.

Con el cluster número 11 ocurre lo mismo, situado el 71,9% de las colocaciones de este

cluster en las provincias del cluster Andalucía* con las ocupaciones que forman del cluster de

grupos de ocupaciones Titulados Universitarios en la totalidad del cluster.

Los clusters de segmentos de puesto obtenidos en los que existe conexión con Linkedin

también se alejan de una estructura pura en el sentido descrito anteriormente, puesto que en dos

de ellos existe más de un cluster de provincias (en estos casos con un único cluster de grupos de

ocupaciones) y en otros dos más de un cluster de grupos de ocupaciones distintas (en estos

casos con un único cluster de grupos de provincias). Esto se podría explicar teniendo en cuenta

que las empresas tienen sedes en distintas provincias y ofertan diferentes puestos de trabajos

variados.

Asimismo, se procede a detallar en la siguiente Tabla 6.4 los cinco clusters de segmentos

de puesto en los que la MCVL presenta un mayor número de colocaciones, entre los cuales se

encuentran los clusters de segmentos de puesto 47 y 16 ya mencionados.

Como se puede observar en dicha tabla, los cinco clusters de segmentos de puesto con

mayor número de colocaciones en la MCVL son: el CSP 47, con 239.175 colocaciones y

localizado en el cluster de provincias Cataluña*, el CSP 29, con 222.998 colocaciones y

localizado en el cluster de provincias Madrid*; el CSP 16, con 103.768 colocaciones y situado en

Andalucía*; el CSP 23, con 95.585 colocaciones y localizado en el cluster de provincias que

forman Valencia-Castellón* y Castilla-La-Mancha* y el CSP 13, con 69.659 colocaciones y

localizado en Andalucía*. Estos clusters de segmentos de puesto se caracterizan por presentar

varios clusters de grupos de ocupaciones, siendo los tres predominantes los de Ayudantes

Administrativos Subalternos y Oficiales con porcentajes muy parecidos y Trabajadores No

Cualificados con mayor presencia en los CSP 16 y CSP 13.

Tabla 6.4. Descripción de los CSP de la MCVL que tienen un mayor número de

colocaciones.

En todos los clusters de segmentos de puesto obtenidos en los que existe mayor número

de colocaciones de la MCVL se observa una única comunidad* o cluster de grupo de provincias

(salvo en el CSP 23), o más de un cluster de grupos de ocupaciones lo que implica que estos

82.534

67.663

56.783

32.195

93.085

74.151

55.762

51.361

27.837

19.591

37.923

34.723

19.971

53.852

95.585

Castilla-La-Mancha*

Oficiales 14,3%

Jefes 0,6%

239.175

103.768

13 Andalucía*

69.659

Jefes 3,1%

Valencia-Castellón*

Oficiales

Jefes 2,0%

16 Andalucía*

Oficiales 26,8%

29 Madrid*

222.998

Oficiales 33,3%

47 Cataluña*

CSP (con mayor

número de

colocaciones en la

% Colocaciones

Oficiales 28,3%

clusters son también no puros en el sentido de las ocupaciones.

6.1.3. Biclusters de segmentos conjuntos.

De forma análoga, se ha procedido a la obtención de biclusters con los datos de la MCVL.

En primer lugar, se procede a detallar los biclusters más representativos, es decir, los obtenidos

de los clusters de segmentos de trabajador y de los clusters de segmentos de puesto en los que la

muestra de Linkedin ha presentado mayor número de colocaciones.

Estos biclusters se detallan en las siguientes tablas. Cada tabla detalla el bicluster formado

por cada cluster de segmento de trabajador con los clusters de segmentos de puesto, siendo

todos ellos los clusters de la MCVL que se han considerado que conectan con la muestra de

Linkedin.

Tabla 6.5. Descripción de los biclusters de la MCVL que forma el CST 41 con los

clusters de los segmentos de puesto que tienen conexión con Linkedin.

Como puede observarse en la tabla, el CST 41 forma bicluster con el CSP 16, en este

bicluster se encuentra el mayor número de colocaciones de Linkedin -87.794 colocaciones en la

MCVL y 196 colocaciones en la muestra de Linkedin-. Se sitúa en Andalucía* y agrupa a tres

clusters de grupos de ocupaciones, ordenados de mayor a menor número de colocaciones

Trabajadores No Cualificados, Oficiales y Ayudantes Administrativos Subalternos. El siguiente

bicluster con mayor número de colocaciones en la muestra de Linkedin es el formado por CST

41 con CSP 11, con 208 colocaciones en la MCVL y 59 colocaciones en la muestra de Linkedin.

42.643

24.548

20.603

Andalucía* 59Oficiales

Colocaciones

CST 41, CSP 34 Andalucía*

Oficiales 5,3%

Biclusters

(conectados con

Linkedin)

% Colocaciones

Oficiales

Andalucía*

CST 41, CSP 11

87.794

CST 41, CSP 47

CST 41, CSP 16 28,0%

Oficiales

Andalucía*

Se localiza en Andalucía*, con la diferencia a este nivel de 17 clusters de provincias y 5 clusters

de ocupaciones, de que este bicluster presenta como ocupación con mayor número de

colocaciones la de Ayudantes Administrativos Subalternos.

Profundizando un poco más en la composición de cada bicluster, a partir de los datos

obtenidos en Stata, a nivel de 52 provincias y 11 grupos de ocupación, se pueden detallar la

composición de estos dos biclusters con más colocaciones en la muestra de Linkedin. De esta

forma, el bicluster CST 41 - CSP 16 se localiza en Sevilla en su totalidad y agrupa a las

ocupaciones Trabajadores Mayores de 18 años No Cualificados (48,5%), Oficiales de 1ª y 2ª

(18,1%), Auxiliares Administrativos (14,1%) y otras ocupaciones que suponen el 19,3%. En

cuanto al bicluster CST 41 – CS P11, también se localiza en Sevilla en su totalidad con las

ocupaciones Auxiliares Administrativos (31,7%), Oficiales Administrativos (21,2%), Oficiales

de 1ª y 2ª (14%), Trabajadores Mayores de 18 años No Cualificados (13%) y otras ocupaciones

suponen el 20,1%.

En todos los biclusters que forma el CST 41 se observa una única comunidad* o cluster de

grupo de provincias pero más de un cluster de grupos de ocupaciones lo que implica una

estructura del cluster no pura.

En los biclusters que forma el CST 33 con los clusters de segmentos de puesto, el mayor

número de colocaciones de la muestra de Linkedin se sitúa en el bicluster CST 33 – CSP 34

12.040

Madrid*

Castilla-La-Mancha*

Castilla-y-León*

Titulados Universitarios 5

CST 33, CSP 16 Madrid*

100,0%

Biclusters

(conectados con

Linkedin)

% Colocaciones

Titulados Universitarios 11

CST 33, CSP 47

Colocaciones

CST 33, CSP 34

Madrid*

Castilla-La-Mancha*

Castilla-y-León*

CST 33, CSP 11

Madrid*

Castilla-La-Mancha*

Castilla-y-León*

12.852

653 13

(12.852 colocaciones en la MCVL y 127 colocaciones en la muestra de Linkedin). Este bicluster

se sitúa en los clusters de grupos de provincias Madrid*, Castilla-La-Mancha* y Castilla-y-León*

con la ocupación de Titulados Universitarios en su totalidad. El siguiente bicluster a destacar en

estos biclusters que forma el cluster de segmentos de trabajador 33, es el bicluster CST 33 – CSP

11, con 653 colocaciones en la MCVL y 13 colocaciones en la muestra de Linkedin. Este

bicluster se localiza en los clusters de provincias que forman Madrid*, Castilla-La-Mancha* y

Castilla-y-León* con el cluster de grupos de ocupaciones Titulados Universitarios en la totalidad

del bicluster.

Profundizando a un nivel de 52 provincias y 11 grupos de ocupaciones, la localización del

bicluster CST 33 – CSP 34 es en las provincias Madrid (88,6%), Albacete (4,2%), Toledo

(3,7%), y en las provincias de Guadalajara, León, Ciudad Real, Cuenca y Ávila en un menor

porcentaje; con la ocupación de Ingenieros, Licenciados y Alta Dirección en la totalidad del

bicluster. Respecto al bicluster CST 33 – CSP 11, en concreto este bicluster se localiza en las

provincias Ciudad Real (68,5%), Madrid (24%), Toledo (2,6%) y el resto (4,9%) se reparte entre

las provincias Albacete, Cuenca, León, Ávila y Guadalajara. La ocupación que supone la

totalidad en el bicluster es la de Ingenieros, Licenciados y Alta Dirección.

En este caso, en los biclusters que forma el CST 33, se observa más de una comunidad* o

cluster de grupo de provincias y un único cluster de grupos de ocupaciones, lo que implica una

estructura del cluster también no pura, en este caso, en el sentido de la localización de los

biclusters que forma el CST 33.

Biclusters

(conectados con

Linkedin)

(comunidades*)Cluster de grupos de ocupación

372,2%

Colocaciones

Cataluña*

Aragón*Titulados Universitarios

Colocaciones MCVL% Colocaciones

CST 61, CSP 4797,8%

CST 61, CSP 11Cataluña*

Titulados UniversitariosAragón*

CST 61, CSP 34Cataluña*

Aragón*Titulados Universitarios

CST 61, CSP 16Aragón*

Cataluña*Titulados Universitarios

10.180

5194,1%

El bicluster CST 61 – CSP 47 es el que tiene mayor número de colocaciones en Linkedin,

con 37 colocaciones en la muestra de Linkedin y 10.180 en la MCVL. Se sitúa en los clusters de

grupos de provincias de Cataluña* y Aragón*. El bicluster CST 61 – CSP 11 tiene 6 colocaciones

en la muestra de Linkedin y 51 colocaciones en la MCVL. Se localiza en Cataluña* y Aragón*.

Acudiendo a un nivel de 52 provincias y 11 ocupaciones, en concreto el bicluster CST 61 –

CSP 47 se localiza en Barcelona (86,3%) y Girona (8,8%) con la ocupación de Ingenieros,

Licenciados y Alta Dirección. El resto se sitúa en Tarragona y Lleida, con la ocupación de

Ingenieros Técnicos y Ayudantes Titulados. Respecto al otro bicluster con más colocaciones en

la muestra de Linkedin, el mencionado bicluster CST 61 – CSP 11, se localiza en las provincias

Barcelona (78,4%), Tarragona (11,8%), Lleida (6%) y Girona (4%), con la ocupación de

Ingenieros, Licenciados y Alta Dirección.

Como se puede observar, los biclusters que forman el CST 61 siguen una estructura

repetitiva y más similar a la de un cluster puro, ya que todos los biclusters tienen un único cluster

de grupos de ocupaciones y los mismos dos clusters de grupos de provincias.

Aunque los biclusters asociados al CST 35 puedan parecer repetitivos, porque todos se

corresponden con la comunidad* de Andalucía* y con el cluster de ocupaciones de Titulados

Universitarios, hay que tener en cuenta que cada bicluster puede estar situado en ciertas

provincias andaluzas y en ciertos grupos de ocupación lo cual se conoce profundizando en el

análisis al nivel de 52 provincias y 11 ocupaciones.

Acudiendo a este nivel de más detalle en el análisis, el bicluster CST 35 – CSP 16, en el que

tiene mayor número de colocaciones la muestra de Linkedin -87 en la muestra de Linkedin y

2.576 en la MCVL-, se sitúa en Andalucía, con la ocupación de Titulados Universitarios. La

CST 35, CSP 34 Andalucía* Titulados Universitarios 100,0%

CST 35, CSP 16 Andalucía* Titulados Universitarios 100,0%

CST 35, CSP 11 Andalucía* Titulados Universitarios 100,0% 8

872.576

Andalucía*CST 35, CSP 47

Colocaciones

1100,0%228Titulados Universitarios

Biclusters

(conectados con

Linkedin)

% Colocaciones

localización de este bicluster es, concretando al nivel de 52 provincias y 11 grupos de

ocupaciones, en Sevilla (85,3%) y Cádiz (6,2%). El resto del bicluster se sitúa en las provincias de

Huelva, Córdoba, Granada y Jaén. La ocupación del bicluster es Ingenierios Técnicos y

Ayudantes Titulados en su totalidad. El bicluster formado por los clusters de segmentos de

trabajador y puesto CST 35 – CSP 11 tiene 283 colocaciones en la MCVL y 8 colocaciones en la

muestra de Linkedin. Este bicluster se localiza en Sevilla (37,1%) y el resto en Cádiz y Córdoba,

con la ocupación de Ingenieros Técnicos y Ayudantes Titulados.

En este caso, en todos los biclusters que forma el CST 35, se observa una única

comunidad* o cluster de grupo de provincias y un único cluster de grupos de ocupaciones, lo

que implica una estructura del cluster pura en el sentido descrito anteriormente.

Los biclusters asociados al CST 31 pueden parecer los mismos que los asociados al CST

35, sin embargo, empleando un nivel de detalle de 52 provincias y 11 grupos de ocupaciones, es

decir, analizando la estructura de cada bicluster en un nivel inferior a los 17 clusters de grupos de

provincias y a los 5 clusters de grupos de ocupaciones, el bicluster CST 31 – CSP 11, el que

presenta mayor número de colocaciones de Linkedin -745 colocaciones-, está situado en

Andalucía* con la ocupación de Titulados Universitarios. Se entiende que este bicluster tenga

mayor número de colocaciones en la muestra de Linkedin debido a la composición de esta

muestra, obtenida de Titulados Universitarios por la universidad de Sevilla. Es por esto mismo

que el siguiente bicluster con mayor número de colocaciones es el formado por el CST 31 con el

CSP 34, el cual se sitúa también en Andalucía* y con el cluster de grupos de ocupaciones

Titulados Universitarios.

Por tanto, para apreciar las diferencias entre ambos biclusters, es necesario analizarlos a un nivel

100,0% 21

100,0% 745

100,0%

6100,0%

Colocaciones

333CST 31, CSP 16 Andalucía* Titulados Universitarios

CST 31, CSP 47 Andalucía* Titulados Universitarios

Biclusters

(conectados con

Linkedin)

% Colocaciones

CST 31, CSP 11 Andalucía* Titulados Universitarios

CST 31, CSP 34 Titulados UniversitariosAndalucía*

inferior de 52 provincias y 11 grupos de ocupaciones. Empleando este nivel, el bicluster CST 31

– CSP 11 se localiza en su mayoría en las provincias de Sevilla (31,6%), Cádiz (18,6%), Granada

(15,6%) y Córdoba (11,2%), el resto del bicluster (23%) se localiza en Huelva, Jaén, Almería y

Ceuta. La ocupación del bicluster es Ingenieros, Licenciados y Alta Dirección en la totalidad del

bicluster. El bicluster formado por CST 31 – CSP 34, tiene 21 colocaciones en la muestra de

Linkedin y 285 colocaciones en la MCVL. La composición de este bicluster es muy semejante al

anterior, salvo que la provincia que más predomina en las colocaciones de este bicluster es Cádiz

con un 30,5% de las colocaciones del bicluster.

Los biclusters que forma el CST 31 también son biclusters puros.

Atendiendo a los resultados, el bicluster que forma el CST 41 con los clusters

representativos de los segmentos de puesto, está formado por un único cluster de grupos de

provincias, Andalucía*; y los biclusters formados por los CST 33 y CST 61 se componen de un

único cluster de grupos de ocupaciones, Titulados Universitarios. La composición en términos

de los diecisiete clusters de grupos de provincias y de los cinco clusters de grupos de

ocupaciones de los biclusters que forman los CST 35 y CST 31 con los clusters representativos

de los segmentos de puesto es la misma, Andalucía* y Titulados Universitarios. Con esto se

demuestra que existe cierta homogeneidad en la composición de los biclusters, acercándose

éstos a la composición de biclusters puros, en los que sólo existe un único cluster de grupos de

provincias y un único cluster de grupos de ocupaciones en el bicluster.

Por otra parte, estos clusters de los segmentos de trabajador forman bicluster con otros

clusters de los segmentos de puesto en los que la muestra de Linkedin no presenta colocaciones

pero que son importantes ya que con los datos de la MCVL, de mayor extensión, forman

bicluster con un gran número de colocaciones. Se puede considerar que cada cluster de

trabajador tiene un peso en el cluster de puesto con el que forma un bicluster en función del

número de colocaciones que se produzcan en dicho bicluster. Se detallan a continuación los

cinco biclusters con mayor número de colocaciones (mayor peso), entre los cuales se encuentra

el bicluster mencionado CST 41 – CSP 16.

En la siguiente tabla –Tabla 6.7- se detallan las composiciones de estos biclusters. El de

mayor número de colocaciones se localiza en Madrid*, seguido de los biclusters situados en

Cataluña*, Andalucía*, Valencia-Castellón* y Alicante-Murcia*. En el caso del bicluster

formado por los CST 16 – CSP 29, se sitúa con mayor porcentaje en las provincias de Madrid

(80%), Toledo (13%) y Guadalajara (7%). El bicluster CST 64 – CSP 47 se localiza

principalmente en Barcelona (85,4%) y Girona (14,6%). El bicluster CST 41 – CSP 16 se localiza

en Sevilla en su totalidad y el bicluster CST 70 – CSP 23 en Valencia. Por último, el bicluster

CST 75 – CSP 26 se localiza en Murcia también en su totalidad.

Tabla 6.10. Descripción de los biclusters de la MCVL que tienen mayor número de

colocaciones.

Fuente: Elaboración propia a partir de la MCVL.

Como se observa en la tabla –Tabla 6.10-, los biclusters de la MCVL con mayor número de

colocaciones se componen de un único cluster de provincias o comunidad* y varios clusters de

grupos de ocupaciones. Esto apunta a que estos biclusters de mayor número de colocaciones se

acercan a una estructura de biclusters puros en cuanto a localización.

74.382

65.118

50.758

73.998

61.757

52.849

42.643

24.548

20.603

35.690

28.127

19.096

26.723

18.002

10.833

CST 75, CSP 26 Alicante-Murcia*

56.164

Oficiales 32,1%

CST 70, CSP 23 Valencia-Castellón*

Oficiales

84.873

Jefes 2,3%

Oficiales 32,7%

CST 41, CSP 16 Andalucía*

CST 64, CSP 47 Cataluña*

Oficiales 28,0%

CST 16, CSP 29 Madrid*

Biclusters (con

mayor número de

colocaciones en la

% Colocaciones

Oficiales 34,2%

190.258

188.604

87.794

6.2. Resultados obtenidos a partir de los datos de Linkedin.

6.2.1. Análisis comparativo de los datos de Linkedin y de la MCVL.

Antes de proceder a combinar la MCVL y Linkedin, se va a analizar la estructura de ambas

muestras de forma comparada en aquellos clusters de segmentos de trabajador CST y clusters de

segmentos de puesto CSP de la MCVL donde se ha observado un número significativo de

colocaciones de Linkedin; toda esta comparativa resulta aún más necesaria si tenemos en cuenta

que la muestra extraída de Linkedin no tiene carácter puramente aleatorio.

La primera comparación consiste en analizar en ambas muestras cómo se distribuyen

porcentualmente las colocaciones de cada CST con los diferentes CSP; es decir, calculamos para

cada CST, y para cada muestra, el porcentaje que representa el número de colocaciones que ha

tenido dicho CST con cada CSP frente al total de colocaciones del CST16. La siguiente figura -

Figura 6.1-, muestra una nube de puntos que relaciona dicho ratio o porcentaje en la MCVL y en

Linkedin. En principio, se observa cierta dispersión en la nube, existiendo biclusters con un

elevado porcentaje en una muestra y un escaso porcentaje en la otra; sin embargo, también se

aprecia que la recta de regresión que mejor se ajusta a la nube de puntos tiene pendiente positiva

y un coeficiente R2 de 0,45, lo cual indica que en general aquellos biclusters que son más

representativos en la MCVL también tienden a serlo en Linkedin.

Figura 6.1. Distribución de las colocaciones de los CST con los diferentes CSP en la

MCVL y en Linkedin.

16 Un análisis similar a este se podría hacer con la distribución, en cada muestra, de las colocaciones de cada CSP con los diferentes CST.

y = 0,6375x + 0,1458R² = 0,454

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Distribución MCVL (%)

La siguiente figura –Figura 6.2-, muestra el análisis comparativo de las distribuciones para

tres CST con un peso significativo en los datos de Linkedin y que están situados en Andalucía*,

el cluster 31, el 35 y el 4117. El cluster de trabajadores CST 31 se sitúa totalmente en Andalucía*,

principalmente en Sevilla, y se compone en su mayoría por la ocupación de titulados

universitarios superiores –Ingenieros, Licenciados y trabajadores de Alta Dirección–. El cluster

CST 35 se sitúa en Andalucía* y está compuesto por trabajadores del grupo de ocupación de los

titulados universitarios medios –Ingenieros Técnicos, Peritos y Ayudantes–. Finalmente, el

cluster CST 41 se corresponde con trabajadores situados en Andalucía*, principalmente en

Sevilla, pertenecientes a los grupos de ocupación de Ayudantes No Titulados, Administrativos y

Subalternos –los episodios como becarios extraídos de los datos Linkedin se han incluido en la

categoría de Ayudantes No Titulados–. En general, se vuelve a observar una relación positiva

entre las distribuciones de la MCVL y de Linkedin para estos tres clusters. Además, en los CST

31 y CST 41 el punto de la nube que representa mayores porcentajes en ambas muestras se

corresponde con un bicluster “simétrico”, es decir, con un bicluster donde el cluster de

segmentos de trabajador CST y el cluster de segmentos de puesto CSP están situados en las

mismas provincias y con las mismas ocupaciones. Por su parte, el CST 35 se dirige

principalmente a dos clusters de segmentos de puesto el CSP 12 y el CSP 16, ambos clusters

están referidos a puestos dirigidos a titulados universitarios de grado medio. El bicluster CST 35

– CSP 12 tiene un mayor peso en la MCVL que en Linkedin (42% en la MCVL y sólo un 10%

en Linkedin) y se sitúa sobre todo en las provincias andaluzas de Cádiz, Granada, Jaén, Córdoba

y Almería; el bicluster CST 35 – CSP 16 tiene un mayor peso en Linkedin que en la MCVL (73%

frente a 25%) y se sitúa sobre todo en la provincia de Sevilla –hay que tener en cuenta que por la

forma empleada para extraer los datos de Linkedin, Sevilla es la provincia (de trabajador y de

puesto) con mayor representación en dichos datos–.

17 La numeración de cada CST y de cada CSP la proporciona el programa Stata cuando realiza el agrupamiento en clusters, y marca la posición de cada cluster en su respectivo dendrograma.

Figura 6.2. Distribución de las colocaciones de los CST con los diferentes CSP en la

MCVL y en Linkedin. CST 31, 35 y 41.

La siguiente comparación entre ambas muestras que se propone en esta sección se ha

centrado en la variable de propensión al emparejamiento de todos los clusters de segmentos de

trabajador CST y de todos los clusters de segmentos de puesto CSP entre sí –figura 6.3–. Estas

propensiones se han calculado, de acuerdo con la ecuación (3.1), como el cociente entre la

probabilidad real de observar una colocación en un bicluster determinado y la probabilidad

estimada de observar una colocación en dicho bicluster si el emparejamiento laboral fuera fruto

de un proceso puramente aleatorio. Salvo en algún caso aislado, se observa que la relación entre

las propensiones de ambas muestras es positiva; es decir, aquellos biclusters que presentan una

propensión a emparejarse elevada según los datos de la MCVL también tienen una propensión

elevada según los datos de Linkedin.

y = 0,698x + 0,069R² = 0,921

0% 20% 40% 60% 80% 100%

CST-41. Sevilla - Ayudante No Titulado, Administrativo y Subalterno

y = 0,584x + 0,120R² = 0,111

0% 20% 40% 60% 80% 100%

CST-35. Andalucía - Ingenieros Técnicos y Ayudantes Titulados

CST 35 - CSP 16y = 1,167x - 0,015

R² = 0,998

0% 20% 40% 60% 80% 100%

CST-31. Andalucía - Ingeniero, Licenciado y Alta Dirección

y = 0,861x + 0,051R² = 0,678

0% 20% 40% 60% 80% 100%

CST 31, 35 y 41

CST 35 - CSP 12

Figura 6.3. Propensión al emparejamiento de los biclusters en la MCVL y en

Linkedin.

La siguiente tabla –Tabla 6.11- muestra las propensiones al emparejamiento de los

biclusters en la MCVL y en Linkedin. En general, se observa que las propensiones que son

mayores a uno en una muestra también son mayores a uno en la otra. Propensiones mayores a

uno en ambas muestras se dan en los siguientes biclusters: CST 11 – CSP 34, CST 31 – CSP 11,

CST 33 – CSP 34, CST 35 – CSP 12, CST 35 – CSP 16, CST 41 – CSP 16 y CST 61 – CSP 47,

cuyos valores de propensión en ambas muestras se pueden consultar en dicha tabla.

y = 0,6708x + 35,642

R² = 0,1322

0 100 200 300 400 500 600 700

Propensión al emp. de los biclusters en la MCVL

Tabla 6.11. Propensión al emparejamiento en la MCVL y en Linkedin de los

biclusters más representativos en Linkedin.

El bicluster CST 11 – CSP 34 se localiza en Extremadura (Cáceres y Badajoz), con la

ocupación de Titulados Universitarios. El bicluster CST 31 – CSP 11 se localiza en Andalucía*,

pricipalmente en Sevilla, con la ocupación de Titulados Universitarios -Ingenieros, Licenciados y

Alta Dirección. A este nivel de 17 clusters de provincias y 5 clusters de grupos de ocupaciones,

la misma composición muestran los biclusters formados por CST 35 – CSP 16 y CST 35 – CSP

12. El bicluster CST 33 – CSP 34 se localiza en Madrid*, con la ocupación de Titulados

Universitarios. El bicluster CST 41 – CSP 16 también está localizado en Andalucía* con la

ocupación principal de Trabajadores Mayores No Cualificados. El bicluster CST 61 – CSP 47 se

localiza en Cataluña*, con la ocupación de Titulados Universitarios.

El análisis comparativo de ambas muestras concluye con la comparación de los pesos que

tienen los CST y los CSP en el total de la muestra; es decir, para cada cluster, y en cada muestra,

se calcula el porcentaje que representan las colocaciones del cluster frente al total de

colocaciones de la muestra. A continuación, se obtiene el ratio o cociente de dichos pesos o

porcentajes en Linkedin y en la MCVL. La Tabla 6.12 muestra esta comparativa para los

CST CSPColoc. CST

Coloc. CSP

Coloc. bicluster

Prop. emp.

Coloc. CST

Coloc. CSP

Coloc. bicluster

Prop. emp.

11 34 4 174 2 4,6 3.061 19.496 38 1,3

31 11 844 877 754 1,6 8.642 11.473 6.719 133,3

31 16 844 310 6 0,0 8.642 103.768 333 0,7

31 34 844 174 21 0,2 8.642 19.496 285 3,3

31 47 844 66 6 0,2 8.642 239.175 24 0,0

33 11 159 877 13 0,1 16.952 11.473 653 6,6

33 34 159 174 128 7,3 16.952 19.496 12.852 76,5

33 47 159 66 5 0,8 16.952 239.175 365 0,2

35 11 119 877 8 0,1 10.145 11.473 283 4,8

35 12 119 12 12 13,3 10.145 6.488 4.282 128,0

35 16 119 310 87 3,7 10.145 103.768 2.576 4,8

35 47 119 66 1 0,2 10.145 239.175 228 0,2

41 11 297 877 59 0,4 98.877 11.473 208 0,4

41 16 297 310 205 3,5 98.877 103.768 87.794 16,8

41 34 297 174 4 0,1 98.877 19.496 19 0,0

41 47 297 66 1 0,1 98.877 239.175 706 0,1

61 11 52 877 7 0,2 13.276 11.473 51 0,7

61 34 52 174 5 0,9 13.276 19.496 186 1,4

61 47 52 66 37 17,1 13.276 239.175 10.180 6,3

principales CST y CSP en la muestra de Linkedin. En general, todos estos clusters tienen una

mayor representación relativa en Linkedin que en la MCVL, lo cual es fruto de la forma en que

se ha extraído la muestra de Linkedin –extracción muy orientada hacia los titulados de la

Universidad de Sevilla–; de hecho, los clusters que muestran un mayor ratio de sobre-

representación en Linkedin son el CST 31 y el CSP 11, que se refieren respectivamente a

trabajadores y puestos de Andalucía* con la ocupación de titulados universitarios superiores.

Tabla 6.12. Distribución de las colocaciones de los CST respecto al total de

colocaciones en la MCVL y en Linkedin. Clusters más representativos en Linkedin.

6.2.2. Análisis del emparejamiento entre titulaciones y empresas a partir de los datos de Linkedin. Análisis global y análisis bicluster.

Los datos de Linkedin tienen la ventaja, respecto a la MCVL, de que contienen

información para cada colocación de la titulación del trabajador y del nombre de la empresa

contratante. Dada la forma de extracción de los datos, que se ha realizado a través de la creación

de un grupo en Linkedin por parte de profesores de la Universidad de Sevilla, la práctica

totalidad de las titulaciones observadas han sido obtenidas en la Universidad de Sevilla.

Como se ha comentado en la sección quinta, para el análisis de estas variables (titulación y

empresa) se ha trabajado con tres niveles diferentes de agregación –al agregar las titulaciones y

las empresas se pierde grado de detalle pero se gana claridad y síntesis en el análisis–.

Cociente

coloc.

CST Colocaciones Linkedin % Colocaciones Linkedin Colocaciones MCVL % Colocaciones MCVL

3,617,97

16.952

10.145

98.877

0,67 4,7

1.653 1.967.441

CSP Colocaciones Linkedin % Colocaciones Linkedin Colocaciones MCVL % Colocaciones MCVL

3,15 13.27661

Coloc.

Cociente

coloc.

11 877 53,06 11.473 0,58 90,98

12 131 7,92 6.488 0,33 24,0

16 310 18,75 103.768 5,27

34 174 10,53 19.496 0,99 10,6

47 66 3,99 239.175 12,16

Inicialmente, se analizan los datos en bruto, los cuales contienen un total de 80 titulaciones y

1005 empresas; a continuación, agregamos las variables mediante clusters, de manera que las 80

titulaciones quedan agregadas en 41 agrupaciones de titulaciones y las 1005 empresas en 100

agrupaciones de empresas; finalmente, se agrupan aún más los bloques anteriores (mediante

clustering) hasta quedar únicamente 12 agrupaciones básicas de titulaciones y 10 agrupaciones

básicas de empresas. El proceso de clustering seguido para agrupar titulaciones y empresas ha

sido descrito en la sección quinta –las diversas agrupaciones realizadas se pueden consultar en el

Anexo de este proyecto–.

6.2.2.1. Análisis global del emparejamiento entre titulaciones y empresas a partir de los datos de Linkedin.

En esta sección se van a analizar los datos de emparejamiento de Linkedin sin explotar su

conexión con el bicluster 85x85 generado a partir de los datos de la MCVL. En primer lugar, se

van a examinar los emparejamientos de Linkedin al nivel de partida, compuesto por 80

titulaciones y 1.005 empresas. La siguiente tabla –Tabla 6.13-, muestra el número de

colocaciones18 y la propensión al emparejamiento de cada unión empresa-titulación observada –

para evitar una tabla excesivamente larga se muestran sólo los resultados obtenidos cuando el

número de colocaciones conjuntas es superior a 4–.

18 Hay que tener en cuenta que las colocaciones contabilizadas en Linkedin incluyen los episodios de beca que el trabajador haya podido tener.

Tabla 6.13. Emparejamientos entre 80 titulaciones y 1.005 empresas. Datos de

Linkedin.

Fuente: Elaboración propia a partir de los datos de Linkedin.

La tabla muestra que existe una elevada conexión entre ciertas titulaciones de la

Universidad de Sevilla y ciertas empresas. La relación más clara es la de los Ingenieros

Aeronáuticos con las empresas del sector aeronáutico, en las cuales concentran la totalidad de

sus colocaciones –existe un elevado porcentaje de Ingenieros Aeronáuticos en nuestra muestra

de Linkedin–. Estos titulados se emparejan principalmente con las empresas del sector

aeronáutico Airbus, Alestis Aerospace y Aertec. Los Ingenieros Industriales transitan hacia el

empleo en empresas como Abengoa, Elecnor, Enel y Airbus, mientras que los Ingenieros en

Organización Industrial presentan mayor número de colocaciones en empresas como Heineken

y en la Universidad. Los Licenciados en Economía tienen un alto grado de emparejamiento con

Entidades Financieras y con Universidades. Aparte de todos estos flujos de generación de

empleo, cabe destacar que las propensiones al emparejamiento más elevadas se observan entre

los Ingenieros Químicos y la empresa Enel y entre los Ingenieros de Materiales y Elecnor.

Como se explicó en la sección anterior, para agrupar las 1.005 empresas de partida (en 100

Colocaciones

conjuntas

Propensión al

emparejamientoTitulaciones (80)

Colocaciones

por titulaciónEmpresas (1005)

Colocaciones

por empresa

38 5,56 Ingeniero Aeronáutico 236 Airbus 50

17 3,85 Ingeniero Industrial 206 Abengoa 37

15 1,32 Ingeniero Industrial 206 Universidad 95

15 1,16 Ingeniero Aeronáutico 236 Universidad 95

9 13,40 Diplomado en Ciencias Empresariales 40 Entidades Financieras 29

8 1,19 Ingeniero de Telecomunicación 122 Universidad 95

7 7,72 Licenciado en Economía 54 Entidades Financieras 29

7 1,17 Ingeniero Industrial 206 Airbus 50

7 1,12 Ingeniero de Organización Industrial 114 Universidad 95

7 5,12 Ingeniero Aeronáutico 236 Alestis Aerospace 10

6 4,39 Ingeniero Aeronáutico 236 Aertec 10

5 1,68 Licenciado en Economía 54 Universidad 95

5 33,86 Ingeniero Químico 51 Enel 5

5 4,78 Ingeniero Geólogo 19 Universidad 95

5 6,89 Ingeniero de Organización Industrial 114 Heineken 11

5 16,11 Ingeniero de Materiales 67 Elecnor 8

5 1,89 Ingeniero de Caminos, Canales y Puertos 48 Universidad 95

agrupaciones), se han dividido inicialmente en dos grupos, aquellas empresas que tienen cuatro o

más colocaciones (empresas individuales importantes), que son un total de 53, y el resto de

empresas, 952, que han sido agrupadas mediante cluster en 47 grupos de empresas. En general,

las empresas de un cluster determinado pertenecen al mismo sector de actividad –sectores

obtenidos de la clasificación de actividades CNAE-2009–. Esta forma de agrupar las empresas

implica que encontremos dos tipos de elementos entre las 100 agrupaciones obtenidas: empresas

individuales importantes en términos de colocaciones (Abengoa, Airbus, etc.) y empresas menos

importantes agrupadas en clusters claramente vinculados a ciertos sectores de actividad.

A continuación, en la siguiente tabla -Tabla 6.14-, se describe el mapa de emparejamientos

cuando agregamos las titulaciones en 41 clusters de titulaciones y las empresas en 100 clusters de

empresas. Para evitar una tabla excesivamente larga se consideran sólo los emparejamientos

entre clusters con más de 9 colocaciones –recuérdese que las diversas agrupaciones realizadas de

titulaciones y de empresas se pueden consultar en el Anexo de este proyecto–.

Tabla 6.14. Emparejamientos entre 41 grupos de titulaciones y 100 grupos de

empresas. Datos de Linkedin. Colocaciones conjuntas superiores a 9.

Los resultados de la tabla anterior apuntan a que los Ingenieros Aeronáuticos se emparejan

con una elevada propensión con la empresa Airbus y con el sector del transporte aéreo y espacial

(categoría en la cual se incluye al ejército). Se observa, además, que los Ingenieros Aeronáuticos

tienen un número importante de colocaciones en Investigación y Desarrollo, en la Universidad y

en otras actividades empresariales. Los Ingenieros Industriales tienen una elevada propensión al

emparejamiento con Abengoa, y en menor medida con las Universidades y con el sector de la

producción y distribución de energía eléctrica, gas, vapor y agua caliente. También tienen un

número importante de colocaciones en otras actividades empresariales, en Investigación y

Desarrollo y en la Construcción. La propensión al emparejamiento más elevada se corresponde

Colocaciones

conjuntas

Propensión el

emparejamientoTitulaciones (41)

Colocaciones

por titulaciónEmpresas- Sectores de actividad CNAE (100)

Colocaciones

por empresa

38 5,56 Ingeniero Aeronáutico 236 Airbus 50

32 5,0 Ingeniero Aeronáutico 236 Transporte aéreo y espacial 47

22 1,59 Ingeniero Técnico Industrial 168 Construcción 142

19 4,12 Ingeniero Industrial 215 Abengoa 37

18 1,52 Ingeniero Industrial 215 Universidad 95

18 1,23 Ingeniero Técnico Industrial 168 Otras actividades empresariales 151

17 0,90 Ingeniero Industrial 215 Otras actividades empresariales 151

16 1,61 Ingeniero de Organización Industrial 114 Otras actividades empresariales 151

16 1,54 Ingeniero de Telecomunicación 128 Investigación y desarrollo 140

15 1,16 Ingeniero Aeronáutico 236 Universidad 95

15 0,78 Ingeniero Aeronáutico 236 Investigación y desarrollo 140

15 4,50 Ingeniero de Telecomunicación 128 Correos y telecomunicaciones 45

15 1,90 Ingeniero Técnico Industrial 168 Producción y distribución de energía eléctrica y gas 81

14 2,99 Arquitecto Técnico 57 Construcción 142

14 0,79 Ingeniero Industrial 215 Construcción 142

13 0,67 Ingeniero Aeronáutico 236 Construcción 142

13 0,63 Ingeniero Aeronáutico 236 Otras actividades empresariales 151

12 3,17 Ingeniero de Telecomunicación 128 Actividades informáticas 51

12 2,00 Ingeniero de Telecomunicación 128 Producción y distribución de energía eléctrica y gas 81

12 1,19 Ingeniero Industrial 215 Producción y distribución de energía eléctrica y gas 81

12 16,53 Ingeniero Técnico Agrícola 57 Agricultura, ganadería y caza 22

11 2,79 Ingeniero de Caminos, Canales y Puertos 48 Construcción 142

11 1,17 Ingeniero de Organización Industrial 114 Construcción 142

11 0,63 Ingeniero Industrial 215 Investigación y desarrollo 140

11 0,81 Ingeniero Técnico Industrial 168 Investigación y desarrollo 140

10 1,08 Ingeniero de Organización Industrial 114 Investigación y desarrollo 140

con la titulación de Ingeniero Técnico Agrícola y el sector de la agricultura, ganadería y caza.

El último nivel de agrupamiento agrega el emparejamiento hasta expresarlo en términos de

12 clusters de titulaciones y 10 clusters de empresas o actividades. Las dos tablas siguientes -

tablas 6.15 y 6.16-, recogen respectivamente, en formato matricial, las frecuencias (colocaciones)

y las propensiones al emparejamiento entre ambos clusters (clusters de titulaciones con clusters

de empresas).

Los 12 clusters de titulaciones (o ramas de conocimiento) son: (1) Ingeniero Aeronáutico,

(2) Ingeniero Superior (esta titulación agrupa todas las especialidades de ingeniería superior

menos la aeroespacial19), (3) Ingeniero Técnico, (4) Aquitecto, (5) Ciencias, (6) Humanidades,

(7) Magisterio, (8) Periodismo, (9) Economía y Finanzas, (10) Bellas Artes, (11) Derecho y (12)

Sector Salud –véase su correspondencia con las titulaciones de partida en el Anexo del

proyecto–. Por su parte, las empresas se han agrupado en los siguientes sectores: (1) Sector

Aeronáutico, (2) Agricultura y Ganadería, (3) Construcción, (4) Consultoría, (5) Tecnologías de

la Información y de la Comunicación (TICs), (6) I+D+i y Educación, (7) Industria, (8) Sector

Químico, (9) Servicios Públicos y (10) Servicios Privados.

Tabla 6.15. Colocaciones entre los 12 clusters de grupos de titulaciones y los 10

clusters de grupos de sectores de actividad según las colocaciones conjuntas. Datos

de Linkedin.

19 Se han considerado aparte a los Ingenieros Aeronáuticos debido a que existe un elevado número de individuos en la muestra de Linkedin con esta titulación.

Colocaciones conjuntasSector

Aeronáutico

Agricultura

y Ganadería Construcción Consultoría TICs

I+D+i y

EducaciónIndustria

Sector

Químico

Servicios

Públicos

Servicios

PrivadosTotal

Ingeniero Aeronáutico 90 0 16 18 11 38 27 5 2 29 236

Ingeniero Superior 36 2 78 58 48 150 154 26 14 167 733

Ingeniero Técnico 5 19 39 20 17 62 73 5 5 78 323

Arquitecto 6 0 27 11 3 12 1 0 3 17 80

Ciencias 3 2 1 2 3 9 2 2 0 6 30

Humanidades 0 0 9 2 1 11 5 0 1 10 39

Magisterio 0 0 0 0 3 8 2 0 0 12 25

Periodismo 0 0 0 0 3 0 0 0 0 8 11

Economía y Finanzas 5 1 8 7 11 34 25 1 17 110 219

Bellas Artes 0 0 0 0 0 2 0 0 0 8 10

Derecho 0 0 0 1 0 0 1 0 3 6 11

Sector Salud 0 0 0 0 0 0 0 0 5 5 10

Total 145 24 178 119 100 326 290 39 50 456 1727

Tabla 6.16. Emparejamientos entre los 12 clusters de grupos de titulaciones y los 10

clusters de grupos de sectores de actividad según las propensiones al

emparejamiento. Datos de Linkedin.

En las tablas se observan, tanto en función de las colocaciones como de las propensiones

al emparejamiento, cuatro clusters entre titulaciones y empresas. Éstos son de los Ingenieros

Aeronáuticos con el Sector Aeronáutico; de los Ingenieros Superiores y Técnicos con los

sectores de Construcción, Consultoría, TICs, I+D+i y Educación, e Industria; con menor

número de colocaciones, de las titulaciones de Humanidades, Magisterio y Periodismo con las

Tecnologías de la Información y la Comunicación, y de las titulaciones de Economía y Finanzas,

Derecho, Bellas Artes y Sector Salud con los Servicios Públicos y Privados.

En la primera tabla se observa que el mayor número de colocaciones se da en la titulación

de Ingeniero Superior con Industria, I+D+i y Educación, Construcción, Consultoría y Servicios

Privados, las cuales suponen un 83% de las colocaciones de esta titulación (607 de un total de

733 colocaciones). Economía y Finanzas con Servicios Privados tiene 110 colocaciones de 219,

el 50% de las colocaciones de este cluster de titulaciones, seguido de los Ingenieros Aeronáuticos

con el Sector Aeronáutico, en el cual centran 90 de 236 colocaciones. El resto de colocaciones

de los Ingenieros Aeronáuticos se producen principalmente con los sectores de actividad de

I+D+i y Educación, Servicios Privados e Industria. Estos resultados se entienden si se tiene en

cuenta la composición de la muestra de Linkedin, en la cual predominan esas titulaciones.

En cuanto a los resultados en función de la propensión al emparejamiento, el mayor valor

Propensión al

emparejamiento

Sector

Aeronáutico

Agricultura

y Ganadería Construcción Consultoría TICs

I+D+i y

EducaciónIndustria

Sector

Químico

Servicios

Públicos

Servicios

PrivadosTotal

Ingeniero Aeronáutico 4,5 0,7 1,2 0,8 0,9 0,7 0,9 0,3 0,5 10,4

Ingeniero Superior 0,6 0,2 1,3 1,1 1,1 1,8 1,3 1,6 0,7 0,9 10,6

Ingeniero Técnico 0,2 4,2 1,2 0,9 1,0 1,2 1,3 0,7 0,5 0,9 12,1

Arquitecto 0,9 3,3 2,0 0,6 0,8 0,7 1,3 0,8 10,5

Ciencias 1,2 4,8 0,3 1,0 1,7 1,6 0,4 3,0 0,8 14,7

Humanidades 2,2 0,7 0,4 1,5 0,8 0,9 1,0 7,5

Magisterio 2,7 1,7 0,5 1,8 6,7

Periodismo 4,7 2,8 7,5

Economía y Finanzas 0,3 0,3 0,4 0,5 0,9 0,8 0,7 0,2 2,7 1,9 8,6

Bellas Artes 1,6 3,3 4,9

Derecho 1,3 0,5 9,4 2,7 13,9

Sector Salud 17,3 1,9 19,2

Total 7,7 9,6 9,3 8,7 14,1 11,9 6,9 6,4 33,0 19,2 126,7

de la propensión se da en el Sector Salud con los Servicios Públicos -17,3 de una propensión

total de 19,2. En las tablas se observa que la propensión al emparejamiento de la titulación de

Ingeniero Aeronáutico con el Sector Aeronáutico es elevada (4,5) –el 38% de las colocaciones de

los Ingenieros Aeronáuticos son con dicho sector, 90 de un total de 236–, mostrando esta

titulación una propensión mayor a la unidad con las actividades de Consultoría. Las titulaciones

de Ingeniero Superior e Ingeniero Técnico tienen propensiones al emparejamiento algo mayores

a la unidad con los sectores Construcción, Consultoría, Industria, Química, I+D+i y Educación

y TICs; mostrando un mayor número de colocaciones con los sectores de I+D+i y Educación,

Sector Industrial y Sector Servicios. Valores elevados de propensiones se dan en las titulaciones

de Economía y Finanzas y Derecho con el Sector Servicios, siendo también elevado el número

de colocaciones de estas titulaciones con las actividades del Sector Servicios respecto al total de

colocaciones que se tienen en cada una. Como ya hemos indicado, la rama de Salud también

muestra una propensión al emparejamiento elevada con el sector Servicios Públicos, aunque las

colocaciones de esta combinación son únicamente 5.

6.2.2.2 Análisis bicluster del emparejamiento entre titulaciones y empresas a partir de los datos de Linkedin.

El objetivo de esta sección es mostrar cómo la información de Linkedin puede ser útil para

conocer determinados aspectos del mapa bicluster generado a partir de la MCVL que no se

pueden apreciar a partir de los propios datos de la MCVL. En concreto, se han utilizado los

datos de Linkedin para poder obtener información sobre las titulaciones y las empresas que hay

dentro de un determinado bicluster. Como la muestra de Linkedin no tiene carácter aleatorio y

es reducida, el análisis presenta dos limitaciones: (1) no ha sido posible extraer una muestra de

Linkedin lo suficientemente amplia como para observar colocaciones Linkedin en todos los

biclusters, (2) los biclusters donde sí se han observado colocaciones de Linkedin pueden tener

una estructura, en términos de empresas y titulaciones, más amplia que la capturada por los

datos Linkedin. Por ejemplo, el que en el bicluster de trabajadores y puestos para titulados

superiores en Andalucía se hayan situado colocaciones Linkedin de Ingenieros Aeronáuticos que

se emplean en Airbus, no significa que todo el bicluster esté dominado por este tipo de

colocaciones titulación-empresa; tan sólo podemos afirmar que una parte del bicluster se

corresponde con este tipo de colocaciones.

La siguiente tabla –Tabla 6.17- muestra cómo se reparten las 1.727 colocaciones de

Linkedin dentro del bicluster de provincias y ocupaciones generado con los datos de la MCVL.

Tabla 6.17. Colocaciones de Linkedin dentro del bicluster de la MCVL.

En esta sección se va a analizar la información que aporta Linkedin sobre titulaciones y

empresas en aquellos biclusters donde se observa un mayor número de colocaciones de

Linkedin, que son el CST 31 - CSP 11, que cuenta con 745 colocaciones, el CST 41 - CSP 16,

con 196 colocaciones, el CST 33 - CSP 34, con un total de 127 colocaciones, y se podría

considerar un cuarto bicluster, con 87 colocaciones, formado por CST 35 - CSP 16. La

composición en cuanto a clusters de grupos de titulaciones y de sectores de actividad y la

distribución de las colocaciones según éstos se pueden observar en la siguiente tabla –Tabla

6.18-.

1 2 9 11 12 13 14 15 16 17 18 20 21 23 25 26 27 28 29 32 34 35 36 37 39 40 47 50 52 53 57 67 70 71 74 861 2 1 1 4

11 2 2 4

14 1 2 1 4

15 1 1 1 3

16 1 1 1 10 5 1 19

23 1 4 1 1 7

31 3 745 5 6 8 2 21 6 1 1 38 836

33 2 13 1 127 1 1 5 1 1 1 5 158

34 2 9 7 18

35 8 12 1 87 1 2 1 1 1 1 4 119

39 1 5 1 1 1 1 1 11

40 1 1 4 2 8

41 59 2 5 196 3 2 1 1 4 1 1 1 12 288

42 1 1 2

43 3 17 1 1 22

44 1 2 3

45 1 1

47 1 1

50 1 1

51 1 1 2

55 1 2 3

59 1 1

60 1 1 3 5

61 6 1 5 37 1 2 52

62 7 1 1 9

64 2 2

67 2 1 3

70 1 4 1 6

71 1 1

72 1 3 13 1 1 1 20

74 6 1 1 1 9

76 1 10 11

86 15 1 4 1 3 4 64 92

7 2 5 867 12 2 25 10 301 14 1 1 19 7 1 2 2 1 12 7 173 10 4 4 2 3 66 2 3 6 11 8 2 3 1 131 1727

CSP con conexión a los datos de Linkedin

Coloc. del CST

Coloc. del CSP

Tabla 6.18. Descripción de los biclusters con un mayor número de colocaciones en la muestra de Linkedin.

La descripción de estos biclusters en términos de los resultados obtenidos con los datos de la

MCVL ya se ha comentado en los apartados anteriores, por lo que ahora se procede a la

descripción de cada bicluster en función de los datos de la muestra de Linkedin.

El bicluster formado por CST 31 – CSP 11, el que presenta mayor número de

Biclusters (con

mayor número de

colocaciones en

Linkedin)

Cluster de grupos de titulaciones (12)Cluster de sectores de

actividad (10)

Colocaciones

bicluster

% Colocaciones

bicluster

Servicios Privados

CST 31, CSP 11

Otros emparejamientos con colocaciones en el bicluster menores a 32

CST 41, CSP 16

Sector Aeronáutico

Industria

I+D+i y Educación

Servicios Privados

Consultoría

Economía y Finanzas Servicios Privados

Ingeniero Aeronáutico

Ingeniero Superior196

Servicios Públicos

Construcción

Ingeniero Superior

Ingeniero Aeronáutico

Economía y Finanzas

Ingeniero Superior

Servicios Privados

Industria

I+D+i y Educación

Sector Aeronáutico

Ingeniero Técnico

Servicios Privados

I+D+i y Educación

Industria

I+D+i y Educación

Construcción

Ingeniero Técnico Servicios Privados

Ingeniero Superior

CST 33, CSP 34

Servicios Privados

Ingeniero Superior

Servicios PrivadosEconomía y Finanzas

Sector Salud

CST 35, CSP 16

Ingeniero Técnico Servicios Privados

Ingeniero Técnico

Servicios Privados

I+D+i y Educación

Servicios Públicos

I+D+i y Educación

Ingeniero Superior

colocaciones en la muestra de Linkedin (745 colocaciones), se compone de los emparejamientos

presentes en la tabla anterior –Tabla 6.18-. La mayoría de las colocaciones de este bicluster se

producen entre Ingenieros Superiores con los Servicios Privados, Industria, I+D+i y Educación

y Construcción. Se puede saber con más detalle cuáles son las empresas que componen estos

sectores de actividad y cuáles son las titulaciones que componen los clusters de titulaciones

consultando el Anexo de este proyecto. Recuérdese que, según los datos de la MCVL, este

bicluster se localiza en Sevilla (31,6%), Cádiz (18,6%), Granada (15,6%), Córdoba (11,2%) y el

resto en Huelva, Jaén, Almería y Ceuta.

En el bicluster CST 41 – CSP 16, con 196 colocaciones en la muestra de Linkedin, el mayor

número de colocaciones se producen entre los Ingenieros Aeronáuticos y el Sector Aeronáutico

y los Ingenieros Superiores y la Industria, ambos emparejamientos con 16 colocaciones.

Recuérdese que este bicluster se localiza en Sevilla en su totalidad.

El bicluster CST 33 – CSP 34 (127 colocaciones en la muestra de Linkedin) tiene el mayor

número de colocaciones entre Economía y Finanzas y el Sector Servicios Privados. Recuérdese

que, según la MCVL, este bicluster se sitúa en los clusters de grupos de provincias Madrid*,

Castilla-La-Mancha* y Castilla-y-León con la ocupación de Titulados Universitarios en su

totalidad. La localización de este bicluster es, profundizando a un nivel de 52 provincias y 11

grupos de ocupaciones, en las provincias de Madrid (88,6%), Albacete (4,2%), Toledo (3,7%), y

en las provincias de Guadalajara, León, Ciudad Real, Cuenca y Ávila en un menor porcentaje.

El bicluster CST 35 – CSP 16 con 87 colocaciones en la muestra de Linkedin, tiene el

mayor número de colocaciones entre los Ingenieros Técnicos con el Sector Servicios Privados y

la localización de este bicluster es, concretando al nivel de 52 provincias y 11 grupos de

ocupaciones, en Sevilla (85,3%) y Cádiz (6,2%). El resto del bicluster se sitúa en las provincias de

Huelva, Córdoba, Granada y Jaén. La ocupación del bicluster es Ingenieros Técnicos y

Ayudantes Titulados en su totalidad.

7. CONCLUSIONES Y LÍNEAS FUTURAS.

El presente proyecto ha tenido como objetivo principal tratar de comprender mejor los

flujos de generación de empleo en la economía española mediante la combinación de dos

bases de datos sobre emparejamientos laborales acontecidos en el mercado de trabajo

español durante el período 2011-2013; estas bases de datos de colocaciones han sido la

Muestra Continua de Vidas Laborales (MCVL) y los datos extraídos del portal profesional

Linkedin. La MCVL es una muestra publicada por la Seguridad Social a partir de sus

registros de altas laborales (y de prestaciones), mientras que la muestra de Linkedin ha sido

extraída de dicho portal web mediante la creación previa de un grupo dentro del portal y la

posterior explotación de la información sobre el empleo proporcionada por los perfiles de

los diferentes miembros del grupo, en su mayoría titulados de la Universidad de Sevilla. Por

tanto, nos encontramos ante una muestra grande y aleatoria, como es la MCVL, que

contiene información sobre la vida laboral de más de un millón de trabajadores, y con una

muestra reducida y no aleatoria, la de Linkedin, formada sobre todo por titulados de la

Universidad de Sevilla. La ventaja de esta segunda muestra es que ofrece información sobre

una serie de aspectos de la colocación que no proporciona la MCVL, como por ejemplo la

titulación del trabajador o la identidad de la empresa que contrata al trabajador, de ahí la

idoneidad de intentar combinar ambas muestras.

Para desarrollar el análisis propuesto en el proyecto se han seguido una serie de pasos.

En primer lugar, se ha aplicado una metodología de segmentación de la generación de

empleo que consiste en considerar (y modelizar) la posibilidad de que ciertos tipos de

trabajadores tiendan a emparejarse con ciertos tipos de puestos vacantes en mayor (o menor)

medida a lo que ocurriría en un escenario de emparejamiento laboral aleatorio, donde todos

los tipos de trabajadores y todos los tipos de vacantes tuvieran las mismas opciones de

emparejarse. Para aplicar este esquema de segmentación, los trabajadores han sido agrupados

en segmentos de trabajador según su provincia y su ocupación, y lo mismo se ha hecho con

los puestos. Cada emparejamiento da lugar por tanto a la generación de un segmento

conjunto, formado por la unión del segmento del trabajador y del segmento del puesto. Con

todo este enfoque, el emparejamiento laboral queda expresado en términos de segmentos

laborales de provincia y ocupación de los trabajadores y de los puestos, más que en términos

de trabajadores o de puestos individuales.

A partir de dicha segmentación del emparejamiento laboral resulta posible definir dos

medidas sobre el emparejamiento entre segmentos laborales, que son la propensión al

emparejamiento entre un segmento de trabajador determinado y un segmento de puesto

determinado, y la similitud en la forma de emparejarse de dos segmentos de trabajador

cualesquiera o de dos segmentos de puesto. Asimismo, a partir de estas medidas de similitud,

resulta posible aplicar la técnica de clustering o conglomerados para generar clusters de

segmentos de trabajador similares entre sí y clusters de segmentos de puestos similares entre

sí. La combinación de ambos clusters en función de las colocaciones que se producen entre

ellos permite generar clusters conjuntos que reciben el nombre de biclusters, los cuales

también pueden ser analizados en términos de su propensión a emparejarse.

La metodología expuesta y las bases de datos empleadas han permitido desarrollar tres

tipos de análisis sobre el mercado de trabajo español.

En primer lugar, se ha generado un bicluster de 85 clusters de segmentos de trabajador

y 85 clusters de segmentos de puesto a partir de los datos de la MCVL. Entre los resultados

obtenidos, podemos destacar dos biclusters, el de mayor número de colocaciones en la

MCVL y, entre aquellos biclusters que tienen conexión con los datos de Linkedin, el de mayor

“pureza” (en el sentido de que no está compuesto por diversos clusters de provincias y/o de

grupos de ocupación). El bicluster de mayor número de colocaciones en la MCVL (190.258

colocaciones) es el formado por los clusters de segmentos de trabajador y de puesto 16 y 29

respectivamente. Este bicluster está localizado una única comunidad* (cluster de provincias)

llamada Madrid*; en concreto, se sitúa en la provincia de Madrid y en menor porcentaje en las

provincias de Toledo y Guadalajara. El cluster de grupos de ocupación predominante dentro de

este bicluster es el de Mayores de 18 años No Cualificados (20,8%), seguido de Auxiliares

Administrativos (19,7%).

En cuanto a la pureza del bicluster, destaca el bicluster CST 35 – CSP 16, con 87

colocaciones en la muestra de Linkedin y 2.576 en la MCVL, se trata de un bicluster puro por el

lado de los trabajadores, ya que en los clusters de segmentos de trabajador que lo componen se

observa una única comunidad*, Andalucía*, y un único cluster de grupos de ocupación, el de

Titulados Universitarios. Si la descripción de este bicluster se realiza a nivel de 52 provincias y 11

grupos de ocupaciones (en lugar de a nivel de 17 comunidades* y 5 clusters de ocupaciones), se

observa que está localizado fundamentalmente en Sevilla (85,3%) y en Cádiz (6,2%). El único

grupo de ocupación observado en el bicluster es el de Ingenieros Técnicos y Ayudantes

Titulados.

El cluster de segmentos de trabajador 31, según los resultados obtenidos, también forma

biclusters puros con los clusters de segmentos de puesto que tienen conexión con la muestra de

Linkedin, esto es, con los CSP 47, 16, 34 y 11.

En segundo lugar, se ha llevado a cabo un análisis del emparejamiento entre las

titulaciones de los trabajadores y las empresas que los contratan, con diferentes niveles de

agregación, a partir de la muestra obtenida con Linkedin (sin combinar dicha muestra con los

datos de la MCVL).

Finalmente, en tercer lugar, se han empleado los datos de Linkedin sobre

titulaciones y empresas para ampliar la información aportada por la MCVL sobre el bicluster

85x85 generado, lo cual ha sido posible en aquellos biclusters donde se ha observado una

cierta magnitud de colocaciones de Linkedin. Se ha podido analizar el emparejamiento entre

las titulaciones de los trabajadores y las empresas que los contratan, con diferentes niveles de

agregación, a partir de la muestra obtenida en Linkedin. Por ejemplo, el bicluster CST 31 –

CSP 11 es el que presenta un mayor número de colocaciones en la muestra de Linkedin (745

colocaciones en la muestra de Linkedin y 6.719 colocaciones en la MCVL). Este bicluster está

situado en Andalucía*, con la ocupación de Titulados Universitarios. En concreto, se localiza en

Sevilla (31,6%), Cádiz (18,6%), Granada (15,6%), Córdoba (11,2%) y el resto en Huelva, Jaén,

Almería y Ceuta, con la ocupación de Ingenieros, Licenciados y Alta Dirección en la totalidad

del bicluster. Siguiendo con este bicluster, según la información aportada por los datos de

Linkedin, la mayoría de las colocaciones de este bicluster se producen entre los Ingenieros

Superiores con los Servicios Privados, Industria, I+D+i y Educación, y la Construcción.

Además se conoce con más detalle cuáles son las empresas que componen estos sectores de

actividad y cuáles son las titulaciones que componen los clusters de titulaciones. Esto se puede

consultar en el Anexo de este proyecto.

El tipo de información que proporciona este proyecto, a nivel de segmentos laborales,

clusters y biclusters, puede tener implicaciones desde el punto de vista de las políticas del

mercado de trabajo. La metodología propuesta da lugar a la creación de una herramienta de

información que puede orientar a los buscadores de empleo en varias direcciones, los

trabajadores pueden conocer qué tipo de emparejamientos (y con qué frecuencia) se están

produciendo dentro de sus respectivos segmentos o bicluster laborales, y al mismo tiempo

pueden analizar otras “islas” laborales para valorar si desean moverse hacia un nuevo grupo de

ocupación, a través de la formación correspondiente, o hacia una nueva provincia, a través de la

movilidad geográfica correspondiente.

Dos posibles mejoras en este tipo de análisis sobre las que trabajar en un futuro son: (1)

tratar de mejora el procedimiento de obtención de clusters implementado por el programa Stata,

el cual, a la hora de agrupar dos clusters cualesquiera, evalúa la similitud de los elementos de

partida (segmentos) que componen cada cluster, en lugar de considerar a cada cluster como un

único elemento con sus valores acumulados correspondientes; (2) sacar un mayor provecho a la

amplia información contenida en las bases de datos manejadas, ya sea considerando un mayor

número de variables en el análisis (como el sexo y la edad del trabajador, el tipo de contrato, el

tipo de jornada, la duración del empleo, datos fiscales, etc.) o ampliando el número de

observaciones de la muestra en el caso de Linkedin y logrando una mayor diversificación en la

composición de la muestra.

BIBLIOGRAFÍA

Álvarez de Toledo, P., Núñez, F. y Usabiaga, C. (2008): “La Función de Emparejamiento y el Mercado de Trabajo Español”, Revista de Economía Aplicada, 16 (48), págs. 5-35.

Álvarez de Toledo, P., Núñez, F. y Usabiaga, C. (2013): “Análisis Clusters de los Flujos Laborales Andaluces”, Revista de Estudios Regionales, 97, págs. 195 – 221.

Álvarez de Toledo, P., Núñez, F. y Usabiaga, C. (2014): “An Empirical Approach on Labour Segmentation. Applications with Individual Duration Data”, Economic Modelling, 36, págs. 252 – 267.

Álvarez de Toledo, P., Núñez, F. y Usabiaga, C. (2016): "¿Quién se Empareja con Quién en el Mercado Laboral Español? Un Análisis Cluster basado en la Muestra Continua de Vidas Laborales", XIX Encuentro de Economía Aplicada, Sevilla.

Antolín, P. (1997): “Los Flujos de Trabajadores en el Mercado de Trabajo Español”, Papeles de Economía Española, 72, págs. 154-167.

Blanchard, O.J. (2008): Macroeconomía, 4ª Ed., Pearson, Madrid.

Hamilton, L.C. (2009): Statistics with Stata, 8ª Ed., Brooks/Cole, Cengage Learning, Boston.

Kohler, U. y Kreuter, F (2009): Data Analysis Using Stata, 2ª Ed., STATA Press, Texas.

Mortensen, D.T. y C.A. Pissarides (1994): “Job Creation and Job Destruction”, Review of Economic

Studies, 61 (3), págs. 397‐415.

Pindyck R. y Rubinfeld D. (1998): Econometrics Models and Economic Forecast, 4ª Ed., McGraw Hill, New York.

Pissarides, C.A. (2000): Equilibrium Unemployment Theory, 2ª Ed., MIT Press, , Cambridge.

Romero, D. y Usabiaga, C. (2009): "Presente y futuro del mercado de trabajo español", Colección Mediterráneo Económico, 16, págs. 1-24.

Bibliografía electrónica: http://www.expansion.com/economia/2015/12/31/56851782e2704e7d338b458d.html http://www.ine.es/prensa/epa_tabla.htm https://www.linkedin.com/groups/4328541

GLOSARIO

CNAE-93. Clasificación Nacional de Actividades Económicas 1993. Rev.1

CNO-11. Clasificación Nacional de Ocupaciones 2011.

INE. Instituto Nacional de Estadística.

MCVL. Muestra Continua de Vidas Laborales (MCVL).

EPA. Encuesta de Población Activa.

OIT. Organización Internacional del Trabajo.

SPEE. Sistema Público de Empleo Estatal.

ECFT. Encuesta Comunitaria de Fuerza de Trabajo.

EUROSTAT. Oficina Estadística de la Unión Europea.

ANEXOS

Agrupación de titulaciones llevada a cabo con los datos de Linkedin:

12 Clusters de

titulaciones41 grupos de titulaciones 80 Titulaciones. Datos de Linkedin.

Bellas Artes Bellas Artes Licenciado en Bellas Artes

Derecho Derecho Licenciado en Derecho

Humanidades Filología Licenciado en Filología Hispánica

Humanidades Filología Licenciado en Filología Inglesa

Humanidades Filología Licenciado en Traducción e Interpretación

Humanidades Filosofía Licenciado en Filosofía

Humanidades Historia Licenciado en Historia

Ingeniero Superior Ingeniero Geólogo Ingeniero Geólogo

Ingeniero Superior Ingeniero Industrial Graduado o Graduada en Ingeniería de Tecnologías Industriales

Ingeniero Superior Ingeniero Industrial Graduado o Graduada en Ingeniería de Tecnologías Industriales por la Universidad de Sevilla

Ingeniero Superior Ingeniero Industrial Ingeniero Industrial

Ingeniero Superior Ingeniero Industrial Programa de Doctorado en Ingeniería Eléctrica, Electrónica y Automática por la Universidad Carlos III de Madrid

Ingeniero Superior Ingeniero Químico Ingeniero Químico

Ingeniero Superior Ingeniero Técnico de Obras Públicas Ingeniero Técnico de Obras Públicas

Ingeniero Superior Ingeniero Técnico de Obras Públicas Ingeniero Técnico de Obras Públicas, Especialidad en Construcciones Civiles

Ingeniero Superior Ingeniero Técnico de Obras Públicas Ingeniero Técnico de Obras Públicas, Especialidad en Hidrología

Ingeniero Superior Ingeniero de Caminos, Canales y PuertosIngeniero de Caminos, Canales y Puertos

Ingeniero Superior Ingeniero de Materiales Ingeniero de Materiales

Ingeniero Superior Ingeniero de Minas Graduado o Graduada en Ingeniería de Recursos Energéticos y Mineros por la Universidad Politécnica de Catalunya

Ingeniero Superior Ingeniero de Minas Ingeniero de Minas

Ingeniero Superior Ingeniero de Organización Industrial Ingeniero de Organización Industrial

Ingeniero Superior Ingeniero de Telecomunicación Graduado o Graduada en Ingeniería de las Tecnologías de Telecomunicación por la Universidad de Sevilla

Ingeniero Superior Ingeniero de Telecomunicación Ingeniero de Telecomunicación

Ingeniero Superior Ingeniero en Informática Ingeniero en Informática

Ingeniero Superior Química Licenciado en Química

Ingeniero Técnico Ingeniero Agrónomo Ingeniero Agrónomo

Ingeniero Técnico Ingeniero Técnico Aeronáutico Ingeniero Técnico Aeronáutico

Ingeniero Técnico Ingeniero Técnico Agrícola Ingeniero Técnico Agrícola, Especialidad en Explotaciones Agropecuarias

Ingeniero Técnico Ingeniero Técnico Agrícola Ingeniero Técnico Agrícola, Especialidad en Industrias Agrarias y Alimentarias

Ingeniero Técnico Ingeniero Técnico Agrícola Ingeniero Técnico Agrícola, Especialidad en Mecanización y Construcciones Rurales

Ingeniero Técnico Ingeniero Técnico Agrícola Ingeniero Técnico Forestal

Ingeniero Técnico Ingeniero Técnico Industrial Ingeniero Técnico Industrial

Ingeniero Técnico Ingeniero Técnico Industrial Ingeniero Técnico Industrial, Especialidad en Electricidad

Ingeniero Técnico Ingeniero Técnico Industrial Ingeniero Técnico Industrial, Especialidad en Electrónica Industrial

Ingeniero Técnico Ingeniero Técnico Industrial Ingeniero Técnico Industrial, Especialidad en Mecánica

Ingeniero Técnico Ingeniero Técnico Industrial Ingeniero Técnico de Telecomunicación, Especialidad en Sistemas Electrónicos

Ingeniero Técnico Ingeniero Técnico de Minas Ingeniero Técnico de Minas, Especialidad en Instalaciones Electromecánicas Mineras

Ingeniero Técnico Ingeniero Técnico en Diseño Industrial Ingeniero Técnico en Diseño Industrial

Ingeniero Técnico Ingeniero Técnico en Informática Ingeniero Técnico en Informática de Gestión

Ingeniero Técnico Ingeniero Técnico en Informática Ingeniero Técnico en Informática de Sistemas

12 Clusters de

titulaciones41 grupos de titulaciones 80 Titulaciones. Datos de Linkedin.

Ingeniero Aeronáutico Ingeniero Aeronáutico Ingeniero Aeronáutico

Magisterio Magisterio Graduado o Graduada en Educación Primaria por la Universidad de Sevilla

Magisterio Magisterio Graduado o Graduada en Magisterio de Educación Primaria por la Universidad de Alcalá

Magisterio Magisterio Licenciado en Pedagogía

MagisterioMagisterio

Máster Universitario en Formación del Profesorado de Educación Secundaria Obligatoria y Bachillerato, Formación

Profesional y Enseñanza de Idiomas por la Universidad Internacional de La Rioja

MagisterioMagisterio

Máster Universitario en Formación del Profesorado de Educación Secundaria Obligatoria, Bachillerato, Formación

Profesional y Enseñanza de Idiomas por la Universidad Loyola Andalucía

Periodismo Periodismo Graduado o Graduada en Periodismo por la Universidad Europea de Madrid

Periodismo Periodismo Licenciado en Comunicación Audiovisual

Periodismo Periodismo Licenciado en Periodismo

Arquitectura Arquitecto Arquitecto

Arquitectura Arquitecto Técnico Arquitecto Técnico

Arquitectura Arquitecto Técnico Graduado o Graduada en Edificación por la Universidad Politécnica de Madrid

Arquitectura Arquitecto Técnico Graduado o Graduada en Ingeniería de Edificación

Arquitectura Arquitecto Técnico Graduado o Graduada en Ingeniería de Edificación por la Universidad Europea de Madrid

Ciencias Biotecnología Licenciado en Biotecnología

Ciencias Ciencias Ambientales Licenciado en Ciencias Ambientales

Ciencias Física Licenciado en Física

Ciencias Matemáticas Licenciado en Ciencias Matemáticas

Ciencias Matemáticas Licenciado en Matemáticas

Economía & Finanzas Administración Pública Diplomado en Gestión y Administración Pública

Economía & FinanzasAdministración Pública

Graduado o Graduada en Ciencias Jurídicas de las Administraciones Públicas por la Universidad Nacional de Educación a

Distancia

Economía & Finanzas Diplomado en Ciencias Empresariales Diplomado en Ciencias Empresariales

Economía & Finanzas Economía Graduado o Graduada en Economía por la Universidad Europea de Madrid

Economía & Finanzas Economía Licenciado en Economía

Economía & Finanzas Economía Máster Universitario en Economía / Master in Economics por la Universidad Carlos III de Madrid

Economía & Finanzas LADE Doctor en Programa Oficial de Posgrado en marketing

Economía & Finanzas LADE Graduado o Graduada en Finanzas y Contabilidad

Economía & Finanzas LADE Licenciado en Administración y Dirección de Empresas

Economía & Finanzas LADE Licenciado en Investigación y Técnicas de Mercado

Economía & FinanzasLADE

Máster Universitario en Administración y Dirección de Empresas por la Universidad Carlos III de Madrid y Escuela

Europea de Administración de Empresas ESCP-Europe (Francia)

Economía & Finanzas Psicología Licenciado en Psicología

Economía & Finanzas Publicidad Graduado o Graduada en Publicidad y Relaciones Públicas

Economía & Finanzas Publicidad Licenciado en Publicidad y Relaciones Públicas

Economía & Finanzas Relaciones Laborales Diplomado en Relaciones Laborales

Economía & Finanzas Relaciones Laborales Graduado o Graduada en Ciencias del Trabajo y Recursos Humanos

Economía & Finanzas Relaciones Laborales Graduado o Graduada en Relaciones Laborales y Recursos Humanos por la Universidad Pablo de Olavide

Economía & Finanzas Relaciones Laborales Licenciado en Ciencias del Trabajo

Sector Salud Enfermería Diplomado en Enfermería

Sector Salud Enfermería Graduado o Graduada en Enfermería por la Universidad de Sevilla

Sector Salud Medicina Licenciado en Medicina

Agrupación de empresas llevada a cabo con los datos de Linkedin:

10 Clusters de empresas 100 grupos de empresas

Agricultura, ganadería y caza

Selvicultura y explotación forestal

Industria química

HEINEKEN

PERSAN S.A.

Repsol

Construcción

Constructora

Dragados

FERROVIAL

Transporte aéreo y espacial

Aernnova Aerospace

AERTEC

Airbus

Alestis Aerospace

FADA-CATEC

Fokker Services B.V.

Spanish Air Force

Abengoa

Accenture

ATEXIS Spain

Consultoria

Estudio Arquitectura

EVERIS

INERCO

Ingeniería

RDT Ingenieros

Segula Technologies

TECIMAN INTERNACIONAL

TRAGSA

Agricultura y Ganadería

Sector Químico

Construcción

Sector Aeronáutico

Consultoría

Investigación y desarrollo

Educación

Academias

Instituto Andaluz de Tecnología

Universidad

Extracción y aglomeración de antracita, hulla, lignito y turba

Extracción de crudos de petróleo y gas natural. prospección

Industria de productos alimenticios y bebidas

Fabricación de textiles y productos textiles

Industria de la madera y del corcho, excepto muebles, cestería y espartería

Coquerías, refino de petróleo y tratamiento de combustibles nucleares

Fabricación de productos de caucho y materias plásticas

Fabricación de otros productos de minerales no metálicos

Metalurgia

Fabricación de productos metálicos

Industria de la construcción de maquinaria y equipo mecánico

Fabricación de máquinas de oficina y equipos informáticos

Fabricación de maquinaria y material eléctrico

Fabricación de material electrónico.

Fabricación de equipo e instrumentos medico-quirúrgicos

Fabricación de vehículos de motor, remolques y semirremolques

Fabricación de otro material de transporte

Fabricación de muebles. Otras industrias manufactureras

Reciclaje

Producción y distribución de energía eléctrica, gas, vapor y agua caliente

Carbures

Consejo Regulador

ELECNOR

Emasesa

Endesa

RENAULT

Administración pública, defensa y seguridad social obligatoria

Ayuntamiento

Industria

Servicios Públicos

I+D+i y Educación

Venta, mantenimiento y reparación de vehículos de motor

Comercio al por mayor e intermediarios del comercio

Comercio al por menor, excepto el comercio de vehículos de motor

Transporte terrestre y Transporte por tuberías

Actividades anexas a los transportes. Actividades de agencias de viaje

Intermediación financiera, excepto seguros y planes de pensiones

Seguros y planes de pensiones, excepto seguridad social obligatoria

Actividades auxiliares a la intermediación financiera

Alquiler de maquinaria y equipo sin operario

Otras actividades empresariales

Actividades sanitarias y veterinarias, servicios sociales

Actividades de saneamiento público

Actividades asociativas

Actividades recreativas, culturales y deportivas

Actividades diversas de servicios personales

Hogares que emplean personal doméstico

Autónomo

Entidades Bancarias

Club de deporte

Colegio

Decathlon

El Corte Inglés

Freelance

Fundación

Iturri

Salvesen Logistica

Correos y telecomunicaciones

Actividades informáticas

Ericsson

Servicios Privados

proyecto fin de carrera ingeniería...

Documents

facultad de ingenierÍa escuela profesional ingenierÍa...

malla ingenierÍa civil de minas - facultad de ingeniería

integrated research, education and extension projects...

malla ingenierÍa civil - facultad de ingeniería - udec

03627 fm ptg01 hr i-xiv.indd viii 28/08/13 12:29 am ·...

acompañamiento académico ingeniería · pdf filetres...

proyecto fin de carrera ingeniería...

proyecto fin de carrera ingeniería...

fundamentos de ingeniería eléctrica, ingeniería...

proyecto fin de carrera ingeniería...

facultad de ingenierÍa escuela de ingenierÍa de

universidad nacional de ingenierÍa ingenierÍa civil

universidad nacional de ingeniería facultad de ingeniería...

malla ingenierÍa civil biomÉdica - facultad de ingeniería

facultad de ingenierÍa ingenierÍa civil industrial mejora

facultad de ingenierÍa ingenierÍa civil industrial ·...

universidad nacional de ingenierÍa - · pdf fileingeniería...

60362 ap pr-204 cl2 ppm - amazon web services€¦ · rev.:...

facultad de ingenierÍa carrera de ingenierÍa civil obras...

facultad de ingeniería – escuela de ingeniería civil