inteligencia de datos y big data - acaingpba.org.ar de datos y big data.pdf · inteligencia de...
TRANSCRIPT
Inteligencia de Datos y
Big Data
Disertantes: Dra. Laura Lanzarini – Dr. Waldo Hasperué
Agenda
1. Aspectos generales
2. Inteligencia de Datos en la industria.
3. Aplicaciones desarrolladas
4. Formación de RRHH
5. Conclusiones
Los avances tecnológicos hacen que las
capacidades para generar y almacenar
datos se incrementen día a día.
Inteligencia de Datos
La inteligencia de Datos engloba herramientas y
actividades analíticas capaces de mejorar la comprensión
de los datos extrayendo su valor y significado para
promover una mejor toma de decisiones.
Fuentes de Datos
Empresas que analizan imágenes
Pinterest incorporó VisualGraph
Empresa Vicarious : Inversores Mark Zuckerberg (Facebook), Elon Musk (cofundador de PayPal) buscan determinar las “relaciones de causa y efecto”.
2.300 millones de usuarios activos en Facebook generando muchos datos.
(Fuente: Data Never Sleeps 2019)
Detector de personas Detector de bolsos Detector de faldas
https://techcrunch.com
Seguimiento de sus redes sociales para saber
quién está consumiendo sus bebidas
dónde están sus clientes
qué situaciones los incitan a hablar sobre su marca
Identifica sus productos en fotografías y determina cuando enviar publicidad
Ahora buscan usar bots para generar anuncios
www.adweek.com
El 90% de todos los datos fueron creados en los últimos dos años (Fuente: IBM 2017)
Monetización de los datos. Usando Big Data, Netflix ahorra mil millones de dólares al
año en la retención de clientes.
Desde 2012, el BD ha creado 8 millones de puestos de trabajo sólo en los EE.UU. y 6
millones más en todo el mundo.
Forbes - Shutterstock
Big Data – Las 5 Vs
VelocidadProcesamientoBatch / Streaming
ValorValor agregado
Información útilConocimiento
VeracidadAutenticidadOrigen, reputaciónDisponibilidad
VariedadEstructurado (BBDD relac.)No Estructurado (ej: Imágenes, logs, audios)Semi-estructurados (ej: HTML, XML)
VolumenTerabytes / PetabytesExabytes / Zettabytes
Ej: Twitter 12TB x día
(500 mil tweets x min)
Extracción de conocimiento
Fayyad (1996)
Extracción de conocimiento
Generalmente registrado en forma previa al proceso de KDD.
Almacena información histórica
No necesariamente centralizada
Fayyad (1996)
Extracción de conocimiento
Elegidos en base al problema
Medidas subjetivas y objetivas
Fayyad (1996)
Extracción de conocimiento
Uniformar la notación.
Datos faltantes
Fuera de los rangos esperados (outliers)
Fayyad (1996)
Extracción de conocimiento
Fayyad (1996)
Extracción de conocimiento
Inteligencia de negocios
Operaciones de negocios
Inteligencia de Datos en la industria
Obtención de Datos en una planta
PapelErrores de registro
Errores de procesamiento
Información descentralizada
Planillas de cálculoErrores de tipeoMenos errores de procesamientoInformación descentralizada
ERPErrores de tipeoSin errores de procesamientoInformación centralizada
IIoTSin errores en la carga de datosSin errores de procesamientoInformación centralizada
Captura en el centro de
producción.
Rápido procesamiento.
Información fiable y
objetiva para toda la
organización
Industrias que adoptaron IoT
Top 7 de las industrias que adoptaron IoT
Salud
Ciudades inteligentes
Transporte
FabricaciónEnergía
Cadena de
suministros
Agricultura
https://flespi.com
Siemens incorporó el análisis predictivo
Objetivo: optimizar el funcionamiento, comprender y
predecir los incidentes, sobre las turbinas industriales a gas.
5000 sensores por turbina
generando 1 dato/seg. (432
millones x dia)
Mantenimiento predictivo (Correlaciones entre datos recolectados,
datos operacionales y medidas manuales)
Big Data: proc.10 TB x seg (batch)
Alineación de datos temporales.
Uso de marcas temporales
www.decideo.com
Sector aeroespacial
Autos inteligentes
Sensor LIDAR con 32 o 64 pulsos de
láser para construir un modelo 3D del
entorno en un rango de 200 m.
Gemelos digitales
www.plm.automation.siemens.com
Tipos de gemelos
digitales
Producto
Producción
Rendimiento
Son una representación virtual de un producto o proceso físico.
Usados para simular, predecir y optimizar el producto y el sistema
de producción antes de invertir en prototipos y activos físicos.
APLICACIONES DESARROLLADAS
Asignación de móviles en emergencias
médicas
Buscar imágenes de la tesis de Javier López
OBJETIVOS
Ubicación de la prestación
Tiempo de llegada
Categoría de la prestación
Afinidad médico y móvil/prestación
Uso uniforme de recursos
Extracción de reglas de clasificación
Características
Obtiene reglas de clasificación del tipo IF-THEN sencillas, de baja cardinalidad, con una tasa de acierto aceptable.
Se lo midió sobre 12 BBDD de repositorio y 3 BBDD reales del
Sistema Financiero Ecuatoriano.
Diagnóstico de alteraciones del equilibrio
Funcionando en consultorio.
Realiza un prediagnóstico
en forma automática.
Registro de software
Reconocimiento de voz
Voces de 30 locutores durante 20 seg. para entrenar.
Cada segmento de audio se representa por una secuencia de coef. ceptrales
Se usaron intervalos de 20 ms con superposición de 10 ms.
La red usa un sistema de votación para responder.
Voz MFCC SOM
Base de Datosde Voz
CoeficientesCesptrales
SOM Dinámico
Modelo
Modelo de Decisión
Detección temprana de demencia
Luis Guerra et al.(2018). The Electroencephalogram as a Biomarker Based on Signal
Processing Using Nonlinear Techniques to Detect Dementia. In: Developments and
Advances in Defense and Security. MICRADS 2018. Smart Innovation, Systems and
Technologies, vol 94. Springer.
https://doi.org/10.1007/978-3-319-78605-6_11
Reconocimiento de gestos dinámicos
Reconocimiento de Lengua de Señas
Reconocimiento de Lengua de Señas
Reconocimiento de Lengua de Señas
Redes Neuronales Convolucionales
Sana: 0.1
Rota:1.0
Expresiones faciales en pacientes con Alzheimer
Castillo-Salazar D. et al. (2020) Detection and Classification of Facial Features Through
the Use of Convolutional Neural Networks (CNN) in Alzheimer Patients. In: Human
Systems Engineering and Design II. IHSED 2019. Advances in Intelligent Systems and Computing, vol 1026. Springer.
https://doi.org/10.1007/978-3-030-27928-8_94
Formación de RRHH
Científico de Datos (Data Scientist)
Diagrama de Venn del “Científico de datos”
(Fuente: Drew Conway)
En 2012, el artículo de Harvard
Business Review citó al Data
Scientist como el "trabajo más
sexy del siglo XXI"
Formación de RRHH
POSGRADO
Maestría y Especialización en Inteligencia de Datos orientada a Big Data.
Cuerpo Académico: 13 doctores, 4 magisters y 2 especialistas.
Cursos de posgrado válidos para el Doctorado en Ciencias Informáticas.
GRADO
Cursos de grado – Optativas de las carreras Ingeniería en Computación,
Lic. en Informática y Lic. en Sistemas.
TESIS FINALIZADAS (2012-2020)
9 tesis de Doctorado
1 tesis de Magister
4 tesis de Especialista
15 tesinas de grado
BECARIOS Y TESISTAS
1 becario posdoctoral UNLP
2 becarios doctorales UNLP
1 becario EVC - CIN
1 becario - Fac.Informática
Tesistas de postgrado externos
Conclusiones
La Inteligencia de Datos como herramienta para
obtener conocimiento a partir de los datos se ha
consolidado.
La estadística y la matemática son factores centrales
para trabajar en estos temas.
Los datos deben ser utilizados no sólo para explicar la
realidad sino para anticipar situaciones o
comportamientos.
Contactos
Laura Lanzarini
Waldo Hasperué
¿Preguntas?