machine learning y data science con scikit learn y pyspark

24
Machine learning y data science en python con scikit-learn y pyspark José Manuel Ortega

Upload: jose-manuel-ortega-candel

Post on 22-Jan-2018

1.095 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Machine learning y data science en python con scikit-learn y pysparkJosé Manuel Ortega

Machine learning y data science con scikit-learn y pysparkhttps://www.udemy.com/machine-learning-y-data-science-con-scikit-learn-y-pyspark

Aprende las principales técnicas de machine learning y ciencia de datos para aplicarlas en proyectos con python

Introducción a la ciencia de datos y machine learning

● Definición de ciencia de datos● Definición de machine learning● Introducción al aprendizaje automático● Tipos de aprendizaje automático● Aprendizaje supervisado vs no supervisado● Problema del sobreentrenamiento● Pasos para construir un modelo de machine learning

Librerías para tratamiento de datos con python

● Librerías de Python para machine learning:Numpy, SciPy, Pandas

● Instalación anaconda + jupyter notebook● Conjunto de datasets● Introducción a pandas● Librerías de visualización de datos con python● Ejemplos prácticos tratamiento de datos con pandas● Ejemplos prácticos visualización de datos● Otras librerías de machine learning con python

Scikit-learn como librería de machine learning

● Introducción a scikit-learn● Instalación y módulos● LinearRegression como algoritmo de regresión lineal● LogisticRegression como algoritmo de regresión logística● DecissionTreeClassifier y RandomForestClassifier como

algoritmos de árboles de decisión● SVM como algoritmo de máquinas de vectores de soporte

Scikit-learn como librería de machine learning● Implementación del algoritmo SVM en scikit-learn● KNeighborsClassifier como algoritmo de clasificación

supervisada vecinos más cercanos● Implementación de KNeighborsClassifier en scikit-learn● Clustering y aprendizaje no supervisado● K-means como algoritmo de clustering● Implementación de K-means en scikit-learn● Ejemplo con Iris / Titanic Dataset

Pyspark como librería de big data y data science

● Introducción a Apache Spark● Módulos de Apache Spark● Spark para Científicos de Datos● Instalación de Apache Spark● Instalar y ejecutar Pyspark con docker● Introducción a Pyspark● Consola interactiva en pyspark● SparkContext y esqueleto de una aplicación con pyspark

Pyspark como librería de big data y data science

● Datasets y RDD con pyspark● Crear un RDD en python con pyspark● Operaciones sobre un RDD● Transformaciones sobre un RDD● SparkSubmit para la ejecución de scripts python● Map-reduce con pyspark● Contador de palabras con pyspark● Palabras más frecuentes de un texto con pyspark● Lectura ficheros csv,json con pyspark

Pyspark como librería de big data y data science

● Trabajando con Spark SQL y dataframes● MLlib como módulo de machine learning con pyspark● Clustering con pyspark.Algoritmo Kmeans● Ejemplo clasificación Spam con mLlib

Sistemas de recomendación basados en contenido

● Definir sistema de recomendación● Tipos de sistemas de recomendación● Filtros basados en contenido (Content-Based Filtering)● Filtros colaborativos (Collaborative Filtering)