CEUPE

"Nuestra Maestría en Data Science es de referencia internacional, escogida por empresas Multinacionales y Gobiernos como la más completa en su categoría"

Temario Maestría en Data Science

Temario de la Maestría en Data Science

Herramientas analíticas y nociones de Big Data

FUNDAMENTOS BÁSICOS DE BIG DATA

  • ¿Qué es? Múltiples definiciones. Poner énfasis en que los mismos datos se convierten en big data en función de lo que se quiera hacer con ellos. Ejemplo: 100M registros, hacer una media = no big data, entrenar un modelo complejo = big data.
  • Principio de funcionamiento: MapReduce. Ejemplos clásicos para entender el concepto (contar palabras en un texto, etc.).
  • Framework Open Source para computación distribuida. Basado en el whitepaper de Google sobre MapReduce de 2004 y GFS (Google File System).
  • Concepto de Data Lake
  • Concepto ETL, ELT
  • La importancia del metadato y el data governance para la analítica.
  • Los Datalabs en un modelo de integración analítica con el Data Lake y el Gobierno del dato.

Infraestructura Big Data

INFRAESTRUCTURA BIG DATA

  • Hadoop: Almacenamiento y procesamiento distribuido
  • Herramientas de obtención de datos: Sqoop , Flume y Nifi.
  • Motores de consulta SQL:
    • Hive e impala:
      • Principio de funcionamiento.
      • Sintaxis y funciones propias de HiveQL e Impala.
  • Introducción y principio de funcionamiento.
  • Spark Core.
  • DataFrames & Spark SQL.
  • Configuración y ejecución
  • Buenas prácticas.
  • Interfaces:
    • Web (Hue,Oozie Ambari,Cloudera Manager).
  • Bases de datos NoSQL:
    • Hbase, Cassandra, MongoDB y Neo4J
  • Procesamiento de datos en Streaming: Kafka y Spark Streaming

Lenguajes de programación de un data science

LENGUAJES DE PROGRAMACIÓN DE UN DATA SCIENCE

  • Python: lenguaje vehicular del máster.
    • Principios, sintaxis y buenas prácticas. Casos típicos de utilización.
      • Declaración de variables.
      • Control de flujo (condicionales, bucles, etc.).
      • Input / Ouput (lectura y escritura de ficheros, salida por pantalla, etc.).
      • Orientación a objetos.
      • Distribución del código (módulos, paquetes y librerías).
    • Gestión de entornos: Anaconda, virtualenv.
    • Notebooks analíticos: Jupyter (Notebook, Lab). ¿Por qué utilizarlos? Casos típicos de uso.
    • Entornos de desarrollo: PyCharm, Spyder. ¿Qué ofrece un entorno de desarrollo frente a un editor de texto?
  • R: todavía es muy utilizado en estadística y por perfiles provenientes de ciencias puras, se darían algunas nociones del mismo.
    • Principios y sintaxis. Casos típicos de utilización.
    • IDE’s: RStudio.
  • Control de versiones con Git.
    • Fundamentos del control de versiones.
    • Conceptos básicos (branch, commit, pull, push, merge).
    • Metodologías de versionado: Gitflow.

Estudio y Modelado del Dato

ANÁLISIS INICIAL DEL DATO

  • Análisis exploratorio.
  • Localización de dato atípico y métodos de detección de outliers.
  • Realización de estadísticos descriptivos.
  • Evaluación de la calidad del dato.
  • Tipologías de datos: categóricos, numéricos, ordinales, temporales (fechas).

EL MODELO DE DATOS EN TRES CAPAS.

  • Capa raw.
  • Capa Master.
  • Capa de consumo.
  • Caso Práctico: Construir un modelo en tres capas a partir del análisis anterior.

EXPLOTACIÓN EFICIENTE DEL DATO MEDIANTE HERRAMIENTAS DE BI Y DATA DISCOVERY.

  • Cómo explotar un modelo de datos sin sobrecargar el sistema.
  • Herramientas de reporting. (Spotfire, PBI).

Diseño de un Modelo Escalable

PROTOTIPADO DE MODELOS

  • Preprocesamiento
  • Feature selection
  • Prototipado en local

ELECCIÓN DEL JUEGO DE ALGORITMOS ÓPTIMO

  • Aprendizaje supervisado:
    • Modelos lineales:
      • Regresión lineal.
      • Regresión logística.
      • Máquinas de Soporte Vectorial.
    • Modelos basados en árboles:
      • Árbol de decisión.
      • Random Forest.
      • Gradient Boosting.
    • Redes neuronales:
      • Principio de funcionamiento. Perceptrón.
      • Aprendizaje profundo. Se explicaría muy por encima.
    • Regresión vs. Clasificación.
  • Aprendizaje no supervisado:
    • Clusterización.
      • Jerárquica.
    • Detección de anomalías.
  • Técnicas de reducción de la dimensionalidad:
    • t-SNE.
  • Análisis de series temporales.
  • Entrenamiento:
    • Nociones básicas para entrenar un modelo correctamente:
      • División en conjunto de entrenamiento, validación y test. Concepto de Data Leakage.
      • Bias, Variance y Overfitting. Cómo detectarlos y prevenirlos. Curvas de entrenamiento.
      • Validación cruzada.
    • Optimización automática de hiperparámetros:
      • Grid Search.
      • Random Search.
      • Basados en gradiente.
    • Elección óptima del algoritmo:
      • Según la tipología de los datos.
      • Según el número de observaciones.

Según el objetivo del modelo.

Herramientas de un Data Science: Librerías

LIBRERÍAS PARA MACHINE LEARNING

  • scikit-learn: exclusiva para Python. Librería genérica de Machine Learning. Funcionamiento en local con opción a distribuir. Idónea para prototipado.
  • XGboost: tiene API en múltiples lenguajes. Modelo de boosting muy probado y ampliamente utilizado. Open Source desarrollado para competir en Kaggle.
  • LightGBM: tiene API en múltiples lenguajes. Modelo de boosting muy probado y ampliamente utilizado. Desarrollado por Microsoft, Open Source.
  • catboost: API en múltiples lenguajes. Modelo de boosting especializado en datos con variables categóricas. Desarrollada por Yandex.
  • Spark ML: API en múltiples lenguajes, distribuida de forma nativa con el motor de Spark.
  • TensorFlow: librería de referencia para el desarrollo de redes neuronales, tiene API en múltiples lenguajes aunque la de Python es la más ampliamente usada.
  • Keras: API de Python consistente en una capa de abstracción para el manejo de las librerías de TensorFlow, CNTK y Theano a la hora de realizar modelos de redes neuronales
  • fbprophet:es una librería en Python y R que implementa un procedimiento para pronosticar datos de series temporales basados ??en un modelo aditivo en el que las tendencias no lineales se ajustan a la estacionalidad anual, semanal y diaria, más los efectos festivos
  • H2O: framework para el aprendizaje automático desarrollado por H2O.ai en Java. Tiene API en múltiples lenguajes e introduce el concepto de AutoML para la generación automática de modelos.
  • Caret: exclusiva para R. Desarrollo de modelos de aprendizaje automático en general.

LIBRERÍAS PARA INTERACTUAR CON ENTORNOS BIG DATA

  • impyla: cliente python para implementaciones de HiveServer2 con motores de búsqueda distribuida como Impala o Hive.
  • Apache Arrow: API para múltiples lenguajes (C++, Python, Ruby…) para almacenamiento de datos representados de forma columnar. Permite intercambiar de forma nativa datos entre diferentes plataformas (Python, R, Hadoop, Spark, etc.).
  • HdfsCLI: API de WebHDFS para Python.
  • Ibis: toolbox para conectar Python con distintos componentes de Hadoop como HDFS.
  • PySpark: API de Python para manejo de Spark.

LIBRERÍAS PARA TRATAMIENTO DE DATOS EN MEMORIA Y CÁLCULO NUMÉRICO

  • NumPy: principal librería de álgebra lineal en Python.
  • pandas: principal herramienta para el tratamiento de datos tabulares en Python.
  • Dask: distribución de tareas analíticas en Python de forma nativa.
  • dplyr: exclusiva de R. Soporte a la manipulación de datos.
  • tidyR: exclusiva de R. Tratamiento de datos tabulares.

VISUALIZACIÓN

  • Matplotlib: principal librería de visualización en Python.
  • folium: librería para visualización geográfica en Python.
  • seaborn: librería a alto nivel de visualización estadística basada en Matplotlib.
  • Basadas en D3: Bokeh, Plotly. Visualización general. Gráficos interactivos usando Javascript.
  • Para Big Data (visualización de millones / billones de registros): datashader.

ORQUESTACIÓN

  • Oozie: orquestador incluido con las distribuciones de Hadoop. Basado en configuración mediante archivos .xml.
  • Airflow: herramienta de creación de data pipelines programada en Python muy flexible. Soporte para gran cantidad de tecnologías (Spark, Hive, HDFS, etc.). Definición mediante DAGs en archivos Python.
  • Luigi: Es una alternativa a Airflow. Herramienta de creación de pipelines en batch. Lo que busca al igual que el resto de herramientas de orquestación es automatizar de forma visual los distintos procesos que se realizan en el flujo del programa.
 

Acreditaciones y Reconocimientos Internacionales

SOLICITA MÁS INFORMACIÓN

Maestría Online en Data Science

    RECIBE EN TU EMAIL:

    El precio y facilidades de pago.
    Postulación a la BECA 65% dcto.
    Complementos: Curso de idiomas GRATIS (Sólo por pago único) + Networking Profesional.