Computación distribuida con Spark SQL

Descripción

Este curso es para estudiantes con experiencia en SQL y ahora quieren dar el siguiente paso para familiarizarse con la informática distribuida utilizando Spark. Los estudiantes comprenderán cuándo usar Spark y cómo Spark como motor combina de manera única las tecnologías de datos e inteligencia artificial a escala. Los cuatro módulos se complementan y al final del curso el alumno comprenderá: arquitectura Spark, Spark DataFrame, optimización de datos de lectura / escritura y cómo construir un modelo de aprendizaje automático. El primer módulo presentará Spark, incluido cómo funciona Spark con la informática distribuida y qué son los marcos de datos de Spark. El módulo 2 cubre los conceptos centrales de Spark, como el almacenamiento frente a la informática, el almacenamiento en caché, las particiones y la interfaz de usuario de Spark. El tercer módulo analiza las tuberías de datos de ingeniería que cubren la conexión a bases de datos, esquemas y tipos, formatos de archivo y escritura de buenos datos. El módulo final analiza la aplicación de Spark con Machine Learning a través del caso de uso comercial, una breve introducción a lo que es el aprendizaje automático, la construcción y aplicación de modelos y una conclusión final del curso. Al comprender cuándo usar Spark, ya sea escalando horizontalmente cuando el modelo o los datos son demasiado grandes para procesar en una sola máquina, o teniendo la necesidad de acelerar simplemente para obtener resultados más rápidos, los estudiantes perfeccionarán sus habilidades de SQL y se convertirán en Datos más expertos Científico.