Análisis de Big Data con Spark | La red universitaria

Descripción

En ciencia de datos, los datos se denominan "grandes" si no pueden caber en la memoria de una sola computadora portátil o estación de trabajo estándar. El análisis de grandes conjuntos de datos requiere el uso de un grupo de decenas, cientos o miles de computadoras. El uso efectivo de dichos clústeres requiere el uso de sistemas de archivos distribuidos, como el Sistema de archivos distribuido de Hadoop (HDFS) y los modelos computacionales correspondientes, como Hadoop, MapReduce y Spark. En este curso, parte del programa Data Science MicroMasters, aprenderá cuáles son los cuellos de botella en el cálculo paralelo masivo y cómo utilizar Spark para minimizar estos cuellos de botella. Aprenderá a realizar un aprendizaje automático supervisado y no supervisado en conjuntos de datos masivos mediante la biblioteca de aprendizaje automático (MLlib). En este curso, como en los demás de este programa MicroMasters, obtendrá experiencia práctica con PySpark en el entorno de los cuadernos de Jupyter.