Educación gratuita en línea de IBM

Aprendizaje automático escalable en Big Data con Apache Spark

Descripción

Este curso lo capacitará con las habilidades para escalar las tareas de ciencia de datos y aprendizaje automático (ML) en conjuntos de Big Data utilizando Apache Spark. La mayoría del trabajo de aprendizaje automático en el mundo real implica conjuntos de datos muy grandes que van más allá de las limitaciones de CPU, memoria y almacenamiento de una sola computadora.

Apache Spark es un marco de código abierto que aprovecha la computación en clúster y el almacenamiento distribuido para procesar conjuntos de datos extremadamente grandes de una manera eficiente y rentable. Por lo tanto, un conocimiento aplicado de trabajar con Apache Spark es un gran activo y diferenciador potencial para un ingeniero de Machine Learning.

Después de completar este curso, podrás:
- Obtenga una comprensión práctica de Apache Spark y aplíquela para resolver problemas de aprendizaje automático que involucran tanto datos pequeños como grandes.
- comprender cómo se escribe el código paralelo, capaz de ejecutarse en miles de CPU.
- hacer uso de clústeres de cómputo a gran escala para aplicar algoritmos de aprendizaje automático en petabytes de datos utilizando Apache SparkML Pipelines.
- eliminar los errores de falta de memoria generados por los marcos tradicionales de aprendizaje automático cuando los datos no caben en la memoria principal de una computadora
- pruebe miles de modelos de aprendizaje automático diferentes en paralelo para encontrar el que tenga el mejor rendimiento, una técnica utilizada por muchos Kagglers exitosos
- (Opcional) ejecute sentencias SQL en conjuntos de datos muy grandes utilizando Apache SparkSQL y la API Apache Spark DataFrame.

Inscríbase ahora para aprender las técnicas de aprendizaje automático para trabajar con Big Data que han sido aplicadas con éxito por compañías como Alibaba, Apple, Amazon, Baidu, eBay, IBM, NASA, Samsung, SAP, TripAdvisor, Yahoo !, Zalando y muchas otras.

NOTA: Practicará ejecutando tareas de aprendizaje automático de forma práctica en un clúster Apache Spark proporcionado por IBM sin cargo durante el curso, que puede seguir utilizando después.

Requisitos previos:
- programación básica de Python
- aprendizaje automático básico (en este curso también se proporcionan videos de introducción opcionales)
- conocimientos básicos de SQL para contenido opcional

Se recomiendan los siguientes cursos antes de tomar esta clase (a menos que ya tenga las habilidades)
https://www.coursera.org/learn/python-for-applied-data-science or similar
https://www.coursera.org/learn/machine-learning-with-python or similar
https://www.coursera.org/learn/sql-data-science for optional lectures

Precio: ¡Inscríbase gratis!

Idioma: Inglés

Subtítulos: Inglés

Aprendizaje automático escalable en Big Data con Apache Spark - IBM