Fundamentos de la ciencia de datos escalables

Descripción

Apache Spark es el estándar de facto para el procesamiento de datos a gran escala. Este es el primer curso de una serie de cursos hacia la Especialización avanzada en ciencia de datos de IBM. Creemos firmemente que es crucial para el éxito comenzar a aprender una plataforma de ciencia de datos escalable ya que las limitaciones de memoria y CPU son los factores más limitantes cuando se trata de construir modelos avanzados de aprendizaje automático.

En este curso te enseñamos los fundamentos de Apache Spark usando python y pyspark. Presentaremos Apache Spark en las primeras dos semanas y aprenderemos cómo aplicarlo para calcular tareas básicas de exploración y preprocesamiento de datos en las últimas dos semanas. A través de este ejercicio, también se le presentarán las medidas estadísticas más fundamentales y las tecnologías de visualización de datos.

Esto le brinda suficiente conocimiento para asumir el papel de ingeniero de datos en cualquier entorno moderno. Pero también le proporciona la base para avanzar en su carrera hacia la ciencia de datos.

Por favor, eche un vistazo al currículum de especialización completo:
https://www.coursera.org/specializations/advanced-data-science-ibm

Si elige tomar este curso y obtener el certificado del curso Coursera, también obtendrá una insignia digital de IBM. Para obtener más información sobre las insignias digitales de IBM, siga el enlace ibm.biz/badging.

Después de completar este curso, podrás:
• Describir cómo se utilizan las medidas estadísticas básicas para revelar patrones dentro de los datos.
• Reconocer características de datos, patrones, tendencias, desviaciones o inconsistencias y posibles valores atípicos.
• Identificar técnicas útiles para trabajar con grandes datos, como la reducción de dimensiones y los métodos de selección de características.
• Use herramientas avanzadas y bibliotecas de gráficos para:
o mejorar la eficiencia del análisis de big-data con particionamiento y análisis paralelo
o Visualice los datos en varios formatos 2D y 3D (diagrama de caja, diagrama de ejecución, diagrama de dispersión, diagrama de Pareto y escalamiento multidimensional)

Para completar con éxito el curso, se recomiendan los siguientes requisitos previos:
• Habilidades básicas de programación en python.
• Matemáticas básicas
• SQL básico (puede obtenerlo fácilmente desde https://www.coursera.org/learn/sql-data-science si es necesario)

Para completar este curso, se utilizarán las siguientes tecnologías:
(Estas tecnologías se introducen en el curso según sea necesario, por lo que no se requieren conocimientos previos).
• Portátiles Jupyter (traídos por IBM Watson Studio de forma gratuita)
• ApacheSpark (presentado por IBM Watson Studio de forma gratuita)
• Python

Este curso dura cuatro semanas, 4-6h por semana.