Manipulación de datos a escala: sistemas y algoritmos

Descripción

El análisis de datos ha reemplazado la adquisición de datos como el cuello de botella para la toma de decisiones basada en evidencia; nos estamos ahogando en él. Extraer conocimiento de conjuntos de datos grandes, heterogéneos y ruidosos requiere no solo poderosos recursos informáticos, sino también abstracciones de programación para usarlos de manera efectiva. Las abstracciones que surgieron en la última década combinan ideas de bases de datos paralelas, sistemas distribuidos y lenguajes de programación para crear una nueva clase de plataformas de análisis de datos escalables que forman la base de la ciencia de datos a escalas realistas.

En este curso, aprenderá el panorama de los sistemas relevantes, los principios en los que se basan, sus compensaciones y cómo evaluar su utilidad en función de sus requisitos. Aprenderá cómo se derivaron los sistemas prácticos de la frontera de la investigación en ciencias de la computación y qué sistemas están llegando en el horizonte. Cloud computing, bases de datos SQL y NoSQL, MapReduce y el ecosistema que generó, Spark y sus contemporáneos, y los sistemas especializados para gráficos y matrices estarán cubiertos.

También aprenderá la historia y el contexto de la ciencia de datos, las habilidades, los desafíos y las metodologías que implica el término, y cómo estructurar un proyecto de ciencia de datos. Al final de este curso, podrá:

Metas de aprendizaje:
1. Describa patrones, desafíos y enfoques comunes asociados con proyectos de ciencia de datos y qué los hace diferentes de los proyectos en campos relacionados.
2. Identifique y use los modelos de programación asociados con la manipulación de datos escalables, incluidos álgebra relacional, reducción de mapas y otros modelos de flujo de datos.
3. Utilice tecnología de base de datos adaptada para análisis a gran escala, incluidos los conceptos que impulsan bases de datos paralelas, procesamiento de consultas paralelas y análisis en la base de datos.
4. Evalúe los almacenes de valor clave y los sistemas NoSQL, describa sus compensaciones con sistemas comparables, los detalles de ejemplos importantes en el espacio y las tendencias futuras.
5. "Piensa" en MapReduce para escribir efectivamente algoritmos para sistemas que incluyen Hadoop y Spark. Comprenderá sus limitaciones, detalles de diseño, su relación con las bases de datos y su ecosistema asociado de algoritmos, extensiones e idiomas.
escribir programas en Spark
6. Describa el panorama de los sistemas especializados de Big Data para gráficos, matrices y flujos.