La Red Universitaria

Analizando Big Data con Microsoft R

Descripción

El lenguaje de programación de código abierto R ha sido durante mucho tiempo popular (particularmente en el mundo académico) para el procesamiento de datos y análisis estadístico. Entre las fortalezas de R se encuentran que es un lenguaje de programación sucinto y tiene un extenso repositorio de bibliotecas de terceros para realizar todo tipo de análisis. Juntas, estas dos características hacen posible que un científico de datos pase muy rápidamente de datos sin procesar a resúmenes, gráficos e incluso informes completos. Sin embargo, una deficiencia de R es que tradicionalmente usa mucha memoria, tanto porque necesita cargar una copia de los datos en su totalidad como un objeto data.frame, como porque procesar los datos a menudo implica hacer más copias (a veces denominado copiar al modificar). Esta es una de las razones por las que la industria ha recibido R con más desgana en comparación con el mundo académico. El componente principal de Microsoft R Server (MRS) es el paquete RevoScaleR, que es una biblioteca R que ofrece un conjunto de funcionalidades para procesar grandes conjuntos de datos sin tener que cargarlos todos a la vez en la memoria. RevoScaleR ofrece un amplio conjunto de algoritmos de aprendizaje automático y estadísticos distribuidos, que se van ampliando con el tiempo. Finalmente, RevoScaleR también ofrece un mecanismo mediante el cual podemos tomar código que desarrollamos en nuestra computadora portátil y desplegarlo en un servidor remoto como SQL Server o Spark (donde la infraestructura es muy diferente bajo el capó), con un mínimo esfuerzo. En este curso, le mostraremos cómo usar MRS para ejecutar un análisis en un conjunto de datos grande y le proporcionaremos algunos ejemplos de cómo implementarlo en un clúster Spark o una base de datos de SQL Server. Al finalizar, sabrá cómo usar R para problemas de big data. Dado que RevoScaleR es un paquete R, asumimos que los participantes del curso están familiarizados con R. Se requiere una sólida comprensión de las estructuras de datos R (vectores, matrices, listas, marcos de datos, entornos). También es útil estar familiarizado con paquetes de terceros, como dplyr. EdX ofrece asistencia financiera para los estudiantes que desean obtener certificados verificados pero que no pueden pagar la tarifa. Para solicitar asistencia financiera, inscríbase en el curso y luego siga este enlace para completar una solicitud de asistencia.

Precio: $ 99 - ¡GRATIS para auditar!

Analizando Big Data con Microsoft R a través de edX, una plataforma educativa fundada por Harvard y MIT.

Analizando Big Data con Microsoft R - Microsoft