Learning Spark: Análisis de Big Data ultrarrápido

Los datos en todos los dominios se están haciendo más grandes. ¿Cómo puedes trabajar con él de manera eficiente? Recientemente actualizado para Spark 1.3, este libro presenta Apache Spark, el sistema informático de clúster de código abierto que hace que el análisis de datos sea rápido de escribir y rápido de ejecutar. Con Spark, puede abordar grandes conjuntos de datos rápidamente a través de API simples en Python, Java y Scala. Esta edición incluye nueva información sobre Spark SQL, Spark Streaming, configuración y coordenadas Maven.

Escrito por los desarrolladores de Spark, este libro tendrá científicos e ingenieros de datos en funcionamiento en muy poco tiempo. Aprenderá a expresar trabajos paralelos con solo unas pocas líneas de código y cubrirá aplicaciones desde simples trabajos por lotes hasta el procesamiento continuo y el aprendizaje automático.

Sumérjase rápidamente en las capacidades de Spark, como los conjuntos de datos distribuidos, el almacenamiento en caché en memoria y el shell interactivo
Aproveche las potentes bibliotecas integradas de Spark, que incluyen Spark SQL, Spark Streaming y MLlib
Use un paradigma de programación en lugar de mezclar y combinar herramientas como Hive, Hadoop, Mahout y Storm
Aprenda a implementar aplicaciones interactivas, por lotes y de transmisión
Conéctese a fuentes de datos, incluidos HDFS, Hive, JSON y S3
Domine temas avanzados como particionamiento de datos y variables compartidas

Teckilla

Learning Spark: Análisis de Big Data ultrarrápido

Leave a Reply Cancel reply

Related posts:

Leave a Reply Cancel reply