Learning Spark: Análisis de Big Data ultrarrápido

Los datos en todos los dominios se están haciendo más grandes. ¿Cómo puedes trabajar con él de manera eficiente? Recientemente actualizado para Spark 1.3, este libro presenta Apache Spark, el sistema informático de clúster de código abierto que hace que el análisis de datos sea rápido de escribir y rápido de ejecutar. Con Spark, puede abordar grandes conjuntos de datos rápidamente a través de API simples en Python, Java y Scala. Esta edición incluye nueva información sobre Spark SQL, Spark Streaming, configuración y coordenadas Maven.

Escrito por los desarrolladores de Spark, este libro tendrá científicos e ingenieros de datos en funcionamiento en muy poco tiempo. Aprenderá a expresar trabajos paralelos con solo unas pocas líneas de código y cubrirá aplicaciones desde simples trabajos por lotes hasta el procesamiento continuo y el aprendizaje automático.

  • Sumérjase rápidamente en las capacidades de Spark, como los conjuntos de datos distribuidos, el almacenamiento en caché en memoria y el shell interactivo
  • Aproveche las potentes bibliotecas integradas de Spark, que incluyen Spark SQL, Spark Streaming y MLlib
  • Use un paradigma de programación en lugar de mezclar y combinar herramientas como Hive, Hadoop, Mahout y Storm
  • Aprenda a implementar aplicaciones interactivas, por lotes y de transmisión
    Conéctese a fuentes de datos, incluidos HDFS, Hive, JSON y S3
  • Domine temas avanzados como particionamiento de datos y variables compartidas

Leave a Reply

Your email address will not be published. Required fields are marked *