Fast Data Processing with Spark - PDF

Скачать полную версию книги "Fast Data Processing with Spark - PDF"

Fast Data Processing with Spark by Holden Karau

Spark - это фреймворк для написания быстрых распределенных программ. Spark решает те же задачи, что и Hadoop MapReduce, но с помощью быстрого подхода in-memory и чистого функционального API. Благодаря возможности интеграции с Hadoop и встроенным инструментам для интерактивного анализа запросов (Shark), крупномасштабной обработки и анализа графов (Bagel) и анализа в реальном времени (Spark Streaming), его можно использовать в интерактивном режиме для быстрой обработки и запроса больших массивов данных.


Книга "Быстрая обработка данных с помощью Spark" рассказывает о том, как писать распределенные программы в стиле map reduce с помощью Spark. Книга проведет вас через все шаги, необходимые для написания эффективных распределенных программ, от настройки кластера и интерактивного изучения API до развертывания вашего задания на кластере и его настройки для ваших целей.


В книге "Быстрая обработка данных с помощью Spark" рассматривается все: от настройки кластера Spark в различных ситуациях (автономный, EC2 и т.д.) до использования интерактивной оболочки для интерактивного написания распределенного кода. Далее мы переходим к рассмотрению того, как писать и развертывать распределенные задания на Java, Scala и Python.


Затем мы рассмотрим, как использовать интерактивную оболочку для быстрого создания прототипов распределенных программ и изучения Spark API. Мы также рассмотрим, как использовать Hive с Spark для использования SQL-подобного синтаксиса запросов в Shark, а также манипулирования устойчивыми распределенными наборами данных (RDD).


23
Просмотры
0
Лайкнули

Лицензии:

  • CC BY-NC-SA 3.0 PH
  • Ссылка автора не требуется

Поделиться в сетях

Информация о книге:

Комментарии (0) Добавить

Кликните на изображение чтобы обновить код, если он неразборчив
Комментариев пока нет. Ваш комментарий будет первым!