Apache Spark Grundlagen

Apache Spark ist ein Framework zur verteilten Verarbeitung großer Datenmengen. In diesem Seminar lernen Sie die Funktionsweise sowie die zugrundeliegenden Konzepte von Spark kennen und bekommen einen Überblick über die wichtigsten Spark-Komponenten und die Architektur einer Spark-Applikation. In praktischen Übungen wenden Sie das Erlernte an und schreiben Ihre ersten eigenen Spark-Jobs in Python. Unter anderem verwenden Sie dabei Spark Core (das grundlegende Framework für die parallele Verarbeitung in Spark) und analysieren Daten mit Spark SQL. Weiterhin lernen Sie die wichtigsten Konfigurationen für die Ausführung von Spark Jobs auf einem lokalen System oder in einem Hadoop / YARN Cluster kennen. Des Weiteren erhalten Sie eine kurze Einführung in die Bibliotheken für Streaming (Spark Streaming), Machine Learning (MLlib) und Graph-Verarbeitung (GraphX).

Zielgruppe:

Anwendungsentwickler, Data Engineers, Data Scientists, Systemintegratoren, IT-Architekten, IT-Consultants

Voraussetzung:

Teilnahme an den Seminaren "Python Programmierung" (P-PYTH-01) und "Hadoop Grundlagen" (HADOOP-01) oder gleichwertige Kenntnisse

Ziele/Nutzen des Seminars:

Sie kennen Apache Spark und die zugehörigen Komponenten.
Sie haben in Übungen erste Erfahrungen im Umgang mit der Spark-Programmierung in Python gemacht.
Sie kennen den Aufbau einer Spark-Applikation und die wichtigsten Konfigurationsparameter.
Sie sind in der Lage, Ihre ersten Spark-Lösungen zu entwickeln.