Apache Spark Grundlagen

Wir leben in einer Zeit, in der immer mehr Daten in immer kürzerer Zeit gespeichert und verarbeitet werden müssen. Klassische Frameworks und Algorithmen stoßen hier schnell an ihre Grenzen. Eine Lösung bietet Apache Spark - ein Framework zur verteilten Verarbeitung und Berechnung großer Datenmengen. In diesem Seminar bekommen Sie einen Überblick über die wichtigsten Spark-Komponenten und die Architektur einer Spark-Applikation. In praktischen Übungen wenden Sie das Erlernte an und schreiben Ihre ersten eigenen Spark-Jobs in Python. Unter anderem verwenden Sie dabei Spark Core - die Grundlage der parallelen Verarbeitung in Spark -, analysieren Daten mit Spark SQL und lernen die wichtigsten Konfigurationen, auch im Zusammenhang mit YARN, kennen. Des Weiteren erhalten Sie eine kurze Einführung in die Bibliotheken für Streaming (Spark Streaming), Machine Learning (MLlib) und Graph-Verarbeitung (GraphX).

Zielgruppe:

Anwendungsentwickler, Data Engineers, Data Scientists, Systemintegratoren, IT-Architekten, IT-Consultants

Voraussetzung:

Teilnahme am Seminar "Python Programmierung" (P-PYTH-01) oder gleichwertige Kenntnisse, Teilnahme am Seminar "Hadoop Grundlagen" (HADOOP-01) oder gleichwertige Kenntnisse

Ziele/Nutzen des Seminars:

  • Sie kennen Apache Spark und die zugehörigen Komponenten.
  • Sie haben in Übungen erste Erfahrungen im Umgang mit der Spark-Programmierung in Python gemacht.
  • Sie kennen den Aufbau einer Spark-Applikation und die wichtigsten Konfigurationsparameter.
  • Sie sind in der Lage, Ihre ersten Spark-Lösungen umzusetzen.

Inhalte:

  • Überblick über Spark
  • Spark Core
  • Spark-Architektur
  • Spark SQL
  • Spark Streaming, MLlib und GraphX

Termine:

Startdatum Enddatum Seminarort Preis * Teilnehmer Freie Plätze Buchung
21.09.2020 23.09.2020 Online 1.390,00 €
21.09.2020 23.09.2020 Wiesbaden 1.390,00 €
07.12.2020 09.12.2020 Online 1.390,00 €
07.12.2020 09.12.2020 Wiesbaden 1.390,00 €

* alle Preise zzgl. der gesetzlich gültigen Mehrwertsteuer