Spark und Hadoop für Python-Entwickler

Beschreibung

Erwerben Sie in diesem Training ein Grundverständnis über die Funktionsweise von Spark auf einem Hadoop-Cluster und nutzen Sie Python, um Datenmanagement, ETL und Machine Learning Anwendungen darauf auszuführen. Über Hadoop als Basissystem hinweg, lernen Sie sich in der Big-Data Systemlandschaft zurechzufinden und die einzelne Module, deren Einsatzszenarien und grundsätzlichen Funktionsweisen zu benennen. Lernen Sie die dabei Vorzüge von Spark-DataFrames kennen und manipulieren Sie diese mit den gewohnten Funktionen aus dem Pandas Paket oder mit SQL-Anweisungen. Innerhalb des Trainings werden Sie die Machine Learning Verfahren der nativen Spark Bibliothek MLlib ausführen und diese mit den DeepLearning Verfahren aus dem externen Bibliotheken ergänzen. Erfahren Sie außerdem, welche Datentypen und Datenbanksysteme Sie für die Anwendung von Spark benötigen und wie diese mit den Hadoop Systemkomponenten interagieren. Nach dem Kurs sind Sie in der Lage Pythonskripte zu erstellen, die auf einem Spark-Rechencluster ausführbar sind. Sie werden dabei ein tieferes Verständnis für die grundlegenden Funktionsweisen von Rechenclustern haben und können Ihre Skripte durch Spark und Hadoop Anweisungen konfigurieren.

Wer sollte teilnehmen?

Python Interessierte mit und ohne Programmiererfahrung, Data Scientists, Datenanalysten, Statistiker, Mathematiker, Researcher.

Lernziele

Einführung in die Grundfunktionsweisen von Spark und Hadoop
Einführung in das modulare Hadoop Ökosystem.
Anbindung und Interaktion von Python mit den Systemen.
Mashine Learning Anwendungen in Pyhon und Spark schreiben.

Inhalte

Einführung in Hadoop
- Aufbau & Funktionsweise, Cluster-Computing & Map-Reduce, Datenhaltung, YARN, HDFS, Hive, Konfiguration, Ökosystem, Interaktion mit Spark
Einführung in Spark
- Architektur, Konfiguration, Skript-Deployment & Job Execution, Web Frontend, Shell-Bedienung
Einführung in das Cluster-Computing
Resilient-Distributed-Datasets (RDD) – Cluster-Computing in Spark
Spark DataFrames und Datasets
Spark SQL – Verarbeiten strukturierter Daten in Spark
Spark NoSQL – Verarbeiten semistrukturierter Daten in Spark
Spark Streaming – Live-Datenstromverarbeitung
Spark – Python Integration
Datenmanagement und ETL mit Python
MLlib – Mashine Learning in Spark
- Übersicht über die Bibliothek, Anbindung an Python, Anwendung von Algorithmen

Shortfacts

Empfohlene Dauer: 1 Tag
2–10 Teilnehmer
Kurssprache: Deutsch oder Englisch
Preis: Der Tagessatz variiert zwischen Unternehmen und Forschhungseinrichtung. Nehmen Sie Kontakt auf!
Training am eigenen Laptop (Softwarevoraussetzungen und Installationsanleitung erhalten Sie im Vorfeld)

Inklusive

Teilnehmerzertifikat
Umfassende Schulungsunterlagen
Veranstaltungsevaluation + Report als PDF

Inhousetraining bei Data-Science-Architect

Prozess

Kontakt & Angebot

Abstimmung der Inhalte
Terminfindung
Angebotserstellung

Vor dem Training

Online Evaluation der Teilnehmererwartung
Ankündigung mit Kursbeschreibung, Softwarevoraussetzung, Installationsanleitung, Timetable & optionaler Möglichkeit zur Vorbereitung
Bereitstellung der Kursmaterialien

Während des Trainings

Pro Tag 8×45 Min. Lerneinheiten
30 Min. Open Space pro Tag im Anschluss an die Lerneinheiten
Verhältnis von Theorie, Praxis und Übungsphasen nach Absprache

Nach dem Training

Event Evaluation
PDF-Report mit Evaluations-Ergebnissen
Bereitstellung der im Training erstellten Materialien
Feedbackgespräch

Buchung

Der 3. Teilnehmer einer Anmeldung nimmt kostenfrei teil
Rechnungsstellung erfolgt nach der Veranstaltung

jetzt Inhouse-Training anfragen