Szkolenie: Tworzenie platform Big Data z wykorzystaniem technologii z rodziny Apache

Tytuł:	Tworzenie platform Big Data z wykorzystaniem technologii z rodziny Apache
Kod:	BigDataML-Apache
Kategoria:	BigData, streaming i Machine Learning
Forma:	50% wykłady 50% ćwiczenia
Czas trwania:	3 dni

Odbiorcy:	analitycy, architekci, developerzy
Zapisy:	Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka:	W siedzibie klienta lub w innym dowolnym miejscu.

Celem szkolenia jest zdobycie praktycznej wiedzy w rozwiązaniach Big Data.

Nauczymy się wykorzystywać popularne technologie Big Data (Apache Spark, Apache Kafka, Apache Airflow oraz Apache Druid ). Dowiemy się jak zbudować złożone systemy Big Data od zera. Warsztaty praktyczne stanowią główny punkt szkolenia

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

Przegląd rozwiązań Big Data z rodziny Apache oraz wprowadzenia do przetwarzania danych
1. Przegląd rozwiązań Big Data z rodziny Apache
2. Scala for Big Data
  1. Case Class, Traits
  2. Tuples
  3. Lazy evaluation
  4. Interpolacja ciągów
  5. Pattern matching
  6. Companion object
  7. Kolekcje i przekształcenia
  8. For comprehension, mapowania
  9. Try / Either/ Option
  10. Implicits
3. Apache Spark - wprowadzenia
  1. RDD, DataFrame, Dataset
  2. Lazy evaluation
  3. Transformacje i akcje
  4. Spark vs Hadoop
  5. DataFrame vs Dataset API
Przetwarzanie danych z wykorzystaniem Apache Spark oraz nowoczesna hurtownia danych - Apache Druid
1. Warsztaty: Spark - jak wzbogacić swoje dane?
2. Apache Spark - architektura i optymalizacje
  1. Architektura (driver, worker, executor...)
  2. Optymalizacja jobów i parametrów
  3. Deployment
  4. Shuffling
  5. Typowe błędy - key-skew,serializacja, OOM
  6. Broadcast, repartition, caching, execution plans, optymalizacja
  7. Spark internals - joins, group by
3. Apache Druid
  1. Architektura
  2. Struktury danych
  3. Zarządzanie komponentami
  4. Druid i platformy Big Data oparte na Apache Hadoop
  5. Przetwarzanie real-time i batch
Streaming i orkiestracja
1. Apache Kafka
  1. Wzorzec Pub/Sub. Różnica pomiędzy modelami push oraz pull
  2. Architektura
  3. Topicki
  4. Producent i konsument Kafkowy
  5. Analiza skalowalności systemu opartego o Apache Kafka
  6. Grupy konsumenckie
  7. Replikacja i retencja
  8. Zookeeper
2. Apache Airflow
  1. Automatyzacja przetwarzania
  2. Tworzenie data pipeline - Definiowanie Acyklicznych Grafów Skierowanych Przetwarzania (DAG)
  3. Architektura

Pobierz program w formacie PDF

Tworzenie platform Big Data z wykorzystaniem technologii z rodziny Apache

Program Szkolenia

Machine Learning for a rescue

Zamów szkolenie

Iwona Sobótka