Tworzenie platform Big Data z wykorzystaniem technologii z rodziny Apache

Tytuł: Tworzenie platform Big Data z wykorzystaniem technologii z rodziny Apache
Kod: BigDataML-Apache
Kategoria: BigData, streaming, Machine Learning i AI
Forma: 50% wykłady 50% ćwiczenia
Czas trwania: 3 dni
Odbiorcy: analitycy, developerzy, architekci
Zapisy: Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka: W siedzibie klienta lub w innym dowolnym miejscu.

Celem szkolenia jest zdobycie praktycznej wiedzy w rozwiązaniach Big Data.

Nauczymy się wykorzystywać popularne technologie Big Data (Apache Spark, Apache Kafka, Apache Airflow oraz Apache Druid ). Dowiemy się jak zbudować złożone systemy Big Data od zera. Warsztaty praktyczne stanowią główny punkt szkolenia

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

  1. Przegląd rozwiązań Big Data z rodziny Apache oraz wprowadzenia do przetwarzania danych
    1. Przegląd rozwiązań Big Data z rodziny Apache
    2. Scala for Big Data
      1. Case Class, Traits
      2. Tuples
      3. Lazy evaluation
      4. Interpolacja ciągów
      5. Pattern matching
      6. Companion object
      7. Kolekcje i przekształcenia
      8. For comprehension, mapowania
      9. Try / Either/ Option
      10. Implicits
    3. Apache Spark - wprowadzenia
      1. RDD, DataFrame, Dataset
      2. Lazy evaluation
      3. Transformacje i akcje
      4. Spark vs Hadoop
      5. DataFrame vs Dataset API
  2. Przetwarzanie danych z wykorzystaniem Apache Spark oraz nowoczesna hurtownia danych - Apache Druid
    1. Warsztaty: Spark - jak wzbogacić swoje dane?
    2. Apache Spark - architektura i optymalizacje
      1. Architektura (driver, worker, executor...)
      2. Optymalizacja jobów i parametrów
      3. Deployment
      4. Shuffling
      5. Typowe błędy - key-skew,serializacja, OOM
      6. Broadcast, repartition, caching, execution plans, optymalizacja
      7. Spark internals - joins, group by
    3. Apache Druid
      1. Architektura
      2. Struktury danych
      3. Zarządzanie komponentami
      4. Druid i platformy Big Data oparte na Apache Hadoop
      5. Przetwarzanie real-time i batch
  3. Streaming i orkiestracja
    1. Apache Kafka
      1. Wzorzec Pub/Sub. Różnica pomiędzy modelami push oraz pull
      2. Architektura
      3. Topicki
      4. Producent i konsument Kafkowy
      5. Analiza skalowalności systemu opartego o Apache Kafka
      6. Grupy konsumenckie
      7. Replikacja i retencja
      8. Zookeeper
    2. Apache Airflow
      1. Automatyzacja przetwarzania
      2. Tworzenie data pipeline - Definiowanie Acyklicznych Grafów Skierowanych Przetwarzania (DAG)
      3. Architektura


Pobierz program w formacie PDF

Trenerzy

Poznaj ekspertów, którzy mogą poprowadzić Twoje szkolenie.

Materiały związane ze szkoleniem

Idea renesansowej pracowni - Bottegi zakłada nieustanną pracę jej członków i dzielenie się jej wynikami.

Zamów szkolenie

Imię i nazwisko:
Firma:
E-mail:
Nr tel:
Temat:
Wiadomość:

Jeżeli preferujesz osobisty kontakt to zawsze możesz zadzwonić.

Iwona Sobótka

Koordynatorka szkoleń


Twoje dane osobowe przetwarzamy, aby udzielić odpowiedzi na Twoje pytanie. Administratorem Twoich danych osobowych jest Bottega It Minds Sławomir Sobótka. Przysługuje Ci prawo wniesienia sprzeciwu wobec przetwarzania, prawo dostępu do danych, prawo żądania ich sprostowania, usunięcia lub ograniczenia ich przetwarzania. Szczegółowe informacje dotyczące przetwarzania Twoich danych osobowych znajdują się TUTAJ.