Szkolenie: Tworzenie platform Big Data z wykorzystaniem technologii z rodziny Apache

Tytuł:	Tworzenie platform Big Data z wykorzystaniem technologii z rodziny Apache
Kod:	BigDataML-Apache
Kategoria:	BigData, streaming i Machine Learning
Forma:	50% wykłady 50% ćwiczenia
Czas trwania:	3 dni

Odbiorcy:	analitycy, developerzy, architekci
Zapisy:	Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka:	W siedzibie klienta lub w innym dowolnym miejscu.

Celem szkolenia jest zdobycie praktycznej wiedzy w rozwiązaniach Big Data.

Nauczymy się wykorzystywać popularne technologie Big Data (Apache Spark, Apache Kafka, Apache Airflow oraz Apache Druid ). Dowiemy się jak zbudować złożone systemy Big Data od zera. Warsztaty praktyczne stanowią główny punkt szkolenia

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

Przegląd rozwiązań Big Data z rodziny Apache oraz wprowadzenia do przetwarzania danych
1. Przegląd rozwiązań Big Data z rodziny Apache
2. Scala for Big Data
  1. Case Class, Traits
  2. Tuples
  3. Lazy evaluation
  4. Interpolacja ciągów
  5. Pattern matching
  6. Companion object
  7. Kolekcje i przekształcenia
  8. For comprehension, mapowania
  9. Try / Either/ Option
  10. Implicits
3. Apache Spark - wprowadzenia
  1. RDD, DataFrame, Dataset
  2. Lazy evaluation
  3. Transformacje i akcje
  4. Spark vs Hadoop
  5. DataFrame vs Dataset API
Przetwarzanie danych z wykorzystaniem Apache Spark oraz nowoczesna hurtownia danych - Apache Druid
1. Warsztaty: Spark - jak wzbogacić swoje dane?
2. Apache Spark - architektura i optymalizacje
  1. Architektura (driver, worker, executor...)
  2. Optymalizacja jobów i parametrów
  3. Deployment
  4. Shuffling
  5. Typowe błędy - key-skew,serializacja, OOM
  6. Broadcast, repartition, caching, execution plans, optymalizacja
  7. Spark internals - joins, group by
3. Apache Druid
  1. Architektura
  2. Struktury danych
  3. Zarządzanie komponentami
  4. Druid i platformy Big Data oparte na Apache Hadoop
  5. Przetwarzanie real-time i batch
Streaming i orkiestracja
1. Apache Kafka
  1. Wzorzec Pub/Sub. Różnica pomiędzy modelami push oraz pull
  2. Architektura
  3. Topicki
  4. Producent i konsument Kafkowy
  5. Analiza skalowalności systemu opartego o Apache Kafka
  6. Grupy konsumenckie
  7. Replikacja i retencja
  8. Zookeeper
2. Apache Airflow
  1. Automatyzacja przetwarzania
  2. Tworzenie data pipeline - Definiowanie Acyklicznych Grafów Skierowanych Przetwarzania (DAG)
  3. Architektura

Pobierz program w formacie PDF

Materiały związane ze szkoleniem

Idea renesansowej pracowni - Bottegi zakłada nieustanną pracę jej członków i dzielenie się jej wynikami.

Machine Learning for a rescue

KATEGORIE: BigData, streaming i Machine Learning

Lecture was held on code::dive conference on November 15-16, 2016, Wrocław, Poland

Autor Bottega:

Mariusz Gil

Powiązane szkolenia dedykowane:

(zobacz wszystkie powiązane...)

Elasticsearch - architektura i zagadnienia zaawansowane

Tworzenie platform Big Data z wykorzystaniem technologii z rodziny Apache

Data storytelling: Jak w prosty sposób prezentować trudne dane

Przetwarzanie danych Big Data z wykorzystaniem Apache Spark

Powiązane usługi:

Wdrażanie Machine Learning

Zamów szkolenie

Imię i nazwisko:

Firma:

E-mail:

Nr tel:

Temat:

Wiadomość:

Jeżeli preferujesz osobisty kontakt to zawsze możesz zadzwonić.

Iwona Sobótka

Koordynatorka szkoleń

Twoje dane osobowe przetwarzamy, aby udzielić odpowiedzi na Twoje pytanie. Administratorem Twoich danych osobowych jest Bottega It Minds Sławomir Sobótka. Przysługuje Ci prawo wniesienia sprzeciwu wobec przetwarzania, prawo dostępu do danych, prawo żądania ich sprostowania, usunięcia lub ograniczenia ich przetwarzania. Szczegółowe informacje dotyczące przetwarzania Twoich danych osobowych znajdują się TUTAJ.