Apache Spark i Hadoop dla analityków danych

Kod: data-science-spark
Kategoria: Analiza danych
Forma: 30% wykłady / 70% warsztaty
Czas trwania: 3 dni
Grupa docelowa: architekci
developerzy
analitycy
Zapisy: Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka: W siedzibie klienta lub w innym dowolnym miejscu.

Szkolenie przeznaczone jest dla uczestników pracujących w R z małymi zbiorami danych i chcąych się nauczyć SQLa oraz przetwarzania danych w sposób rozproszony z użyciem Hadoopa i Sparka. Szkolenie rozpoczyna się od krótkiego wprowadzenia (w razie potrzeb) do SQL i API Sparka oraz narzędzi: łączenie RStudio i Hadoopa. Kolejne ćwiczenia pozwalają nabyć konkretne umiejętność w zakresie wizualizacji danych i uczenia maszynowego w trakcie budowania kompletnej aplikacji. W trakcie ćwiczeń możemy wybrać dowolną klasę problemu ML. .

Wyróżniki szkolenia

  • Przetwarzania dużych zbiorów danych
  • Dobór narzędzia i modelu do klasy problemu
  • Zrozumienie pryncypiów obliczeń rozproszonych

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

  1. Wprowadzenie
    1. Krótka historia Big Data - skąd potrzeba na przechowywanie i przetwarzanie danych w sposób rozproszony
    2. Hadoop i Apache Spark - architektura i możliwości
    3. Różne metodyki pracy z Big Data i R
    4. Dlaczego format i sposób zapisu danych ma znaczenie?
  2. Przetwarzanie danych w sposób rozproszony: SparkSQL oraz SparkR (każde z ćwiczeń wykonujemy najpierw w SQL, a potem w SparkR)
    1. Ładowanie danych do kontekstu, oglądanie danych
    2. Filtrowanie (WHERE) i projekcja (SELECT)
    3. Agregacje jednego zbioru danych (GROUP BY i HAVING)
    4. Łączenie zbiorów danych (JOIN)
    5. Różne algorytmy łączenia danych w świecie rozproszonym: SortMergeOuterJoin i BroadcastHashJoin
    6. Praca z oknami danych i funkcje analityczne (lag, row_number)
    7. Zapis danych i pobieranie wyników do RStudio
  3. Wykorzystanie języka R w sposób rozproszony
    1. Funkcja R’a jako UDF (dapply/gapply)
    2. Łączenie się do klastra Hadoopa bezpośrednio z RStudio i konwersje między R’owymi i Sparkowymi ramkami danych (Dataframes)
  4. Wizualizacja danych
    1. Przetwarzanie danych w Sparku i obrazowanie wyników w R (ggplot)
    2. Apache Superset - otwartoźródłowy system do intuicyjnego tworzenia dashboardów z wykorzystaniem SQL (Presto SQL oraz Hive na Hadoopie) (łącznie 1.5h)
  5. Uczenie maszynowe na dużych danych
    1. Regresja logistyczna w Spark ML Lib
    2. Przekrój pozostałych algorytmów dostępnych w Sparku. Hybrydowy sposób pracy z ML między Sparkiem i R
  6. Budujemy kompletną aplikację wykorzystującą Sparka, algorytmy rekomendacyjne i R’a - łącznie 3h
    1. Analiza możliwych podejść do danych
    2. Porównanie wydajności różnych sposób
    3. Optymalizacja parametrów modelu
    4. Jak debugować problemy z przetwarzaniem
  7. Porównanie pracy z Big Data w środowisku chmurowym (na przykładzie AWS) z klasycznymi dystrybucjami - 1h*
  8. Przegląd komercyjnych narzędzi do wizualizacji danych, porównanie funkcjonalności - 1h*


Pobierz program w formacie PDF

Materiały związane ze szkoleniem

Idea renesansowej pracowni - Bottegi zakłada nieustanną pracę jej członków i dzielenie się jej wynikami.

Zamów szkolenie

Imię i nazwisko:
Firma:
E-mail:
Nr tel:
Temat:
Wiadomość:

Jeżeli preferujesz osobisty kontakt to zawsze możesz zadzwonić.

Iwona Sobótka

Koordynatorka szkoleń


Wyrażam zgodę na przetwarzania danych osobowych zgodnie z ustawą o ochronie danych osobowych w związku z wysłaniem zapytania przez formularz kontaktowy.

Podanie danych jest dobrowolne ale niezbędne do przetworzenia zapytania. Zastałem/am poinformowany/na, że przysługuje mi prawo dostępu do swoich danych, możliwości ich poprawienia, żądania zaprzestania ich przetwarzania.

Administratorem danych osobowych jest Bottega IT Minds, ul. Jana Sawy 2, 20-632 Lublin.


Klauzula informacyjna