Pyspark i Jupyter - niezbędnik analityków i developerów Big Data

Kod: data-science-jypyter
Kategoria: Analiza danych
Forma: 20% wykłady / 80% warsztaty
Czas trwania: 3 dni
Odbiorcy: developerzy, analitycy
Zapisy: Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka: W siedzibie klienta lub w innym dowolnym miejscu.

W trakcie warsztatów uczestnicy poznają od podstaw API silnika Spark w języku Python i nauczą się wykorzystywać go praktycznie tworząc notatniki w aplikacji Jupyter.

Szkolenie jest dedykowane dla analityków, którzy znają podstawy Pythona i chcieliby rozszerzyć swoje umiejętności na optymalne przetwarzanie dużych zbiorów danych.

Wyróżniki szkolenia

  • problemy o realnej złożoności
  • sprawdzone narzędzia
  • dobór modelu do klasy problemu

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

  1. Wprowadzanie
    1. Rys rystoryczny pracy w świecie Big Data - jak rozwijały się Hadoop, Hive i Spark
    2. Budowa Sparka, możliwości w zakresie dostępu do danych składowanych w różnych systemach
    3. Dlaczego Spark jest lepszy/gorszy niż rozwiązania SQL’owe na Hadoopie?
    4. Metodologia pracy: akcje, transformacje, frameworki dostępne w PySparku (DF, RDD)
  2. Praca z notebookami Jupyter
    1. Konfiguracja środowiska
    2. Zarządzanie bazą notatników, wersjonowanie w repozytorium
    3. Wizualizacje - wykresy, mapy
    4. Rozszerzenia umożliwiające interaktywną pracę
  3. PySpark
    1. Uzyskiwanie dostępu do danych składowanych w różnych formatach
    2. Oglądanie danych
    3. Filtrowanie i projekcja (odpowiedniki WHERE i SELECT)
    4. Konwersje pomiędzy DF i RDD
    5. Agregacje (grupowanie) danych
    6. Łączenie zbiorów danych (odpowiednik JOIN)
    7. Wykorzystywanie języka Python do pracy w API Dataframe (User Definied Functions)
    8. Praca na oknach danych, mierzenie wydajności różnych podejść
    9. Zapisywanie danych w optymalny sposób, repartycjonowanie
  4. Różne podejścia do eksploracji danych
    1. Cachowanie
    2. Ekosystem sparka (thriftserver, historyserver)
    3. Ładowanie “nietypowych” danych - zapytania do API REST
  5. Uczenie maszynowe w MLLib
    1. Regresja liniowa i logistyczna
    2. Praca z tekstem
    3. Klastrowanie danych
    4. Association rule learning


Pobierz program w formacie PDF

Materiały związane ze szkoleniem

Idea renesansowej pracowni - Bottegi zakłada nieustanną pracę jej członków i dzielenie się jej wynikami.

Zamów szkolenie

Imię i nazwisko:
Firma:
E-mail:
Nr tel:
Temat:
Wiadomość:

Jeżeli preferujesz osobisty kontakt to zawsze możesz zadzwonić.

Iwona Sobótka

Koordynatorka szkoleń


Twoje dane osobowe przetwarzamy, aby udzielić odpowiedzi na Twoje pytanie. Administratorem Twoich danych osobowych jest Bottega It Minds Sławomir Sobótka. Przysługuje Ci prawo wniesienia sprzeciwu wobec przetwarzania, prawo dostępu do danych, prawo żądania ich sprostowania, usunięcia lub ograniczenia ich przetwarzania. Szczegółowe informacje dotyczące przetwarzania Twoich danych osobowych znajdują się TUTAJ.