Pyspark i Jupyter - niezbędnik analityków i developerów Big Data

Kod: data-science-jypyter
Kategoria: Analiza danych
Forma: 20% wykłady / 80% warsztaty
Czas trwania: 3 dni
Grupa docelowa: analitycy
developerzy
Zapisy: Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka: W siedzibie klienta lub w innym dowolnym miejscu.

W trakcie warsztatów uczestnicy poznają od podstaw API silnika Spark w języku Python i nauczą się wykorzystywać go praktycznie tworząc notatniki w aplikacji Jupyter.

Szkolenie jest dedykowane dla analityków, którzy znają podstawy Pythona i chcieliby rozszerzyć swoje umiejętności na optymalne przetwarzanie dużych zbiorów danych.

Wyróżniki szkolenia

  • problemy o realnej złożoności
  • sprawdzone narzędzia
  • dobór modelu do klasy problemu

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

  1. Wprowadzanie
    1. Rys rystoryczny pracy w świecie Big Data - jak rozwijały się Hadoop, Hive i Spark
    2. Budowa Sparka, możliwości w zakresie dostępu do danych składowanych w różnych systemach
    3. Dlaczego Spark jest lepszy/gorszy niż rozwiązania SQL’owe na Hadoopie?
    4. Metodologia pracy: akcje, transformacje, frameworki dostępne w PySparku (DF, RDD)
  2. Praca z notebookami Jupyter
    1. Konfiguracja środowiska
    2. Zarządzanie bazą notatników, wersjonowanie w repozytorium
    3. Wizualizacje - wykresy, mapy
    4. Rozszerzenia umożliwiające interaktywną pracę
  3. PySpark
    1. Uzyskiwanie dostępu do danych składowanych w różnych formatach
    2. Oglądanie danych
    3. Filtrowanie i projekcja (odpowiedniki WHERE i SELECT)
    4. Konwersje pomiędzy DF i RDD
    5. Agregacje (grupowanie) danych
    6. Łączenie zbiorów danych (odpowiednik JOIN)
    7. Wykorzystywanie języka Python do pracy w API Dataframe (User Definied Functions)
    8. Praca na oknach danych, mierzenie wydajności różnych podejść
    9. Zapisywanie danych w optymalny sposób, repartycjonowanie
  4. Różne podejścia do eksploracji danych
    1. Cachowanie
    2. Ekosystem sparka (thriftserver, historyserver)
    3. Ładowanie “nietypowych” danych - zapytania do API REST
  5. Uczenie maszynowe w MLLib
    1. Regresja liniowa i logistyczna
    2. Praca z tekstem
    3. Klastrowanie danych
    4. Association rule learning


Pobierz program w formacie PDF

Materiały związane ze szkoleniem

Idea renesansowej pracowni - Bottegi zakłada nieustanną pracę jej członków i dzielenie się jej wynikami.

Zamów szkolenie

Imię i nazwisko:
Firma:
E-mail:
Nr tel:
Temat:
Wiadomość:

Jeżeli preferujesz osobisty kontakt to zawsze możesz zadzwonić.

Iwona Sobótka

Koordynatorka szkoleń


Wyrażam zgodę na przetwarzania danych osobowych zgodnie z ustawą o ochronie danych osobowych w związku z wysłaniem zapytania przez formularz kontaktowy.

Podanie danych jest dobrowolne ale niezbędne do przetworzenia zapytania. Zastałem/am poinformowany/na, że przysługuje mi prawo dostępu do swoich danych, możliwości ich poprawienia, żądania zaprzestania ich przetwarzania.

Administratorem danych osobowych jest Bottega IT Minds, ul. Jana Sawy 2, 20-632 Lublin.


Klauzula informacyjna