Data Ops - Data Platform Engineering

Kod: BigDataML-data-ops
Kategoria: BigData, streaming i Machine Learning
Forma: 40% wykłady / 60% warsztay
Czas trwania: 3 dni
Grupa docelowa: Product Owners
admini
developerzy
Scrum Masters
analitycy
architekci
DevOps
Zapisy: Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka: W siedzibie klienta lub w innym dowolnym miejscu.

Szkolenie stanowi wprowadzenie do tworzenia platformy umożliwiającej analizę i wykorzystanie danych dostępnych w firmie.

Program zawiera też wprowadzenie do Data Science ze szczególnym uwzględnieniem wymagań infrastukturalnych i pojawiających się problemów inżynierskich i metod ich rozwiązywania.

Szkolenie jest skierowane głównie do tych, którzy nie pracują bezpośrednio jako analitycy danych, ale w różny sposób umożliwiają albo wspierają pracę z danymi: programistów, administratorów, DevOps, architektów. Szkolenie może być również pomocne dla project managerów i product ownerów, którzy chcieliby w większym stopniu wykorzystywać analizę danych w swoich projektach, produktach i zespołach.

Szkolenie zakłada podstawowe umiejętności programistyczne i znajomość systemu Linux.

Wyróżniki szkolenia

  • Dobór modeli do problemu
  • Dobór rozwiązań technicznych do skali problemu
  • Skalowanie i bezpieczeństwo

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

  1. Przechowywanie danych
    1. Tradycyjne bazy danych
      1. Kiedy kończą się możliwości MySQL/Postgres?
      2. Ćwiczenie: porównanie wydajności baz w zapytaniach analitycznych.
      3. Jak szacować złożoność zapytania SQL?
      4. Jak diagnozować wolne działanie baz?
    2. Rozproszone bazy danych
      1. Proste bazy key value. Czy da się ich używać, mimo, że wspierają tylko 2 operacje?
      2. Co dają bazy kolumnowe (Cassandra, HBase, BigTable)?
      3. Bazy dokumentowe, grafowe, inne… Czy w ogóle ich potrzebujemy?
      4. Kryteria wybierania.
    3. Data warehouse
      1. Gotowe technologie do zapytań analitycznych.
      2. Synchronizacja danych.
      3. Zewnętrzne źródła danych - systemy CRM, wspierające UX, billing, itp.
    4. Data lake
      1. Rozproszone systemy plików.
      2. Formaty plików rozproszonych - porównanie Avro i Parqueta.
      3. Integratory danych: Presto, Spark SQL, Impala.
      4. Ćwiczenie: interpretacja planu wykonania zapytania Presto/Spark SQL.
    5. Kolejki (opcjonalnie)
      1. Event sourcing i Kafka.
      2. Czy system bankowy może być asynchroniczny?
  2. Transformacje danych
    1. Infrastruktura do przetwarzania dużych danych
      1. Zalety kontenerów i systemów orkiestracji kontenerami.
      2. Jakie maszyny wybierać do przetwarzania dużych danych?
      3. Data Flow i Systemy orkiestracji zadań.
      4. Jak używać Apache Airfllow?
    2. Systemy przetwarzania dużych danych: Hadoop, Spark, Flink
      1. Schemat działania rozproszonych systemów przetwarzania danych.
      2. Programy Apache Spark, które oszczędzą czasu administratorowi.
      3. Ćwiczenie: analiza gigabajtów logów.
      4. Porównanie wydajności Spark z bazami RDBMS.
    3. Konfiguracja klastrów
      1. Instalacja Cloudera HD.
      2. Diagnostyka klastrów Spark.
  3. Analiza danych
    1. Narzędzia do eksploracji i wizualizacji danych
      1. Tableau, Metabase, Superset - do czego używają ich Data Scientist?
      2. Jak używać Jupyter Notebook/R shiny w zespole?
    2. Statystyczna analiza danych
      1. Co to jest statystyczna analiza danych i machine learning?
      2. Jakiej mocy potrzeba do analizy danych?
      3. Testy A/B.
    3. Budowa modeli
      1. Dlaczego Python i R są niekwestionowanymi liderami w ML?
      2. Co to jest model? Jakie są ich rodzaje? Jak je wybierać?
      3. Przegląd popularnych narzędzi do ML - stos Pythonowy.
      4. Kiedy używanie kart graficznych się opłaci?
  4. Wdrażanie wyników
    1. Wyzwania aplikacji wykorzystujących modele ML
      1. Wymagania systemowe
      2. Deployment
      3. Testowanie
    2. Feedback loop
      1. Dlaczego automatyzacja wdrażania nowych wersji systemów jest nieunikniona?
    3. Prezentacja raportów i dashboardów
  5. Dodatkowe tematy
    1. Kontrola dostępu do danych
    2. Narzędzia chmurowe Data Science


Pobierz program w formacie PDF

Trenerzy

Poznaj ekspertów, którzy mogą poprowadzić Twoje szkolenie.

Materiały związane ze szkoleniem

Idea renesansowej pracowni - Bottegi zakłada nieustanną pracę jej członków i dzielenie się jej wynikami.

Zamów szkolenie

Imię i nazwisko:
Firma:
E-mail:
Nr tel:
Temat:
Wiadomość:

Jeżeli preferujesz osobisty kontakt to zawsze możesz zadzwonić.

Iwona Sobótka

Koordynatorka szkoleń


Wyrażam zgodę na przetwarzania danych osobowych zgodnie z ustawą o ochronie danych osobowych w związku z wysłaniem zapytania przez formularz kontaktowy.

Podanie danych jest dobrowolne ale niezbędne do przetworzenia zapytania. Zastałem/am poinformowany/na, że przysługuje mi prawo dostępu do swoich danych, możliwości ich poprawienia, żądania zaprzestania ich przetwarzania.

Administratorem danych osobowych jest Bottega IT Minds, ul. Jana Sawy 2, 20-632 Lublin.


Klauzula informacyjna