Rozwiązywanie problemów big data używając narzędzi z ekosystemu Hadoop

Kod: BigDataML-hadoop
Kategoria: BigData, streaming i Machine Learning
Forma: 30% wykłądy / 70% warsztaty
Czas trwania: 3 dni
Grupa docelowa:
Zapisy: Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka: W siedzibie klienta lub w innym dowolnym miejscu.

Szkolenie demonstruje praktyczne użycie technologii z ekosystemu Hadoop do rozwiązywania codziennych problemów Big Data.

Podczas warsztatów praktycznych uczestnicy nauczą się takich narzędzi jak HDFS, Kafka, Spark, Streaming, HBase. Podczas każdej z sekcji będziemy brać konkretny problem biznesowy z danej domeny i przy użyciu odpowiednich narzędzi Big Data będziemy rozwiązywać go w sposób efektywny.

Wyróżniki szkolenia

  • Dobór narzędzi do klasy problemu
  • Realne przykłady o realistycznym poziomie złożoności
  • Najlepsze praktyki i typowe pułapki

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

  1. Umówienie i poznanie narzędzi z ekosystemu hadoop
    1. Hadoop i HDFS
    2. YARN - schedulowanie jobow
    3. Apache Hive - sql interface na HDFS
    4. Apache Kafka - message queue
    5. Hadoop Hbase - baza danych zbudowana na Hadoop
    6. Apache Spark i Spark MLLib - biblioteka to przetwarzania big data
    7. Spark GraphX - biblioteka do przetwarzania grafów w sposób rozproszony
    8. Spark Streaming - biblioteka do przetwarzania streamingowego
  2. Analiza Streamu płatności w sposób Streamingowy
    1. pisanie przetwarzania w Spark Streaming
    2. trzymanie rezultatów w Apache HBase
  3. Odfiltrowywanie botów w kontekście Ad-Targeting
    1. przetwarzanie w Spark
    2. zapisywanie danych na Hadoop
    3. udostępnianie danych przez interfejs Hive
  4. Analiza transakcji
    1. enrichowanie transakcji w sposób streamingowy
    2. agregacje na streamach danych i znajdywanie TopSeller w danym oknie czasowym
  5. Customer Churn Analysis
    1. Analiza batchowa danych w Apache Spark
  6. Internet of things (IoT)
    1. Zapisywanie danych z sensorów w sposób Streamingowy w Apache Hbase
    2. Skanowanie i liczenie danych w Hbase
    3. Obliczanie statystyk z danych przetrzymywanych w Hbase w sposób batchowy. Zapisywanie rezultatów w Hbase
  7. Używanie Grafów do rozwiązywania problemów
    1. Wstęp do Spark GraphX
    2. Nauka API GraphX
    3. counting degree of a Graph
    4. Connected Components
    5. Page Rank
  8. Detekcja Anomalii - budowanie wykrywania anomalii bazując na ruchu HTTP używając Spark MLLib
    1. Spark MLlib
    2. K-Means clustering
    3. Wykrywanie anomalii
  9. Analiza text - znajdywanie autora postu bazując tylko na treści postu
    1. Wyciąganie feature vector z nie ustrukturyzowanego tekstu
    2. Suprevised Learning - Logistic Regression
    3. Unsuprevised Learning - GMM
  10. Cloudera Sandbox - uzywanie cloudera sandbox z wszystkimi narzędziami z Hadoop Ecosystem
    1. ładowanie danych do HDFS używając Sqoop
    2. analiza danych używając Hive i interfejsu graficznego Hue
  11. Personalizacja - budowanie silnika rekomendacji używając Spark MLLib i Collaborative Filtering
    1. budowanie silnika bazując na danych o preferencjach użytkowników oceniających filmy


Pobierz program w formacie PDF

Trenerzy

Poznaj ekspertów, którzy mogą poprowadzić Twoje szkolenie.

Materiały związane ze szkoleniem

Idea renesansowej pracowni - Bottegi zakłada nieustanną pracę jej członków i dzielenie się jej wynikami.

Zamów szkolenie

Imię i nazwisko:
Firma:
E-mail:
Nr tel:
Temat:
Wiadomość:

Jeżeli preferujesz osobisty kontakt to zawsze możesz zadzwonić.

Iwona Sobótka

Koordynatorka szkoleń


Wyrażam zgodę na przetwarzania danych osobowych zgodnie z ustawą o ochronie danych osobowych w związku z wysłaniem zapytania przez formularz kontaktowy.

Podanie danych jest dobrowolne ale niezbędne do przetworzenia zapytania. Zastałem/am poinformowany/na, że przysługuje mi prawo dostępu do swoich danych, możliwości ich poprawienia, żądania zaprzestania ich przetwarzania.

Administratorem danych osobowych jest Bottega IT Minds, ul. Jana Sawy 2, 20-632 Lublin.


Klauzula informacyjna