Rozwiązywanie problemów big data używając narzędzi z ekosystemu Hadoop

Kod: BigDataML-hadoop
Kategoria: BigData, streaming i Machine Learning
Forma: 30% wykłądy / 70% warsztaty
Czas trwania: 3 dni
Odbiorcy:
Zapisy: Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka: W siedzibie klienta lub w innym dowolnym miejscu.

Szkolenie demonstruje praktyczne użycie technologii z ekosystemu Hadoop do rozwiązywania codziennych problemów Big Data.

Podczas warsztatów praktycznych uczestnicy nauczą się takich narzędzi jak HDFS, Kafka, Spark, Streaming, HBase. Podczas każdej z sekcji będziemy brać konkretny problem biznesowy z danej domeny i przy użyciu odpowiednich narzędzi Big Data będziemy rozwiązywać go w sposób efektywny.

Wyróżniki szkolenia

  • Dobór narzędzi do klasy problemu
  • Realne przykłady o realistycznym poziomie złożoności
  • Najlepsze praktyki i typowe pułapki

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

  1. Umówienie i poznanie narzędzi z ekosystemu hadoop
    1. Hadoop i HDFS
    2. YARN - schedulowanie jobow
    3. Apache Hive - sql interface na HDFS
    4. Apache Kafka - message queue
    5. Hadoop Hbase - baza danych zbudowana na Hadoop
    6. Apache Spark i Spark MLLib - biblioteka to przetwarzania big data
    7. Spark GraphX - biblioteka do przetwarzania grafów w sposób rozproszony
    8. Spark Streaming - biblioteka do przetwarzania streamingowego
  2. Analiza Streamu płatności w sposób Streamingowy
    1. pisanie przetwarzania w Spark Streaming
    2. trzymanie rezultatów w Apache HBase
  3. Odfiltrowywanie botów w kontekście Ad-Targeting
    1. przetwarzanie w Spark
    2. zapisywanie danych na Hadoop
    3. udostępnianie danych przez interfejs Hive
  4. Analiza transakcji
    1. enrichowanie transakcji w sposób streamingowy
    2. agregacje na streamach danych i znajdywanie TopSeller w danym oknie czasowym
  5. Customer Churn Analysis
    1. Analiza batchowa danych w Apache Spark
  6. Internet of things (IoT)
    1. Zapisywanie danych z sensorów w sposób Streamingowy w Apache Hbase
    2. Skanowanie i liczenie danych w Hbase
    3. Obliczanie statystyk z danych przetrzymywanych w Hbase w sposób batchowy. Zapisywanie rezultatów w Hbase
  7. Używanie Grafów do rozwiązywania problemów
    1. Wstęp do Spark GraphX
    2. Nauka API GraphX
    3. counting degree of a Graph
    4. Connected Components
    5. Page Rank
  8. Detekcja Anomalii - budowanie wykrywania anomalii bazując na ruchu HTTP używając Spark MLLib
    1. Spark MLlib
    2. K-Means clustering
    3. Wykrywanie anomalii
  9. Analiza text - znajdywanie autora postu bazując tylko na treści postu
    1. Wyciąganie feature vector z nie ustrukturyzowanego tekstu
    2. Suprevised Learning - Logistic Regression
    3. Unsuprevised Learning - GMM
  10. Cloudera Sandbox - uzywanie cloudera sandbox z wszystkimi narzędziami z Hadoop Ecosystem
    1. ładowanie danych do HDFS używając Sqoop
    2. analiza danych używając Hive i interfejsu graficznego Hue
  11. Personalizacja - budowanie silnika rekomendacji używając Spark MLLib i Collaborative Filtering
    1. budowanie silnika bazując na danych o preferencjach użytkowników oceniających filmy


Pobierz program w formacie PDF

Trenerzy

Poznaj ekspertów, którzy mogą poprowadzić Twoje szkolenie.

Materiały związane ze szkoleniem

Idea renesansowej pracowni - Bottegi zakłada nieustanną pracę jej członków i dzielenie się jej wynikami.

Zamów szkolenie

Imię i nazwisko:
Firma:
E-mail:
Nr tel:
Temat:
Wiadomość:

Jeżeli preferujesz osobisty kontakt to zawsze możesz zadzwonić.

Iwona Sobótka

Koordynatorka szkoleń


Twoje dane osobowe przetwarzamy, aby udzielić odpowiedzi na Twoje pytanie. Administratorem Twoich danych osobowych jest Bottega It Minds Sławomir Sobótka. Przysługuje Ci prawo wniesienia sprzeciwu wobec przetwarzania, prawo dostępu do danych, prawo żądania ich sprostowania, usunięcia lub ograniczenia ich przetwarzania. Szczegółowe informacje dotyczące przetwarzania Twoich danych osobowych znajdują się TUTAJ.