Rozwiązywanie problemów big data używając narzędzi z ekosystemu Hadoop

Kod: BigDataML-hadoop
Kategoria: BigData, streaming i Machine Learning
Forma: 30% wykłądy / 70% warsztaty
Czas trwania: 3 dni
Odbiorcy:
Zapisy: Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka: W siedzibie klienta lub w innym dowolnym miejscu.

Szkolenie demonstruje praktyczne użycie technologii z ekosystemu Hadoop do rozwiązywania codziennych problemów Big Data.

Podczas warsztatów praktycznych uczestnicy nauczą się takich narzędzi jak HDFS, Kafka, Spark, Streaming, HBase. Podczas każdej z sekcji będziemy brać konkretny problem biznesowy z danej domeny i przy użyciu odpowiednich narzędzi Big Data będziemy rozwiązywać go w sposób efektywny.

Wyróżniki szkolenia

 • Dobór narzędzi do klasy problemu
 • Realne przykłady o realistycznym poziomie złożoności
 • Najlepsze praktyki i typowe pułapki

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

 1. Umówienie i poznanie narzędzi z ekosystemu hadoop
  1. Hadoop i HDFS
  2. YARN - schedulowanie jobow
  3. Apache Hive - sql interface na HDFS
  4. Apache Kafka - message queue
  5. Hadoop Hbase - baza danych zbudowana na Hadoop
  6. Apache Spark i Spark MLLib - biblioteka to przetwarzania big data
  7. Spark GraphX - biblioteka do przetwarzania grafów w sposób rozproszony
  8. Spark Streaming - biblioteka do przetwarzania streamingowego
 2. Analiza Streamu płatności w sposób Streamingowy
  1. pisanie przetwarzania w Spark Streaming
  2. trzymanie rezultatów w Apache HBase
 3. Odfiltrowywanie botów w kontekście Ad-Targeting
  1. przetwarzanie w Spark
  2. zapisywanie danych na Hadoop
  3. udostępnianie danych przez interfejs Hive
 4. Analiza transakcji
  1. enrichowanie transakcji w sposób streamingowy
  2. agregacje na streamach danych i znajdywanie TopSeller w danym oknie czasowym
 5. Customer Churn Analysis
  1. Analiza batchowa danych w Apache Spark
 6. Internet of things (IoT)
  1. Zapisywanie danych z sensorów w sposób Streamingowy w Apache Hbase
  2. Skanowanie i liczenie danych w Hbase
  3. Obliczanie statystyk z danych przetrzymywanych w Hbase w sposób batchowy. Zapisywanie rezultatów w Hbase
 7. Używanie Grafów do rozwiązywania problemów
  1. Wstęp do Spark GraphX
  2. Nauka API GraphX
  3. counting degree of a Graph
  4. Connected Components
  5. Page Rank
 8. Detekcja Anomalii - budowanie wykrywania anomalii bazując na ruchu HTTP używając Spark MLLib
  1. Spark MLlib
  2. K-Means clustering
  3. Wykrywanie anomalii
 9. Analiza text - znajdywanie autora postu bazując tylko na treści postu
  1. Wyciąganie feature vector z nie ustrukturyzowanego tekstu
  2. Suprevised Learning - Logistic Regression
  3. Unsuprevised Learning - GMM
 10. Cloudera Sandbox - uzywanie cloudera sandbox z wszystkimi narzędziami z Hadoop Ecosystem
  1. ładowanie danych do HDFS używając Sqoop
  2. analiza danych używając Hive i interfejsu graficznego Hue
 11. Personalizacja - budowanie silnika rekomendacji używając Spark MLLib i Collaborative Filtering
  1. budowanie silnika bazując na danych o preferencjach użytkowników oceniających filmy


Pobierz program w formacie PDF

Trenerzy

Poznaj ekspertów, którzy mogą poprowadzić Twoje szkolenie.

Materiały związane ze szkoleniem

Idea renesansowej pracowni - Bottegi zakłada nieustanną pracę jej członków i dzielenie się jej wynikami.

Zamów szkolenie

Imię i nazwisko:
Firma:
E-mail:
Nr tel:
Temat:
Wiadomość:

Jeżeli preferujesz osobisty kontakt to zawsze możesz zadzwonić.

Iwona Sobótka

Koordynatorka szkoleń


Wyrażam zgodę na przetwarzania danych osobowych zgodnie z ustawą o ochronie danych osobowych w związku z wysłaniem zapytania przez formularz kontaktowy.

Podanie danych jest dobrowolne ale niezbędne do przetworzenia zapytania. Zastałem/am poinformowany/na, że przysługuje mi prawo dostępu do swoich danych, możliwości ich poprawienia, żądania zaprzestania ich przetwarzania.

Administratorem danych osobowych jest Bottega IT Minds, ul. Jana Sawy 2, 20-632 Lublin.


Klauzula informacyjna