Bottega IT Minds

Tytuł:	Elasticsearch - architektura i zagadnienia zaawansowane
Kod:	BigDataML-elastic
Kategoria:	BigData, streaming i Machine Learning
Forma:	30% wykłady / 70 % warsztaty
Czas trwania:	3 dni

Odbiorcy:	architekci, developerzy
Zapisy:	Indywidualne zamówienie i dopasowanie dla grupy.
Logistyka:	W siedzibie klienta lub w innym dowolnym miejscu.

Szkolenie ma na celu poszerzenie wiedzy na temat technologii wyszukiwania pełnotekstowego z wykorzystaniem Elasticsearch oraz dobór właściwej architektury danych ze szczególnym uwzględnieniem modelowania danych dostosowanych do potrzeb. Dodatkowym atutem szkolenia jest część administracyjna związana z konfiguracją, utrzymaniem, monitoringiem i skalowaniem Elasticsearch.

Będzie ona niezwykle cenna dla osób zajmujących się administracją systemów oraz DevOps-ów.

W trakcie szkolenia omawiane są również typowe problemy, z którymi na co dzień spotykają się użytkownicy. Owe problemy to zbiór przepisów zbieranych od 2011 roku, czyli praktycznie od początku istnienia produktu Elasticsearch. Odniesienie do źródeł problemów, a nie tylko sposobów ich “łatania” pozwoli na zdobycie solidnych fundamentów do analizy tych które nie zostaną omówione w trakcie szkolenia.

Wyróżniki szkolenia

Sprawdzone receptury
Tuning wydajności
Integracja z innymi systemami

Program Szkolenia

Program jest ramą w jakiej możemy się poruszać merytorycznie - program dla konkretnego szkolenia dedykowanego ustalamy z grupą na podstawie analizy przed-szkoleniowej.

Architektura
1. Wprowadzenie do skalowalnych baz danych NoSQL
2. Wyzwania wynikające ze stosowania baz rozproszonych
  1. Eventual consistency i teoria CAP
  2. Zarządzanie infrastrukturą wielowęzłową
  3. Problemy sieciowe
  4. Rozdwojenie jaźni (split-brain)
Sposoby modelowania w dokumentowych bazach danych
1. Płaskie agregaty
2. Zagnieżdżone dokumenty
3. Miękkie relacje pomiędzy encjami
Wprowadzenie do wyszukiwania pełnotekstowego (full-text search)
1. Algorytmy stosowane w wyszukiwaniu pełnotekstowym
2. Możliwości rozwiązań umożliwiających FTS
  1. Wyszukiwanie za pomocą jednego pola
  2. Uwzględnianie literówek (fuziness)
  3. Pomijanie nieznaczących znaków
  4. Zakreślanie pasujących fragmentów tekstu (highlighting)
Dlaczego Elasticsearch?
1. Omówienie alternatywnych rozwiązań i porównanie możliwości
2. Ekosystem Elastic Stack
Korzystanie z Elasticsearch
1. Instalacja i konfiguracja Elasticsearch
2. Metody modyfikacja dokumentów
  1. Indeksowanie
  2. Aktualizacja
  3. Usuwanie
  4. Reindeksacja danych
3. Wyszukiwanie danych
4. Komunikacja z poziomu aplikacji
5. Wady i zalety wykorzystania Spring Data w warstwie dostępu do danych Elasticsearch
6. Testy jednostkowe i integracyjne mechanizmu wyszukiwania
Modelowanie danych w Elasticsearch
1. Dobór właściwej architektury składowania danych do problemu
  1. Przechowywanie danych w jednym indeksie
  2. Rozbicie danych pomiędzy indeksami
  3. Rozbicie danych pomiędzy shardami
  4. Przechowywanie danych określonych czasem (time-series)
2. Dynamiczne tworzenie struktur vs. statyczna kontrola typów
3. Zaawansowane podejście do analizy danych tekstowych (analizatory tekstu)
Zaawansowane wyszukiwanie z użyciem Elasticsearch
1. Omówienie różnych sposobów implementacji mechanizmów Quick search
2. Agregacja danych
3. Kategoryzacja dokumentów na przykładzie Percolator API
Performance tuning
1. Konfiguracja Elasticsearch pod kątem wymagań stawianych przed systemem
2. Co robić, gdy indeksowanie jest zbyt wolne?
3. Jak radzić sobie ze zbyt wolnymi zapytaniami?
4. Modyfikacja architektury klastra celu zwiększenia wydajności
Integracja Elasticsearch z obecną architekturą
1. ELK, jak podstawa szybkiej integracji z działającym systemem
2. Rozwój funkcjonalności istniejących systemów poprzez implementację wyszukiwania pełnotekstowego
3. Elasticsearch jako jedyne źródło danych aplikacji
4. Metody integracji z innymi rozwiązaniami składowania danych
Utrzymanie i rozwój infrastruktury klastra Elasticsearch
1. Diagnozowanie typowych problemów
  1. Długo trwające zapytania
  2. Rażący spadek wydajności usługi
  3. Rozszczepienie klastra (split-brain) oraz niepożądane złączenie środowiska testowego i produkcyjnego
  4. Konflikt typów w atrybutach dokumentów
  5. Niepoprawne wyszukiwanie danych z powodu błędnej instalacji/konfiguracji klastra
  6. Odrzucanie zapytań z powodu zbyt dużego obciążenia
2. Metody zabezpieczania klastra
3. Najlepsze metody aktualizacji oprogramowania
4. Najważniejsze narzędzia przydatne w codziennej pracy
  1. Head
  2. Kopf
  3. Sense
  4. Marvel
  5. Curator
5. Monitorowanie klastra

Pobierz program w formacie PDF

Elasticsearch - architektura i zagadnienia zaawansowane

Wyróżniki szkolenia

Program Szkolenia

Machine Learning for a rescue

Zamów szkolenie

Iwona Sobótka