Building Batch Data Analytics Solutions on AWS

Building Batch Data Analytics Solutions on AWS

W ramach tego kursu nauczysz się tworzyć rozwiązania do analizy danych wsadowych przy użyciu Amazon EMR, usługi zarządzanej klasy korporacyjnej Apache Spark i Apache Hadoop. Dowiesz się, w jaki sposób Amazon EMR integruje się z projektami open source, takimi jak Apache Hive, Hue i HBase, oraz z usługami AWS, takimi jak AWS Glue i AWS Lake Formation. Kurs dotyczy komponentów gromadzenia, pozyskiwania, katalogowania, przechowywania i przetwarzania danych w kontekście Spark i Hadoop. Nauczysz się korzystać z EMR Notebooks do obsługi zarówno analiz, jak i zadań związanych z uczeniem maszynowym. Dowiesz się również, jak stosować najlepsze praktyki w zakresie bezpieczeństwa, wydajności i zarządzania kosztami w ramach obsługi Amazon EMR.

Kod szkolenia
AWS-BBDAS
Czas trwania
1 dzień
Poziom
Średni
Cena
2300 zł
AWS
Dla kogo?

Kurs jest przeznaczony dla:

  • Inżynierów platform danych
  • Architektów i operatorów, którzy tworzą i zarządzają potokami analizy danych
Zdobyte umiejętności

W ramach tego kursu nauczysz się:

  • Porównać cechy i zalety hurtowni danych, jezior danych i nowoczesnych architektur danych
  • Projektować i wdrażać rozwiązania do analizy danych wsadowych
  • Identyfikować i stosować odpowiednie techniki, w tym kompresję, w celu optymalizacji przechowywania danych
  • Wybierać i wdrażać odpowiednie opcje pozyskiwania, przekształcania i przechowywania danych
  • Wybierać odpowiednie typy instancji i węzłów, klastry, automatyczne skalowanie i topologię sieci dla konkretnego przypadku biznesowego
  • Zrozum, w jaki sposób przechowywanie i przetwarzanie danych wpływa na mechanizmy analizy i wizualizacji potrzebne do uzyskania praktycznych informacji biznesowych
  • Zabezpieczanie danych w spoczynku i podczas przesyłania
  • Monitorowanie obciążeń analitycznych w celu identyfikacji i usuwania problemów
  • Stosuj najlepsze praktyki w zakresie zarządzania kosztami
Wymagania wstępne

Z kursu skorzystają studenci posiadający co najmniej roczne doświadczenie w zarządzaniu frameworkami danych open source, takimi jak Apache Spark lub Apache Hadoop.

Zakres szkolenia

Moduł A: Omówienie analizy danych i potoku danych

  • Przykłady zastosowań analizy danych
  • Wykorzystanie potoku danych do analizy

Moduł 1: Wprowadzenie do Amazon EMR

  • Wykorzystanie Amazon EMR w rozwiązaniach analitycznych
  • Architektura klastra Amazon EMR
  • Interaktywna prezentacja 1: Uruchamianie klastra Amazon EMR
  • Strategie zarządzania kosztami

Moduł 2: Potok analizy danych Korzystanie z Amazon EMR: pozyskiwanie i przechowywanie danych

  • Optymalizacja przechowywania danych za pomocą Amazon EMR
  • Techniki pozyskiwania danych

Moduł 3: Wysokowydajna analiza danych wsadowych przy użyciu Apache Spark na Amazon EMR

  • Przykłady zastosowań Apache Spark w Amazon EMR
  • Dlaczego Apache Spark na Amazon EMR
  • Koncepcje Spark
  • Interaktywna demonstracja 2: Połącz się z klastrem EMR i wykonaj polecenia Scala przy użyciu powłoki Spark
  • Transformacja, przetwarzanie i analiza
  • Korzystanie z notebooków w Amazon EMR
  • Ćwiczenie praktyczne 1: Analiza danych o niskim opóźnieniu przy użyciu Apache Spark na Amazon EMR

Moduł 4: Przetwarzanie i analiza danych wsadowych za pomocą Amazon EMR i Apache Hive

  • Korzystanie z Amazon EMR z Hive do przetwarzania danych wsadowych
  • Transformacja, przetwarzanie i analiza
  • Ćwiczenie praktyczne 2: Przetwarzanie danych wsadowych przy użyciu Amazon EMR z Hive
  • Wprowadzenie do Apache HBase na Amazon EMR

Moduł 5: Przetwarzanie danych bezserwerowe

  • Przetwarzanie danych bezserwerowe, transformacja i analiza
  • Korzystanie z AWS Glue z obciążeniami Amazon EMR
  • Ćwiczenie praktyczne 3: Koordynowanie przetwarzania danych w Spark przy użyciu AWS Step Functions

Moduł 6: Bezpieczeństwo i monitorowanie klastrów Amazon EMR

  • Zabezpieczanie klastrów EMR
  • Interaktywna demonstracja 3: Szyfrowanie po stronie klienta za pomocą EMRFS
  • Monitorowanie i rozwiązywanie problemów klastrów Amazon EMR
  • Demonstracja: przegląd historii klastra Apache Spark

Moduł 7: Projektowanie rozwiązań do analizy danych wsadowych

  • Przykłady zastosowań analizy danych wsadowych
  • Ćwiczenie: Projektowanie przepływu pracy analizy danych wsadowych Moduł B: Tworzenie nowoczesnych architektur danych w AWS
  • Nowoczesne architektury danych

Zapytaj o termin i wycenę

To szkolenie realizujemy na zamówienie. Daj nam znać, a dopasujemy termin i formę (online / stacjonarnie),

Odpowiedź z propozycją terminu do 24 godzin
Bez zobowiązań – samo zapytanie niczego nie rezerwuje
Możliwość realizacji tylko dla Twojego zespołu