Corso Building Batch Data Analytics Solutions on AWS

Obiettivi | Certificazione | Contenuti | Tipologia | Prerequisiti | Durata e Frequenza | Docenti | Modalità di Iscrizione | Calendario

AWS Certified Data Engineer Associate

Il Corso Building Batch Data Analytics Solutions on AWS (DABATC) è progettato per insegnare ai partecipanti come creare soluzioni di analisi dei dati in batch utilizzando Amazon EMR, un servizio gestito Apache Spark e Apache Hadoop di livello aziendale. Si imparerà come Amazon EMR si integra con progetti open source come Apache Hive, Hue e HBase e con servizi AWS come AWS Glue e AWS Lake Formation. Il corso affronta i componenti di raccolta, importazione, catalogazione, archiviazione ed elaborazione dei dati nel contesto di Spark e Hadoop. Si utilizzeranno i notebook EMR per supportare sia i carichi di lavoro di analisi che quelli di machine learning, inoltre anche ad applicare le migliori pratiche di sicurezza, prestazioni e gestione dei costi al funzionamento di Amazon EMR. Il corso contribuisce alla preparazione per la Certificazione AWS Certified Data Engineer – Associate.

Contattaci ora per ricevere tutti i dettagli e per richiedere, senza alcun impegno, di parlare direttamente con uno dei nostri Docenti (Clicca qui)
oppure chiamaci subito al nostro Numero Verde (800-177596)

Obiettivi del corso

Di seguito una sintesi degli obiettivi principali del corso Corso Building Batch Data Analytics Solutions on AWS (DABATC):

  • Creare soluzioni di analisi dei dati in batch utilizzando Amazon EMR, un servizio che gestisce Apache Spark e Apache Hadoop.
  • Integrazione di Amazon EMR con progetti open source (Apache Hive, Hue, HBase) e servizi AWS (AWS Glue, AWS Lake Formation).
  • Gestione dei componenti di raccolta, importazione, catalogazione, archiviazione ed elaborazione dei dati nel contesto di Spark e Hadoop.
  • Utilizzo dei notebook EMR per supportare sia i carichi di lavoro di analisi che quelli di machine learning.
  • Applicazione delle migliori pratiche di sicurezza, prestazioni e gestione dei costi nel funzionamento di Amazon EMR.

Certificazione del corso

Esame AWS Certified Data Engineer – Associate;
L’esame AWS Certified Data Engineer – Associate DEA-C01 valuta la capacità di un candidato di implementare pipeline di dati, monitorare, risolvere problemi e ottimizzare costi e prestazioni in conformità con le best practice. Gli esaminati devono dimostrare competenze nell’ingestione e trasformazione dei dati, orchestrazione delle pipeline di dati e applicazione di concetti di programmazione. Inoltre, devono essere in grado di scegliere il data store ottimale, progettare modelli di dati, catalogare schemi di dati e gestire i cicli di vita dei dati. Altre competenze richieste includono l’operazionalizzazione, manutenzione e monitoraggio delle pipeline di dati, analisi dei dati e garanzia della qualità dei dati. Gli esaminati devono anche implementare meccanismi appropriati di autenticazione, autorizzazione, crittografia dei dati, privacy e governance, oltre ad abilitare il logging. Le conoscenze richieste includono le caratteristiche di throughput e latenza per i servizi AWS che ingeriscono dati, schemi di ingestione dei dati, elaborazione dei dati utilizzando Apache Spark, e architetture event-driven. Gli esaminati devono saper integrare vari servizi AWS per creare pipeline ETL, configurare servizi AWS per pipeline di dati basate su schedulazioni o dipendenze, e ottimizzare i costi durante l’elaborazione dei dati. Inoltre, è necessaria la conoscenza dei concetti di programmazione quali CI/CD, query SQL e infrastruttura come codice (IaC). L’esame richiede anche competenze nell’automazione dell’elaborazione dei dati utilizzando i servizi AWS, visualizzazione dei dati, verifica e pulizia dei dati, e monitoraggio delle pipeline di dati. Infine, gli esaminati devono dimostrare la capacità di applicare meccanismi di autenticazione e autorizzazione, garantire la crittografia e mascheramento dei dati, preparare i log per audit, e implementare strategie di privacy e governance dei dati.

Contenuti del corso

Module 0: Overview of Data Analytics and the Data Pipeline

  • Data analytics use cases
  • Using the data pipeline for analytics

Module 1: Introduction to Amazon EMR

  • Using Amazon EMR in analytics solutions
  • Amazon EMR cluster architecture
  • Interactive Demo 1: Launching an Amazon EMR cluster
  • Cost management strategies

Module 2: Data Analytics Pipeline Using Amazon EMR: Ingestion and Storage

  • Storage optimization with Amazon EMR
  • Data ingestion techniques

Module 3: High-Performance Batch Data Analytics Using Apache Spark on Amazon EMR

  • Apache Spark on Amazon EMR use cases
  • Why Apache Spark on Amazon EMR
  • Spark concepts
  • Interactive Demo 2: Connect to an EMR cluster and perform Scala commands using the
  • Spark shell
  • Transformation, processing, and analytics
  • Using notebooks with Amazon EMR
  • Practice Lab 1: Low-latency data analytics using Apache Spark on Amazon EMR

Module 4: Processing and Analyzing Batch Data with Amazon EMR and Apache Hive

  • Using Amazon EMR with Hive to process batch data
  • Transformation, processing, and analytics
  • Practice Lab 2: Batch data processing using Amazon EMR with Hive
  • Introduction to Apache HBase on Amazon EMR

Module 5: Serverless Data Processing

  • Serverless data processing, transformation, and analytics
  • Using AWS Glue with Amazon EMR workloads
  • Practice Lab 3: Orchestrate data processing in Spark using AWS Step Functions

Module 6: Security and Monitoring of Amazon EMR Clusters

  • Securing EMR clusters
  • Interactive Demo 3: Client-side encryption with EMRFS
  • Monitoring and troubleshooting Amazon EMR clusters
  • Demo: Reviewing Apache Spark cluster history

Module 7: Designing Batch Data Analytics Solutions

  • Batch data analytics use cases
  • Activity: Designing a batch data analytics workflow
  • Module B: Developing Modern Data Architectures on AWS
  • Modern data architectures

Tipologia

Corso di Formazione con Docente

Docenti

I docenti sono Istruttori accreditati Amazon AWS e certificati in altre tecnologie IT, con anni di esperienza pratica nel settore e nella Formazione.

Infrastruttura laboratoriale

Per tutte le tipologie di erogazione, il Corsista può accedere alle attrezzature e ai sistemi presenti nei Nostri laboratori o direttamente presso i data center del Vendor o dei suoi provider autorizzati in modalità remota h24. Ogni partecipante dispone di un accesso per implementare le varie configurazioni avendo così un riscontro pratico e immediato della teoria affrontata. Ecco di seguito alcuni scenari tratti dalle attività laboratoriali:

Laboratorio Building Batch Data Analytics Solutions on AWS

Dettagli del corso

Prerequisiti

Si consiglia la partecipazione ai seguenti corsi:

Durata del corso

Durata Intensiva 1gg.

Frequenza

Varie tipologie di Frequenza Estensiva ed Intensiva.

Date del corso

  • Building Batch Data Analytics Solutions on AWS (Formula Intensiva) – Su Richiesta – 09:00/17:00

Modalità di iscrizione

Le iscrizioni sono a numero chiuso per garantire ai tutti i partecipanti un servizio eccellente. L’iscrizione avviene richiedendo di essere contattati dal seguente Link, o contattando la sede al numero verde 800-177596 o inviando una richiesta all’email [email protected].