Corso Serverless Data Processing with Dataflow

Obiettivi | Certificazione | Contenuti | Tipologia | Prerequisiti | Durata e Frequenza | Docenti | Modalità di Iscrizione | Calendario

Google Professional Data Engineer Certification

Il Corso Serverless Data Processing with Dataflow di Google Cloud è un programma di formazione progettato per i professionisti del big data che aspirano a potenziare le loro competenze in Dataflow e migliorare le applicazioni di elaborazione dati. Il corso si sviluppa partendo dalle fondamenta, illustrando come Apache Beam e Dataflow collaborano per rispondere alle esigenze di elaborazione dati, evitando il rischio di dipendenza da un singolo fornitore. Successivamente, il corso si concentra sullo sviluppo di pipeline, spiegando come trasformare la logica aziendale in applicazioni di elaborazione dati che possono funzionare su Dataflow. La parte finale del corso è dedicata alle operazioni, dove vengono affrontati aspetti cruciali per la gestione di un’applicazione di dati su Dataflow, come il monitoraggio, la risoluzione dei problemi, i test e l’affidabilità. Durante il corso, i partecipanti avranno l’opportunità di familiarizzare con tecnologie come il Beam Portability Framework, Shuffle and Streaming Engine, Flexible Resource Scheduling e IAM. Infine, il corso contribuisce alla preparazione per l’esame di Certificazione Google Professional Data Engineer.

Contattaci ora per ricevere tutti i dettagli e per richiedere, senza alcun impegno, di parlare direttamente con uno dei nostri Docenti (Clicca qui)
oppure chiamaci subito al nostro Numero Verde (800-177596)

Obiettivi del corso

Di seguito una sintesi degli obiettivi principali del Corso Serverless Data Processing with Dataflow:

  • Comprendere l’integrazione e l’uso di Apache Beam con Dataflow.
  • Sviluppare pipeline di dati scalabili e serverless.
  • Applicare pratiche operative per la gestione di applicazioni Dataflow.
  • Utilizzare tecnologie come il Beam Portability Framework e il Flexible Resource Scheduling.
  • Prepararsi per l’esame di Certificazione Google Professional Data Engineer

Certificazione del corso

Esame Google Cloud Certified Professional Data Engineer; L’esame misura la capacità di progettare, costruire e gestire soluzioni di elaborazione dati sicure e scalabili su Google Cloud Platform. Testa conoscenze specialistiche in servizi come BigQuery per l’analisi di grandi dataset, Cloud Dataflow per la costruzione di pipeline di dati, e Cloud Dataproc per l’elaborazione di workload Hadoop/Spark. L’esame richiede anche competenze nella gestione di modelli di machine learning e nella scelta delle migliori strategie di storage e gestione dei dati. Candidati devono dimostrare l’uso efficace di Python e SQL per manipolare e analizzare i dati all’interno dell’ecosistema GCP.

Contenuti del corso

Module 1: Introduction

  • Course Introduction
  • Beam and Dataflow Refresher

Module 2: Separating Compute and Storage with Dataflow

  • Dataflow
  • Beam Portability
  • Runner v2
  • Container Environments
  • Cross-Language Transforms

Module 3: Dataflow, Cloud Operations

  • Dataflow Shuffle Service
  • Dataflow Streaming Engine
  • Flexible Resource Scheduling

Module 4: IAM, Quotas, and Permissions

  • IAM
  • Quota

Module 5: Security

  • Data Locality
  • Shared VPC
  • Private IPs
  • CMEK

Module 6: Beam Concepts Review

  • Beam Basics
  • Utility Transforms
  • DoFn Lifecycle

Module 7: Windows, Watermarks, Triggers

  • Windows
  • Watermarks
  • Triggers

Module 8: Sources and Sinks

  • Sources and Sinks
  • Text IO and File IO
  • BigQuery IO
  • PubSub IO
  • Kafka IO
  • Bigtable IO
  • Avro IO
  • Splittable DoFn

Module 9: Schemas

  • Beam Schemas
  • Code Examples

Module 10: State and Timers

  • State API
  • Timer API

Module 11: Best Practices

  • Schemas
  • Handling unprocessable Data
  • Error Handling
  • AutoValue Code Generator
  • JSON Data Handling
  • Utilize DoFn Lifecycle
  • Pipeline Optimizations

Module 12: Dataflow SQL and DataFrames

  • Dataflow and Beam SQL
  • Windowing in SQL
  • Beam DataFrames

Module 13: Beam Notebooks

  • Beam Notebooks

Module 14: Monitoring

  • Job List
  • Job Info
  • Job Graph
  • Job Metrics
  • Metrics Explorer

Module 15: Logging and Error Reporting

  • Logging
  • Error Reporting

Module 16: Troubleshooting and Debug

  • Troubleshooting Workflow
  • Types of Troubles

Module 17: Performance

  • Pipeline Design
  • Data Shape
  • Source, Sinks, and External Systems
  • Shuffle and Streaming Engine

Module 18: Testing and CI/CD

  • Testing and CI/CD Overview
  • Unit Testing
  • Integration Testing
  • Artifact Building
  • Deployment

Module 19: Reliability

  • Introduction to Reliability
  • Monitoring
  • Geolocation
  • Disaster Recovery
  • High Availability

Module 20: Flex Templates

  • Classic Templates
  • Flex Templates
  • Using Flex Templates
  • Google-provided Templates

Tipologia

Corso di Formazione con Docente

Docenti

I docenti sono Istruttori accreditati Google Cloud e certificati in altre tecnologie IT, con anni di esperienza pratica nel settore e nella Formazione.

Infrastruttura laboratoriale

Per tutte le tipologie di erogazione, il Corsista può accedere alle attrezzature e ai sistemi presenti nei Nostri laboratori o direttamente presso i data center del Vendor o dei suoi provider autorizzati in modalità remota h24. Ogni partecipante dispone di un accesso per implementare le varie configurazioni avendo così un riscontro pratico e immediato della teoria affrontata. Ecco di seguito alcuni scenari tratti dalle attività laboratoriali:

Corso Serverless Data Processing with Dataflow

Dettagli del corso

Prerequisiti

Si consiglia la partecipazione al Corso Data Engineering on Google Cloud.

Durata del corso

  • Durata Intensiva 3gg;

Frequenza

Varie tipologie di Frequenza Estensiva ed Intensiva.

Date del corso

  • Corso Serverless Data Processing with Dataflow (Formula Intensiva) – Su richiesta – 9:00 – 17:00

Modalità di iscrizione

Le iscrizioni sono a numero chiuso per garantire ai tutti i partecipanti un servizio eccellente.
L’iscrizione avviene richiedendo di essere contattati dal seguente Link, o contattando la sede al numero verde 800-177596 o inviando una richiesta all’email [email protected].