User Avatar

Corso Big Data con Hadoop e Spark

40 ore
Qualsiasi livello

Il mondo odierno è dominato da una miriade di dati. Produciamo dati ed informazioni in ogni giorno, in ogni momento, in qualsiasi situazione  e posizione. L’avvento dei social media, delle infrastrutture dei dispositivi connessi (IoT) e dell’utilizzo degli smartphone hanno finito per creare la necessità di immagazzinare, gestire e riutilizzare questa grande mole di informazioni.

Questa moltitudine di dati è chiamata “BIG DATA” . Con essi è possibile studiare eventi di ogni tipo, creare reti sociali intelligenti ed in particolare creare nuove applicazioni di Business Intelligence.

L’immagazzinamento dei dati è destinato al continuo aumento tanto che tra pochi anni arriveremo a gestire 45 zettabytes di dati.

La vera rivoluzione sta sostanzialmente nella cattura dei dati e nella creazione di algoritmi capaci di collegare le informazioni e interpretarli per approcci fin’ora inimmaginabili e con tempi ridottissimi.

Ogni settore di business può essere interessato al riutilizzo dei BIG DATA e ognuno può avere scopi differenti.

Nell’e-commerce si riutilizzano i dati degli acquirenti per applicare i cosi detti “metodi di raccomandazione”, ovvero inviare proposte di acquisto in base ai gusti e alle precedenti transazioni. Le banche possono riutilizzare i dati dei clienti per proporre diversi tipi di investimenti, le assicurazioni possono analizzare i dati del profilo cliente per interpretare la propensione al risparmio o la capacità di rimborso del debito o del mutuo.

Alcuni esperti indicano le tecnologie di gestione dei Big Data come la “Business Intelligence” del futuro con un mercato in grandissima espansione.

I principali strumenti per lo sviluppo applicazioni con i Big Data sono Hadoop e Spark, framework opensource.

Obiettivi del Corso: formare lo studente con conoscenze basi e tecniche per lo sviluppo di progetti di importazione dati (Big Data) nel cluster Apache Hadoop e come processarli nell’ecosistema con gli appositi strumenti (Spark, Impala, Hide, Flume e Sqoop)

Requisiti per i discenti: Programmatori, laureati o diplomati in informatica con basi di programmazione in Python (in caso lo studente non avesse le basi consigliamo prima di seguire il Corso Python)

Docente Big Data Engineer con pluriennale esperienza nel settore.

Corso Big Data con Hadoop e Spark erogato solo su richiesta e per le aziende, anche in modalità online virtual classroom.

Vuoi essere ricontattato?

Lasciaci il tuo numero telefonico e la tua email, ti richiameremo nelle 24h:

    PROGRAMMA (40 ore):

    1. Introduzione ed Ecosistema
    Introduzione ad Apache Hadoop
    Panoramica Ecosistema Hadoop
    Problematiche nei sistemi di grandi dati
    Perchè Hadoop e i suoi vantaggi

    2. Architettura Hadoop e HDFS
    Introduzione ad Hadoop Distribuited File Sistem
    Distrubuzione dei processi in un cluster
    Storage:conservazione dati nell’architettura HDFS
    Utilizzo e applicazioni con HDFS
    Resource Management: Architettura YARN e utilizzi

    3. Importazioni Dati Relazionali in Apache Sqoop
    Panoramica Sqoop
    Importazioni ed Esportazioni di base
    Limitazioni dei risultati
    Come migliorare le Performance di Sqoop
    Sqoop 2

    4. Impala e Hive
    Introduzione
    Vantaggi e motivi del loro utilizzo
    Comparazione Hive con database tradizionali
    Casi di utilizzo

    5. Modellazione e Gestione dati con Impala e Hive
    Panoramica Data Storage
    Creazione database e tabelle
    Caricamento dati nelle tabelle
    Hcatalog
    Catching Impala Metadati

    6. Data Format
    Selezione File Format
    Hadoop Tool Support File Format
    Avro Schemas
    Utilizzo Avro con Hive e Sqoop
    Avro Schema Evoluzione e Compressione

    7. Partizionamento
    Panoramica Partizionamento Dati
    Partizionamento in Impala e Hive

    8. Apache Flume: acquisizione dati
    Introduzione
    Architettura Basic Flume
    Sorgenti, Sinks, Canali
    Configurazione Flume

    9. Apache Spark
    Introduzione
    Utilizzo Spark Shell
    RDDs (Resilient Distributed Datasets)
    Programmazione funzionale in Spark

    10. RDDs in Spark
    Applicazioni RDDs con Spark
    Key-Value Pair RDDs
    MapReduce
    Operazioni RDD

    11. Scrivere e Deployare Applicazioni in Spark
    Differenza tra Spark Application e Spark Shell
    Creazione Spark Context

    Introduzione alla Programmazione in Scala e  cenni di Python
    Buildare un’ Applicazione Spark (Scala e Python)
    Esecuzione dell’Applicazione Spark
    WEB UI nell’Applicazione Spark
    Configurazione Proprietà in Spark e registrazione

    12. Programmazione Parallela con Spark
    Panoramica: Spark in un cluster
    Partizioni RDD
    Partizionamento RDD File-Based
    HDFS e Data Locality
    Esecuzioni Operazioni Parallele
    Fasi e Attività

    13. Spark Catching e Persistenza
    Lineage RDD
    Panoramica Catching
    Persistenza Distribuita

    14. Modelli comuni nell’Elaborazione Dati in Spark
    Casi d’uso comune in Spark
    Algoritmi iterativi in Spark
    Elaborazione Grafici e Analisi
    Machine Learning
    Esempio: K-Means

    15. SQL Spark
    Panoramica Spark SQL e SQL Context
    Creazione DataFrames
    Trasformazione e Interrogazione DataFrames
    Salvataggio DataFrames
    Confronto SQL Spark con Impala

    Esercitazioni durante tutto il corso

    Contattaci su Whatsapp