Cos’è Hadoop?

Cos’è Hadoop? Se siete atterrati qui sicuramente cercavate risposte a questa domanda.

Rispondiamo subito, sapendo che il lettore medio sia uno sviluppatore software. Se non lo siete non preoccupatevi. Proveremo comunque a trattare l’argomento in maniera concisa senza approfondire l’ambito tecnico. Tuttavia alcuni tecnicismi non potremo evitarli.

Cominciamo con l’introdurre il concetto di Big Data, strettamente legato alla tecnologia Hadoop.

Oggi, grazie ad internet, abbiamo in giro nel mondo circa 2.5 bilioni di gigabyte di dati la cui provenienza è allucinante.

In particolare i telefoni cellulari sono i primi dispositivi che generano la maggioranza dei dati (basi pensare ai 5 milioni di smartphone presenti nel mondo).

Su Youtube ogni minuto vengono caricati circa 48 ore di video. I social network come Facebook e Twitter catturano fino a 10 TeraByte di dati al giorno. Il settore dell IOT (internet of things) crea milioni di dati con circa 30 milioni di sensori sparsi nel mondo.

In generale esistono tre tipologie di dati:

  1. Strutturati: dati organizzati in formato tabelle e individuati nei database (es. MySQL)
  2. Semi-Strutturati: dati che non hanno un data format formale (es. XML)
  3. Non-Strutturati: dati che non possiedono alcun tipo di modello (es. messaggi di testo)

I Big Data riassumono proprio tutta questa vastità di dati, disorganizzati e non strutturati.

Perchè gestire i Big Data?

La risposta deriva dai dati non strutturati che ricoprono quasi l’80% del totale. Ma i dati non strutturati sono molto più difficili da analizzare e da organizzare. I dati non strutturati sono quelli con maggior “valore nascosto” o “dormienti”. Solo con l’organizzazione dei dati è possibile scovare le pontezialità e il riuso commerciale degli stessi.

In poche parole, sono i dati che “generano denaro” se questi vengono analizzati e sfruttati nella maniera più appropriata. Le fonti da cui provengono i Big Data sono:

  • Web logs
  • Sensori
  • Social Media
  • Pagine Internet e Documenti Web
  • Chiavi di Ricerca sul Web
  • Ricerche Scientifiche, Astronomiche, Biomedicali e Medicali
  • Fotografie
  • Rilievi Geografici e Militari

Inoltre l’aumento continuo dei dati necessita un repentino miglioramento dell’efficienza dei processi che allo stesso tempo devono essere sempre più veloci.

Perchè i Big Data sono cosi importanti per le aziende? Perchè permette di:

  • gestire l’efficienza dei processi aziendali
  • analizzare tutti i tipi di dati (strutturati e non) per tranne vantaggi economici
  • monitorare in tempo reale l’andamento dei processi aziendali ed intervenire con le correzioni
  • integrare i dati con i sistemi software interni (es. ERP e gestionali) per ottimizzare i costi/benefici

Il team IT aziendale deve sfruttare la migliore tecnologia per:

  • comprendere i dati e navigare tra le risorse dei Big Data
  • gestire il salvataggio dei dati di alto volume e di grande varietà
  • processare i dati e caricarli nel minor tempo possibile
  • analizzare specialmente i dati non strutturati
  • supportare le eccezioni e correggere gli errori

La principale tecnologia per lo sviluppo con i Big Data è proprio Hadoop. Hadoop viene utilizzato nei settori più disparati: automotive, servizi finanziari e banche, ricerca, servizi online e social media, oil e gas, retail, viaggi, difesa e servizi legali.

Dopo questa introduzione rispodiamo alla domanda: cos’è Hadoop?

Hadoop è un framework java-based che supporta il processo dei dati di larga scala in un ambiente di calcolo distribuito. Hadoop è open-source ed è basato sul GFS (Google File System)

Perchè utilizzare Hadoop? Perchè permette di far girare applicazioni con nodi grandi petabytes di dati.

Hadoop ha un distribuited file system chiamato HDFS che abilita il veloce trasferimento dati tra i nodi. (come nodo si intende qualunque dispositivo hardware in grado di comunicare con altri dispositivi nella rete. Può essere un computer o altro hardware)

Per lavorare su Apache Hadoop sono necessarie basi di Java, per cui si tratta di tecnologie per sviluppatori.

Storicamente Hadoop nasce da un primo progetto del 2005 come Nutch open source project. Yahoo inizia ad usare Hadoop nel 2007 e nel 2008 viene testato da Apache. Nel Dicembre 2011 viene rilasciata la versione Hadoop 1.0 che ci fa comprendere come sia una tecnologia molto recente.

Un’elemento fondamentale di Hadoop è Mapreduce: consiste in un pattern per l’elaborazione distribuita per l’elevata mole di dati.

Attualmente sono tantissime le aziende che hanno implementato Hadoop nei loro sistemi. A partire da Yahoo, utilizzano Hadoop anche Amazon, Facebook, Google, JP Morgan, le istutuzioni governative USA e molte altre.

Le principali caratteristiche di Hadoop sono:

  • affiddabilità
  • scalabilità
  • agilità
  • flessibilità

Hadoop è scalabile semplicemente aggiungendo nodi al cluster di esercizio; i dati delle colonne sono estratti durante la fase di lettura; i nuovi dati possono essere aggiunti ed estratti in qualsiasi momento; i dati vengono copiati nel File System senza alcuna trasformazione (Schema On Read).

Proprio per tutte questa caratteristiche Hadoop va a soppiantare il “classico” RDBMS (Relational Database management System).

 

Innovaformazione, scuola di formazione IT specialistica promuove la cultura informatica e delle nuove tecnologie.

Attiviamo on-demand il Corso Big Data con Hadoop e Spark.

Contatti: info@innovaformazione.net – tel. 3471012275

Vuoi essere ricontattato? Lasciaci il tuo numero telefonico e la tua email, ti richiameremo nelle 24h:

    Ti potrebbe interessare

    Articoli correlati