Corso Data Scientist con Python
Strettamente correlati ai Big Data, troviamo il tema del Data Science e la figura professionale del Data Scientist.
La figura del Data Scientist è multidisciplinare, orientata a creare algoritmi matematico-statistici per interpretare ed analizzare i dati. Gli scenari di analisi principali sono per il business. Il lavoro del Data Scientist permette alle aziende di creare vantaggi competitivi sul mercato.
I dati oggetto di analisi sono tantissimi (BIG DATA), non sono strutturati ed hanno origini disparate.
La figura del Data Scientist è oggi richiestissima specialmente dalle multinazionali. E’ stata definita la “professione più sexy del 21esimo secolo” da Hal Varian, Chief Economist di Google in una intervista al New York Times.
Gli strumenti principali utilizzati nella Data Science sono il linguaggio Python con alcune sue librerie.
Il Data Scientist lavora nel settore dell’Information Technology.
Obiettivi del Corso Data Science con Python: formare lo studente con conoscenze basi e tecniche per l’analisi dei dati (Data Scientist) utilizzando il linguaggio di programmazione Python
Requisiti per i discenti: laureandi o laureati in matematica, statistica, informatica o ingegneria con attitudine all’analisi dei dati. Consigliate conoscenze basi di programmazione in Python (in caso lo studente non avesse le basi consigliamo prima di seguire il Corso Python)
Corso Data Scientist con Python erogato solo su richiesta e per le aziende, anche in modalità online virtual classroom.
Vuoi essere ricontattato?
Lasciaci il tuo numero telefonico e la tua email, ti richiameremo nelle 24h:
PROGRAMMA (40 ore):
Numpy e calcolo numerico vettoriale
- Introduzione al calcolo vettoriale
- Importanza di Numpy nell’ecosistema Python
- Concetto di vettore multidimensionale e proprietà di base
- Operazioni aritmetiche e broadcasting
- Operazioni scalari
- Operazioni matriciali
- Indexing e slicing
- Operazioni di riduzione
- reshaping
- Operazioni di aggregazione e suddivisione
Pandas e la gestione dei dati strutturati
- DataFrame e Series
- Proprietà di base
- Concetto di indice
- indexing
- Iterazione
- Trasformazioni
- Visualizzazioni
- Operazioni di unione di dataframe
- Trattamento dei dati mancanti
- Raggruppamento
- Finestre mobili
- Operazioni sulle stringhe
- Operazioni sulle date
- Trasformazioni
- Importazione ed esportazione
Librerie grafiche di Python
- Matplotlib
- Architettura (figure, axes, plots)
- Plot di base (line, scatter, bar, histogram)
- Personalizzazione (colori, stili, legenda, assi)
- Subplot e layout
- Plot specializzati (boxplot, violin plot, errorbar)
- Salvataggio e formati di output
- Integrazione con numpy e pandas
- Seaborn
- Relazione con matplotlib
- Plot statistici
- distplot e histplot
- boxplot e violinplot
- jointplot e pairplot
- Plot categorici
- barplot e countplot
- stripplot e swarmplot
- Plot di regressione
- regplot e lmplot
- Plot di correlazione (heatmap)
- Personalizzazione dei temi
- FacetGrid per visualizzazioni multiple
- Plotly
- Plotly Express
- Grafici interattivi
- Plot di base
- scatter e line
- bar e histogram
Scikit-Learn per il Machine Learning in Python
- Predittori e Transformer, struttura della libreria
- Splitting e cross-validation
- Pipelines
- FeatureUnion e ColumnTransformer
- TransformedTargetRegressor
- Model selection (Scikit-learn vs Optuna)
- Grid-Search
- Random-Search
- Bayesian-Search
Concetti di Machine Learning
- Machine Learning, Deep Learning e AI
- Dataset, features e label
- Training, validation e test set
- Funzioni di costo
- Metodi di validazione
- k-fold
- Leave-one-out
- stratificata
- per gruppi
- Metodi di regolarizzazione
- Metodi normalizzazione
- Algoritmi di codifica
- one-hot
- target-encoding
- Gestione dei dati mancanti
- Metriche di classificazione e regressione
- Accuracy
- Precision
- Recall
- Confusion Matrix
- ROC e AUC
- MSE
- MAE
- MAPE
Algoritmi di Machine Learning
- Regressione lineare
- variabili numeriche, categoriche (nominali e ordinali)
- Regolarizzazione L1 e L2
- Features polinomiali
- collinearità
- Regressione logistica
- K-nearest-neighbours
- KD-Ttrees
- Ball-trees
- Naive-Bayes
- SVM
- Alberi decisionali
- Misure di impurità (Gini, Entropia, Varianza)
- PCA
- Algoritmi di ensembling
- Bagging
- Boosting
- Random Forest
- LightGBM
- XGBoost
- Clustering cenni