Anno accademico 2022-2023

ADVANCED DATA SCIENCE

Docenti

Dario Fasino
Domenico Freni
Totale crediti
9
Periodo didattico
Secondo Periodo
Tipologia
Caratterizzante
Prerequisiti. Elementi base di statistica e algebra lineare
Metodi didattici. Le lezioni saranno teoriche ma con una cospicua parte di laboratorio. La parte di laboratorio è mirata all’acquisizione dei linguaggi e strumenti software mediante casi di studio.
Modalità di verifica. L’esame consiste in un progetto e in una prova orale. Il progetto deve essere svolto individualmente su un argomento scelto dallo studente. Il progetto deve utilizzare i metodi, i linguaggi e gli strumenti software visti durante il corso (non necessariamente tutti, ma la gran parte) in modo integrato e fluido. Il progetto deve essere documentato in una relazione che descrive gli obiettivi, le analisi e i risultati ottenuti. La prova orale verte sulla presentazione del progetto da parte dello studente e su alcune domande mirate di teoria.
Altre informazioni. Nessuna
Obiettivi formativi
* lo studente dovrà aver acquisito le conoscenze necessarie per analizzare e visualizzare dati di tipo strutturato (tabelle e reti) e di tipo testo libero

* lo studente dovrà aver appreso almeno un software per l’analisi e la visualizzazione di dati in special modo per le reti e il testo

* lo studente dovrà essere in grado di interpretare i risultati sperimentali e trarre conclusioni attinenti al dominio del discorso

* lo studente dovrà essere in grado di comunicare in modo efficace i risultati di una analisi sperimentale

Contenuti
Gran parte delle attività economiche moderne non potrebbero aver luogo senza i dati, che quindi rappresentano fattori essenziali della produzione come i macchinari e le persone. L’uso efficace dei dati, la loro analisi e visualizzazione allo scopo di estrarne informazione e conoscenza, ha il potenziale per trasformare le economie, offrendo una nuova ondata di crescita della produttività e maggior tempo libero per le persone. I dati possono svolgere un ruolo economico significativo a vantaggio non solo del commercio privato, ma anche delle economie nazionali e dei loro cittadini, in particolare nel settore dell’assistenza sanitaria, dell’amministrazione pubblica, e nella soluzione di problemi globali del nostro pianeta.

Nel corso affronteremo l’analisi e la visualizzazione di dati nel linguaggio R, in particolare gli argomenti trattati includono:

1. introduzione a R

2. introduzione al flusso dell’analisi dei dati: importazione, normalizzazione, trasformazione, visualizzazione, modellizzazione e comunicazione

3. la scienza delle reti: centralità e potere, similarità, comunità, resilienza, distanze e piccolo mondo, leggi di potenza e reti ad invarianza di scala

4. analisi del testo: frequenza delle parole e dei documenti, analisi dei sentimenti, n-grammi e co-apparizione di termini, topic modeling

5. blockchain

Testi di riferimento
R for Data Science, Hadley Wickham and Garrett Grolemund

Networks, Mark Newman

Networks, crowds and markets, David Easley and Jon Kleinberg