Anno accademico 2023-2024

FONDAMENTI DI SCIENZA DEI DATI E LABORATORIO

Docenti

Eddy Maddalena
Francesca Da Ros
Anno di corso
1
Totale crediti
6
Periodo didattico
Secondo Periodo
Tipologia
Caratterizzante
Prerequisiti. Basi di programmazione e statistica descrittiva.
Metodi didattici. Il corso è una sequenza di unità didattiche. Ogni unità didattica ha tre componenti:

1. una breve spiegazione;

2. un esercizio da risolvere;

3. la soluzione dell’esercizio.

Verranno proposte alcune challenge su specifici casi di studio.

Complessivamente, le ore dedicate allo svolgimento degli esercizi e alle challenge corrispondono a circa 12 ore di laboratorio.

Il corso termina con un esame finale.

Modalità di verifica. Alla fine del corso, gli studenti devono svolgere l’esame che si compone di una presentazione di un progetto individuale e da una serie di domande di teoria. Il progetto consiste in una significativa sfida di data science su un dataset a scelta dallo studente. Ogni studente svolge il proprio progetto individualmente utilizzando metodi, linguaggi e strumenti software visti durante il corso. La valutazione finale tiene conto sia del grado di conoscenza delle nozioni teoriche apprese, sia della qualità del progetto svolto e della sua presentazione. La presentazione è aperta al pubblico e tutti gli studenti sono invitati a partecipare alle presentazioni dei colleghi.

I criteri di assegnazione del voto sono quelli stabiliti dal Corso di Studi: https://www.uniud.it/it/didattica/corsi/area-scientifica/scienze-matematiche-informatiche-multimediali-fisiche/laurea/informatica/studiare/criteri.pdf

Obiettivi formativi
In questo corso imparerai come organizzare, trasformare, analizzare e visualizzare piccoli e grandi dati, nonché come comunicare efficacemente i risultati del flusso di lavoro.

Conoscenza e capacità di comprensione: lo studente deve aver acquisito le conoscenze necessarie per importare, normalizzare, trasformare, visualizzare e modellare i dati e comunicare i risultati dell’analisi. Il metodo si concentrerà principalmente sui dati relazionali, anche se saranno trattati anche dati semi-strutturati e non strutturati.

Conoscenza e comprensione applicate: lo studente deve aver imparato l’ambiente R e RStudio per l’analisi e la visualizzazione dei dati, nonché il linguaggio R markdown per la comunicazione dei risultati dell’analisi.

Autonomia di giudizio: lo studente deve essere in grado di interpretare i risultati sperimentali dell’analisi e trarre conclusioni efficaci pertinenti al dominio del discorso.

Abilità comunicative: lo studente deve essere in grado di comunicare efficacemente i risultati dell’analisi. Ciò include sia la comunicazione da analista ad analista sia la comunicazione da analista a decisore.

Capacità di apprendimento: lo studente deve dimostrare di aver appreso la capacità di scegliere una serie di dati sufficientemente ricca, analizzare i dati per estrarre informazioni significative, disegnare e comunicare conclusioni.

Contenuti
Il corso introduce i concetti fondamentali della scienza dei dati. Dopo una parte introduttiva si focalizza sulle sei fasi del flusso della scienza dei dati: importazioni, normalizzazione, trasformazione, visualizzazione, modellazione e comunicazione. Ciascuna fase viene trattata singolarmente con esempi esplicativi. Successivamente, il corso tratta applicazioni tipiche di scienza dei dati, come le serie temporali, l’elaborazione automatica del linguaggio naturale e la trattazione dati geografici.
Testi di riferimento
– Slides del corso

– Python Data Science Handbook. Jake VanderPlas. O’Reilly.

– Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython (2nd Edition). William McKinney. O’Reilly.