Anno accademico 2022-2023

ADVANCED DATABASE SYSTEMS FOR BIG DATA

Docenti

Dario Della Monica
Totale crediti
6
Periodo didattico
Secondo Periodo
Tipologia
Caratterizzante
Prerequisiti. È richiesta conoscenza di basi di dati relazionali centralizzate; inoltre, è auspicabile possedere conoscenze di base di programmazione, algoritmi e strutture dati, logica e statistica.
Metodi didattici. Le lezioni sono principalmente frontali. Gli studenti impareranno anche come scaricare, installare e avviare per la prima volta alcuni applicative software.
Modalità di verifica. L’esame consiste di uno scritto e, eventualment,e un orale.
Altre informazioni. Altre letture suggerite:

– PostgreSQL: Up and Running (3rd Edition), Regina Obe and Leo Hsu, O’Reilly Media, 2017

– An Introduction to XML and Web Technologies, Anders Møller and Michael I. Schwartzbach, Addison-Wesley, 2006

– Building the Data Warehouse (4th Edition), W. I. Immon, Wiley Publishing, 2005

– Big Data: A Very Short Introduction, Dawn Holmes, Oxford, 2017

– The Design and Implementation of Modern Colum-Oriented Database Systems, Daniel Abadi, Peter Boncz, Stavros Harizopoulos, Stratos Idreos, Samuel Madden, 2013

– What’s Really New with NewSQL?, A. Pavlo and M. Aslett, ACM SIGMOD Record, Vol. 45, No. 2, pages 45-55, June 2016

– Column-Oriented Database Systems (slides), Stavros Harizopoulos, Daniel Abadi, and Peter Boncz, VLDB 2009 Tutorial, http://nms.csail.mit.edu/~stavros/pubs/tutorial2009-column_stores.pdf

– Graph Databases (2nd Edition), Ian Robinson, Jim Webber, and Emil Eifrem, O’Reilly Media, 2015

– Big Data Management and NoSQL Databases – Lecture 7. Column-family stores (slides), Irena Holubova, https://www.ksi.mff.cuni.cz/~svoboda/courses/2015-1-NDBI040/lectures/Lecture-07-Column.pdf

– Tutorial by Jeffrey Heer on Text Visualization (CSR 512 – Data Visualization), University of Washington

– Introduction to Time Series Mining (slides), Keogh Eamonn

– Temporal Data Mining, Theophano Mitsa, Taylor & Francis Ltd, 2010

– Apache Hadoop Online Documentation, Pig Latin Basics, https://pig.apache.org/docs/latest/basic.html

– Hadoop Platform and Application Framework – Tutorial offered on Coursera by the University of California San Diego

– MongoDB 4 Quick Start Guide, Doug Bierer, Packt Publishing Ltd, 2018

– Mastering MongoDB 3.x, Alex Giamas, Packt Publishing, 2017

– MongoDB Architecture Guide, MongoDB, Inc., http://s3.amazonaws.com/info-mongodb-com/MongoDB_Architecture_Guide.pdf

– MongoDB Data Modeling, Wilson da Rocha França, Packt Publishing Ltd, 2015

Obiettivi formativi
Obiettivo del corso è l’acquisizione do conoscenze approfondite su tematiche avanzate riguardanti la gestione del dato nell’ambito del paradigm relazionale (tecniche avanzate di ottimizzazione per il processamento delle query, basi di date distribuite).

Inoltre, obiettivo del corso è fornire competenze su tecniche e strumenti per analisi e gestione dei big data, con particolare attenzione a data warehousing, data mining e alter tecniche per la gestione dei big data, come il paradigma MapReduce, le serie temporali e l’analisi del testo.

Alla fine del corso, lo studente sarà capace di valutare le performance di una base di dati, avrà appreso concetti e metodologie per la realizzazione e configurazione di una base di dati distribuita e per l’analisi di big data.

Per ulteriori informazioni si rimanda al syllabus in inglese.

Contenuti
Si ricorda che il corso viene tenuto in lingua inglese.

Gli student impareranno le tecniche avanzate di processamento delle query per basi di dati relazionali. Si tratteranno anche elementi di base delle basi di dati distribuite, che giocano un ruolo fondamentale nella gestione dei big data.

Data analysis and big data.

Gli studenti impareranno i principali strumenti e tecniche per l’analisi dei dati e la gestione dei big data, con particolare attenzione a casi pratici, data warehousing, paradigma MapReduce, serie temporali e analisi del testo.

Testi di riferimento
– Fundamentals of Database Systems (7th Edition), Elmasri and Navathe, Pearson, 2016

– Database System Concepts (7th Edition), Silberschatz, Korth, and Sudarshan, McGraw-Hill, 2020

– Readings in Database Systems (online, http://www.redbook.io)

– Principles of Distributed Database Systems (3rd Edition), Özsu and Valduriez, Springer, 2011

– Data Warehouse Systems – Design and Implementation, A. Vaisman, E. Zimányi, Springer, 2014

– Business Analytics: A Contemporary Approach, Thomas Jackson, Steven Lockwood, WHSmith, 2018

– SQL & NoSQL Databases – Models, Languages, Consistency Options and Architectures for Big Data Management, Andreas Meier, Michael Kaufmann, Springer, 2019

– Text Mining: Concepts, Implementation, and Big Data Challenge (1st Edition), Taeho Jo, Springer, 2019

– Temporal Data Mining, Theophano Mitsa, CRC Press, 2010.

– Hadoop: The Definitive Guide (4th Edition), Tom White, O’Reilly, 2015.

– The MongoDB 4.2 Manual, MongoDB, Inc., https://docs.mongodb.com/manual/