Anno accademico 2021-2022

WEB INFORMATION RETRIEVAL

Docenti

Stefano Mizzaro
Totale crediti
6
Periodo didattico
Secondo Periodo
Tipologia
Affine/Integrativa
Prerequisiti. Conoscenze di base di Programmazione, Algoritmi e strutture dati, Tecnologie Web, Algebra lineare, Probabilità.
Metodi didattici. Lezioni frontali e seminari tematici specifici. La trattazione non sarà né formale né eccessivamente pratica, ma soprattutto concettuale.
Modalità di verifica. Orale ed attività extra opzionale (seminario, approfondimento, ecc.) su un argomento specifico da concordare con il docente. Il corso sarà in inglese, così come l’esame (su richiesta). È possibile su richiesta sostenere l’esame con il programma di una delle annualità passate.
Altre informazioni. Il corso è tenuto in lingua inglese. Il materiale a supporto della didattica (slide ed altro) verrà fornito tramite la piattaforma e-learning moodle durante il corso
Obiettivi formativi
https://www.uniud.it/it/didattica/info-didattiche/regolamento-didattico-del-corso/LM-informatica/all-B2
Contenuti
L’information Retrieval (IR) è una disciplina che è importante storicamente e che ha ricevuto un forte impulso in seguito all’avvento del Web. Il corso mira a presentare gli aspetti concettualmente più importanti dei sistemi d’IR, con particolare attenzione ai motori di ricerca sul Web.

Programma esteso:

* IR classico:

– i modelli formali dell’IR (Booleano, spazio vettoriale, probabilistico e varianti quali BM25, Language models);

– la struttura di un indice invertito (aspetti di base, compressione);

– le interfacce utente per l’IR (classificazione, rassegna);

– la classificazione (definizione, classificatori naive di Bayes);

– il clustering (algoritmi gerarchici e approssimati);

– valutazione (fondamenti, metodologie, metriche; aspetti di ricerca).

* Web IR:

– il grafo del Web (dimensioni e forma: reti piccolo mondo, a invariata di scala, forma a papillon);

– l’analisi dei link per il ranking a altre applicazioni (PageRank, HITS, varianti);

– il crawling (concetti e architettura);

– spam (cenni);

– architettura di un motore di ricerca (cenni).

* Casi di studio e approfondimenti.

Testi di riferimento
* R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, 2a edizione, 2011

* C. D. Manning, P. Raghavan e H. Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. http://nlp.stanford.edu/IR-book/

* B. Croft, D. Metzler, T. Strohman. Information retrieval in practice, Addison Wesley, 2009

* Altri testi e materiale segnalato a lezione