Corso di Ontologie e Semantic Web Introduzione all...

38
1 Corso di Ontologie e Semantic Web Introduzione all'information retrieval Stefano Montanelli Schema di riferimento Definizioni essenziali Modello booleano Modello vettoriale Valutazione Riferimenti bibliografici Cos’è l’Information Retrieval? “Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information” (Salton, 1968) “Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers)” (Manning et al., 2009) Ontologie e web semantico 2

Transcript of Corso di Ontologie e Semantic Web Introduzione all...

Page 1: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

1

Corso di Ontologie e Semantic Web

Introduzione all'informationretrievalStefano Montanelli

Schema di riferimento Definizioni essenziali Modello booleano Modello vettoriale Valutazione Riferimenti bibliografici

Cos’è l’Information Retrieval?

• “Information retrieval is a field concernedwith the structure, analysis, organization, storage,searching, and retrieval of information”

(Salton, 1968)• “Information retrieval (IR) is finding material (usually

documents) of an unstructured nature (usually text)that satisfies an information need from within largecollections (usually stored on computers)”

(Manning et al., 2009)

Ontologie e web semantico 2

Page 2: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

2

Cos’è l’Information Retrieval?

• “Information retrieval (IR) is concerned withrepresenting, searching, and manipulating largecollections of electronic text and other human-language data”

(Büttcher et al., 2010)• “Information retrieval (lett. recupero d’informazioni)

è l'insieme delle tecniche utilizzate per il recuperomirato dell’informazione in formato elettronico”

(Wikipedia, 2012)

Ontologie e web semantico 3

Information vs. data retrieval

• Avere accesso a numerose informazionirende difficile selezionare quelle che servono nelmomento in cui servono

• I sistemi di IR sono ampiamente diffusi, ma nonbisogna confondere Information Retrieval con DataRetrieval

– Trovare su web le pagine che trattano di basi di dati– Trovare le email ricevute da Stefano Montanelli nel mese di

febbraio 2012– Trovare i documenti sul PC che riguardano il corso di ontologie e

web semantico

Ontologie e web semantico 4

Page 3: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

3

Schema di un sistema di IR

Il processo di indicizzazione (indexing)

Ontologie e web semantico 5

acquisizioneweb pages,

emails,letters,news

archiviodocumenti

trasformazionetesto

creazioneindice

indiceclassificazione(ranking)

Schema di un sistema di IR

Il processo di interrogazione (query)

Ontologie e web semantico 6

elaborazioneinterrogazione

archiviodocumenti

valutazione

indice

classificazione(ranking)

utente finale

dati di log

Page 4: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

4

Reperimento delle informazioni

• Il procedimento di ricerca delle informazioni in unsistema di IR segue il seguente schema:

1. L’utente esprime il proprio bisogno informativo medianteun’interrogazione

2. L’interrogazione viene inviata al sistema di IR(trasformazione)

3. L’indice fornisce i documenti rilevanti rispettoall’interrogazione

Ontologie e web semantico 7

Reperimento delle informazioni

• Il procedimento di ricerca delle informazioni in unsistema di IR segue il seguente schema:

4. (I documenti vengono ordinati rispetto alla presuntarilevanza per l’utente)

5. I documenti vengono restituiti all‘utente6. L’utente valuta il risultato ed eventualmente raffina la

ricerca dando vita a una nuova interrogazione

Ontologie e web semantico 8

Page 5: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

5

Definizioni essenziali

• Bisogno informativoE' l'argomento su cui l'utente vuole reperireinformazioni

• InterrogazioneE' il mezzo che il sistema di IR offre all'utente percomunicare il proprio bisogno informativo

• Collezione (o corpus)E’ l’insieme dei documenti su cui vengono eseguitele operazioni di reperimento

Ontologie e web semantico 9

Definizioni essenziali

• DocumentoE’ l’unità informativa considerata dalle operazioni direperimento (e costituisce un elemento del risultatodi un'interrogazione)

• Termine (può non essere una parola)E’ l’unità lessicale di cui sono costituiti i documenti

• Dizionario (dei termini) o vocabolarioE’ l'insieme di tutti i termini che compaiono in uncorpus

Ontologie e web semantico 10

Page 6: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

6

Definizioni essenziali

• Posting list (lista di corrispondenza)E’ la struttura dati che memorizza la corrispondenzatra un termine e i documenti in cui esso appare

• Indice (invertito)E' la struttura dati che consente di reperire in modoefficiente le liste di corrispondenza rilevanti perl'interrogazione

Ontologie e web semantico 11

Corso di Ontologie e Semantic Web

Il sistema booleano

Page 7: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

7

• Il modello booleano di IR è caratterizzatodall’uso di interrogazioni espresse mediantepredicati booleani

• Un predicato booleano è costituito da un elencodi termini connessi mediante operatori booleani(AND, OR, NOT)

• Un documento è restituito nel risultatodell’interrogazione se e solo se soddisfa ilpredicato booleano

Definizione di modello booleano

13Ontologie e web semantico

• Trasformazione del testo: si costruisce ildizionario dei termini a partire dal contenuto deidocumenti

• Creazione indice: si costruisce una matrice diincidenza in cui memorizzare le corrispondenzetermine-documento

• Classificazione: è assente nel modello booleano

Processo di indicizzazione

14Ontologie e web semantico

Page 8: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

8

• Formulazione dell'interrogazione• Elaborazione dell'interrogazione:

– Si estraggono i termini richiesti dal predicato booleano– Si confrontano con l'indice– Si valuta il valore di verità del predicato booleano– Si restituisce il risultato

• Valutazione: è banale. Il sistema restituisce tutti idocumenti che soddisfano il predicato booleano

Processo di interrogazione

15Ontologie e web semantico

Trasformazione del testo

16

Faticò ad essere compreso daicontemporanei a causa delsuo stile essenziale einconfondibile ma riuscìugualmente a lasciare unsegno indelebile nei movimentisuccessivi, come il Cubismo eil Surrealismo. Paul Cézanne èprotagonista di una grandeantologica a Palazzo Reale: inmostra oltre quaranta tele,dalle prime opere ai ritratti,passando per i paesaggi e lenature morte, per arrivare…

Mostra Cézanne, Milano (docID: 1)contemporanei, stile,essenziale, inconfondibile,segno, indelebile, movimenti,cubismo, surrealismo, paul,cézanne, protagonista,antologica, palazzo, reale,mostra, tele, opere, ritratti,paesaggi, nature, morte, …

Ontologie e web semantico

Page 9: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

9

Trasformazione del testo

17

Il Castello Visconteo di Pavia èla cornice della grande mostraLa pittura italiana del XIXsecolo. In esposizione 70 teleprovenienti dalle piùprestigiose collezioni nazionalie firmate da artisti comeFrancesco Hayez e GiovanniBoldini. Un percorso che vadal Neoclassicismo alSimbolismo e che testimoniala ricchezza e la varietàdell'arte figurativa italianadell'Ottocento

La pittura italiana del XIX secolo, Pavia (docID: 2)castello, visconteo, pavia,cornice, mostra, pittura,italiana, XIX, secolo,esposizione, 70, tele,collezioni, nazionali, artisti,francesco, hayez, giovanni,boldini, percorso,neoclassicismo, simbolismo,ricchezza, varietà, arte,italiana, ottocento.

Ontologie e web semantico

Trasformazione del testo

18

Fulvio Di Piazza, MarcoMazzoni e Nicola Verlato: treartisti per un viaggio allascoperta del concetto diNatura, alla FondazioneStelline fino al 25 febbraio. Inmostra venticinque operestoriche e inedite checonducono il visitatore in ununiverso vitale e pulsante,sospeso tra atmosfere surrealie suggestioni contemporanee

Mostra La natura squisita, Milano (docID: 3)fulvio, piazza, marco, mazzoni,nicola, verlato, artisti, viaggio,scoperta, concetto, natura,fondazione, stelline, febbraio,mostra, venticinque, opere,storiche, inedite, visitatore,universo, vitale, pulsante,sospeso, atmosfere, surreali,suggestioni, contemporanee

Ontologie e web semantico

Page 10: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

10

Termine docID:1 docID: 2 docID: 3Cubismo 1 0 0Surrealismo 1 0 1Cezanne 1 0 0Opere 1 0 1Tele 1 1 0Mostra 1 1 1Pittura 0 1 0Italiana 0 1 0artisti 0 1 1Fondazione 0 0 1Natura 1 0 1…

Creazione dell'indice

19

Matrice diincidenza

Ontologie e web semantico

Formulazione dell'interrogazione

20

Mostra AND Opere AND (NOT Cezanne)

Eventi di mostre relative a opere adeccezione di quelle di Cezanne

predicato booleano

bisogno informativo

Ontologie e web semantico

Page 11: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

11

Elaborazione dell'interrogazione

21

Termine docID:1 docID: 2 docID: 3Cubismo 1 0 0Surrealismo 1 0 1Cezanne 1 0 0Opere 1 0 1Tele 1 1 0Mostra 1 1 1Pittura 0 1 0Italiana 0 1 0artisti 0 1 1Fondazione 0 0 1Nature 1 0 1…

1

23

Ontologie e web semantico

Elaborazione dell'interrogazione

22

Termine docID:1 docID: 2 docID: 3Cezanne 1 0 0Opere 1 0 1Mostra 1 1 1

NOT Cezanne 0 1 1

Opere AND (NOT Cezanne) 0 0 1

0 0 1

Mostra AND Opere AND (NOT Cezanne)

Mostra AND Opere AND (NOT Cezanne)

docID 3 è il risultato dell'interrogazione

Ontologie e web semantico

Page 12: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

12

Corso di Ontologie e Semantic Web

Il sistema vettoriale

• Il modello booleano è inadatto a sistemi diIR in cui il corpus di documenti è molto ampio– I risultati non sono ordinati per rilevanza– I risultati di una query possono essere troppo

numerosi per un utente umano• Il modello vettoriale è stato ideato per ovviare ai

limiti del modello booleano

Limiti del modello booleano

24Ontologie e web semantico

Page 13: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

13

• Il modello vettoriale si basa sul principioche la rilevanza di un documento rispetto a unaquery è misurabile su un insieme di valori piùampio rispetto al semplice Sì/No

• Caratteristiche del modello vettoriale– la rilevanza di un documento si misura sull'intervallo

continuo [0,1]– Le query degli utenti sono espresse come testo libero

(e.g., una lista di keyword, una frase)

Il modello vettoriale

25Ontologie e web semantico

• La rilevanza di un documento rispetto a unaquery viene misurata come segue– Si calcola la rilevanza di ciascuna chiave di ricerca

della query rispetto al documento– Si calcola una misura di rilevanza complessiva che

combina le misure di rilevanza di ciascuna chiave diricerca rispetto al documento considerato

Il modello vettoriale

26Ontologie e web semantico

Page 14: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

14

• Come valutare la rilevanza di una chiave diricerca k per un certo documento d?

• Comunemente, la rilevanza di k è l'importanza (opeso, weight) che la chiave di ricerca ha per d ecoincide con il numero di occorrenze di k in d

Frequenza dei termini e pesatura

27Ontologie e web semantico

• Nel modello vettoriale è necessariomemorizzare la frequenza con cui i termini daindicizzare compaiono in ciascun documento

• La frequenza del termine t nel documento d èindicata come tf(t,d)

Frequenza dei termini e pesatura

28Ontologie e web semantico

Page 15: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

15

• Considerazioni– Misurare l'importanza di un termine in un documento

basandosi esclusivamente sulla sua frequenza puòessere fuorviante

– I termini che compaiono/occorrono in un documentonon sempre hanno la medesima importanza

Frequenza dei termini e pesatura

29Ontologie e web semantico

• Esempio

Frequenza dei termini e pesatura

30

La Triennale di Milano ospita una collezione diopere di design e numerose mostretemporanee di design ed arte moderna

La Triennale, Milano (docID: 15)

Paul Cézanne è protagonista di una grandemostra antologica a Palazzo Reale: in mostraquaranta tele, dalle prime opere ai ritratti

Mostra Cézanne, Milano (docID: 1)

Il gruppo XXX vanta esperienza pluriennalenell'organizzazione di eventi e mostre di successomediante soluzioni su misura per ogni tipo di evento

Organizzazione eventi, Milano (docID: 102)

Ontologie e web semantico

Page 16: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

16

• Esempio

Frequenza dei termini e pesatura

31

triennale milano raccogliere collezione operadesign(2) numeroso mostra temporaneo artemoderno

La Triennale, Milano (docID: 15)

paul cezanne protagonista grande antologicopalazzo reale mostra(2) quaranta tela primoopera ritratto

Mostra Cézanne, Milano (docID: 1)

gruppo XXX vantare esperienza pluriennaleorganizzazione evento(2) mostra successomediante soluzione misura ogni tipo

Organizzazione eventi, Milano (docID: 102)

Ontologie e web semantico

• Esempio

Frequenza dei termini e pesatura

32

triennale milano raccogliere collezione operadesign(2) numeroso mostra temporaneo artemoderno

La Triennale, Milano (docID: 15)

paul cezanne protagonista grande antologicopalazzo reale mostra(2) quaranta tela primoopera ritratto

Mostra Cézanne, Milano (docID: 1)

gruppo XXX vantare esperienza pluriennaleorganizzazione evento(2) mostra successomediante soluzione misura ogni tipo

Organizzazione eventi, Milano (docID: 102)

Ontologie e web semantico

Page 17: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

17

• Esempio– Quali termini meglio caratterizzano il contenuto dei tre

documenti considerati?• Se ci affidiamo alla frequenza dei termini risulta che

– "Design" descrive docID15 – tf(design,docID15)=2– "Mostra" descrive docID1 – tf(mostra,docID1)=2– "Evento" descrive docID102 – tf(evento,docID102)=2

• Questo risultato può essere soddisfacente per docID15e docID102, ma non per docID1

– Il termine "Mostra" è usato in tutti e tre i documenti erisulta poco significativo per catturare il contenutospecifico di un documento

Frequenza dei termini e pesatura

33Ontologie e web semantico

• E' possibile usare una tecnica dinormalizzazione per attenuare l'effetto deitermini che occorrono molto frequentemente nelcorpus

• A tal proposito per ogni termine t introduciamo lanozione di frequenza nei documenti (documentfrequency) df(t)

• La frequenza nei documenti df(t) è il numero didocumenti in cui il termine t compare/occorre

Frequenza dei termini e pesatura

34

In alternativa, per scopi di normalizzazione, èpossibile utilizzare la nozione di frequenza nelcorpus (collection frequency) cf(t)

Ontologie e web semantico

Page 18: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

18

• La frequenza nei documenti di un termine tconsente di introdurre la nozione di frequenzainversa nei documenti (inverse documentfrequency) idf(t)

• La frequenza inversa nei documenti– premia i termini che occorrono raramente nel corpus– penalizza i termini molto frequenti

Frequenza inversa dei termini

35Ontologie e web semantico

• La frequenza inversa di un termine t èdefinita come segue

• N è il numero di documenti che appartengono alcorpus

Frequenza inversa dei termini

36Ontologie e web semantico

Page 19: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

19

• Esempio– Corpus contenente N= 150 documenti relativi a eventi

della città di Milano

– df(mostra)=121

– df(evento)=25

– df(design)=7

Frequenza inversa dei termini

37Ontologie e web semantico

• Per una più accurata misura dell'importanzadi un termine t in un documento d è possibilecombinare la frequenza tf(t,d) con la frequenzainversa idf(t) come segue

• La precedente misura è comunemente notacome tf-idf del termine t nel documento d

Importanza di un termine

38Ontologie e web semantico

Page 20: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

20

• La misura tf-idf(t,d)– È premiante (più elevata) quando il termine t occorre

molte volte in pochi documenti (per i quali t ha unabuona importanza)

– E' penalizzante (bassa) quando il termine t occorrepoche volte in pochi documenti (per i quali t ha pocaimportanza)

– E' molto penalizzante (molto bassa) quanto il termine toccorre in tutti (o quasi) i documenti

Importanza di un termine

39Ontologie e web semantico

• Esempio (basato sui documenti docID15,docID102, docID1)

• tf-idf(design,docID15) = 2 * 3.1 = 6.2• tf-idf(evento,docID102) = 2 * 1.8 = 3.6• tf-idf(mostra,docID1) = 2 * 0.2 = 0.4

Importanza di un termine

40Ontologie e web semantico

Page 21: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

21

• Nel modello vettoriale, un documento d puòessere visto come un vettore (cioè una lista) i cuielementi sono i termini che compaiono in d

• Ai fini del reperimento, ciascun termine t delvettore può essere sostituito dalla corrispondentemisura di importanza per il documento despressa mediante tf-idf(t,d)

Documenti come vettori

41

docID1=<paul;cezanne;mostra;tela;opera>

docID1=<5.2; 9.2; 0.4, 2.1; 1.9>

Ontologie e web semantico

• La rappresentazione di un documento dmediante un vettore v(d) è interessante permisurare la rilevanza del documento rispetto auna query q data

• La rilevanza di d rispetto a q è data dalla sommadei tf-idf dei termini t che appartengono a d e chesono stati inseriti nella query q

Rilevanza di un documento

42Ontologie e web semantico

Page 22: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

22

• La rilevanza (score) di un documento drispetto a una query q può essere calcolatacome segue:

Rilevanza di un documento

43Ontologie e web semantico

• E' possibile calcolare una misura piùarticolata di score(q,d) utilizzando la similaritàcosenica (cosine similarity)

• La similarità cosenica calcola score(q,d)mediante operazioni algebriche sui due vettori:– Il vettore v(d) che contiene i termini del documento d– Il vettore v(q) che contiene i termini della query q

Rilevanza di un documento

44Ontologie e web semantico

Page 23: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

23

• Si consideri un corpus di N=1000 documentie si considerino i seguenti dati:– tf(t1,d1)=5– tf(t2,d1)=3– df(t1)=115– df(t2)=25

• Quale termine fra t1 e t2 è più importante per ildocumento d1?

• Se considero la query q={t1,t2}, qual è il valore dirilevanza del documento d1 rispetto a q?

Esercizio

45Ontologie e web semantico

Corso di Ontologie e Semantic Web

Valutazione di un sistema diinformation retrieval

Page 24: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

24

Valutare un sistema di IR

• E' un tema che riguarda la definizione diopportune strategie per misurare l'efficacia delletecniche di reperimento su cui è costruito il sistemadi IR considerato

• Intuitivamente, l'obiettivo è misurare quanto ilsistema di IR è capace di restituire tutti e soli idocumenti rilevanti rispetto a un dato bisognoinformativo

Ontologie e web semantico 47

Valutare un sistema di IR

• Questioni interessanti– Gli aspetti quantitativi sono centrali: non basta restituire

tutti i documenti rilevanti, è altrettanto cruciale scartarequelli non rilevanti

– Non sempre le tecniche di reperimento sono in grado dicatturare il bisogno informativo

– Rispetto a cosa valutiamo se il risultato di una query èappropriato?

Ontologie e web semantico 48

Page 25: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

25

Valutare un sistema di IR

Esempio 1, bis.inf.A:mostre in programma a Milano presso Palazzo Reale

Ontologie e web semantico 49

Mostra Cézanne, Milano (docID: 1)

Mostra La perfezione dell'immagine, Milano (docID: 47)

Mostra Brera incontra il Pushkin, Milano (docID: 32)

Mostra Anthony James, Milano (docID: 18)

Mostra Transavanguardia, Milano (docID: 83)?

?

?

?

?

Valutare un sistema di IR

Esempio 2, bis.inf.B:mostre di arte figurativa

Ontologie e web semantico 50

Mostra Cézanne, Milano (docID: 1)

Mostra La perfezione dell'immagine, Milano (docID: 47)

Mostra Brera incontra il Pushkin, Milano (docID: 32)

Mostra Anthony James, Milano (docID: 18)

Mostra Transavanguardia, Milano (docID: 83)?

?

?

?

?

Page 26: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

26

Valutare un sistema di IR

Esempio 3, bis.inf.C:mostre di artisti eccentrici

Ontologie e web semantico 51

Mostra Cézanne, Milano (docID: 1)

Mostra La perfezione dell'immagine, Milano (docID: 47)

Mostra Brera incontra il Pushkin, Milano (docID: 32)

Mostra Anthony James, Milano (docID: 18)

Mostra Transavanguardia, Milano (docID: 83)?

?

?

?

?

Strategia di valutazione

• Componenti coinvolte nel procedimento divalutazione– Un corpus di documenti sufficientemente ampio– Una lista di bisogni informativi con relative query– Una verità aurea (ground truth o gold standard) che

distingue ciò che è vero da ciò che è falso e si assumecorretta per definizione

Ontologie e web semantico 52

Page 27: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

27

La ground truth

• E' un insieme di corrispondenze (mapping)tra documenti e query

• Ogni corrispondenza della ground truth è unmapping atteso, cioè un risultato che il sistema diIR dovrebbe restituire

• Il sistema di IR perfetto deve restituire tutti e soli imapping previsti dalla ground truth

Ontologie e web semantico 53

La ground truth

• La ground truth è definita da un utenteesperto, o una squadra di utenti esperti (esperti dicosa?!)

• L'efficacia del sistema di valutazione dipende dallescelte interpretative che i progettisti della groundtruth decidono di operare

Ontologie e web semantico 54

Page 28: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

28

La ground truth

• Esempio

Ontologie e web semantico 55

Mostra Cézanne, Milano (docID: 1)

Mostra Transavanguardia, Milano (docID: 83)

Bis.Inf.A

Bis.Inf.A

Mostra Cézanne, Milano (docID: 1)

Mostra La perfezione dell'immagine, Milano (docID: 47)

Mostra Brera incontra il Pushkin, Milano (docID: 32)

Mostra Transavanguardia, Milano (docID: 83)

Bis.Inf.B

Bis.Inf.B

Bis.Inf.B

Bis.Inf.B

Mostra Anthony James, Milano (docID: 18)

Mostra Transavanguardia, Milano (docID: 83)Bis.Inf.C

Bis.Inf.C

• Rispetto a un bisogno informativo– La ground truth distingue i documenti rilevanti da quelli

non rilevanti– Il sistema di IR restituisce nel risultato alcuni

documenti e ne scarta altri– Nello scenario migliore, i documenti rilevanti nella

ground truth coincidono con il risultato prodotto dalsistema di IRIl sistema di IR restituisce i documenti rilevanti (true positives,veri positivi) e scarta i documenti non rilevanti (true negatives,veri negativi)

Come valutare

56Ontologie e web semantico

Page 29: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

29

– Nella realtà la situazione può essere piùarticolata

– Caso 1 (false positive, falsi positivi)Il sistema di IR restituisce documenti che non sono rilevanti rispettoal bisogno informativo (in base alla ground truth)

– Caso 2 (false negative, falsi negativi)Il sistema di IR scarta documenti che sono rilevanti rispetto albisogno informativo (in base alla ground truth)

Come valutare

57Ontologie e web semantico

• Sintesi

• Falsi positivi e negativi compromettono l'efficacia delsistema di IR

• Gli strumenti di valutazione devono misurare l'entità difalsi positivi e falsi negativi per il sistema di IR

Come valutare

58

Doc. rilevanti Doc. non rilevanti

Doc. reperiti True positive (tp)Corretti e reperiti

False positive (fp)Errati ma reperiti

Doc. non reperiti False negative (fn)Corretti ma non reperiti

True negative (tn)Errati e non reperiti

Ontologie e web semantico

Page 30: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

30

• Precision (P): è il rapporto tra il numero didocumenti rilevanti reperiti dal sistema di IR e ilnumero di documenti complessivamente reperitidal medesimo

Misure di valutazione: precision

59Ontologie e web semantico

• Considerazioni– Quando P=1 siamo in presenza di un sistema di IR in

cui tutti i risultati reperiti sono corretti (fp=0)– P=1 è il miglior valore di precision– Il valore di P decresce al crescere dei falsi positivi

– La precision da sola non è sufficiente a misurarel'efficacia di un sistema di IR: i possibili falsi negativi(fn) non sono considerati

Misure di valutazione: precision

60Ontologie e web semantico

Page 31: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

31

• Esempio (Bis.Inf.B)– Scenario 1: il sistema restituisce

Misure di valutazione: precision

61

Mostra Cézanne, Milano (docID: 1)

Mostra La perfezione dell'immagine, Milano (docID: 47)

Mostra Anthony James, Milano (docID: 18)

X

Ontologie e web semantico

• Esempio (Bis.Inf.B)– Scenario 2: il sistema restituisce

Misure di valutazione: precision

62

Mostra Cézanne, Milano (docID: 1)

Ontologie e web semantico

Page 32: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

32

• Recall (R): è il rapporto tra il numero didocumenti rilevanti reperiti dal sistema di IR e ilnumero di documenti complessivamente rilevantiprevisto dalla ground truth

Misure di valutazione: recall

63Ontologie e web semantico

• Considerazioni– Quando R=1 siamo in presenza di un sistema di IR in

cui tutti i documenti rilevanti sono reperiti (fn=0)– R=1 è il miglior valore di recall– Il valore di R decresce al crescere dei falsi negativi

– La recall da sola non è sufficiente a misurarel'efficacia di un sistema di IR: i possibili falsi positivi(fp) non sono considerati

Misure di valutazione: recall

64Ontologie e web semantico

Page 33: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

33

X

• Esempio (Bis.Inf.C)– Scenario 3: il sistema restituisce

Misure di valutazione: recall

65

Mostra La perfezione dell'immagine, Milano (docID: 47)

Mostra Anthony James, Milano (docID: 18)

Ontologie e web semantico

• Esempio (Bis.Inf.C)– Scenario 4: il sistema restituisce

Misure di valutazione: recall

66

Mostra Cézanne, Milano (docID: 1)Mostra La perfezione dell'immagine, Milano (docID: 47)Mostra Brera incontra il Pushkin, Milano (docID: 32)

Mostra Anthony James, Milano (docID: 18)Mostra Transavanguardia, Milano (docID: 83)

XXX

Ontologie e web semantico

Page 34: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

34

• Precision e recall misurano aspetti diversi maegualmente importanti per un sistema di IR

• Talvolta precision è più importante di recall– e.g., navigazione su webMi interessa vedere risultati corretti, mi disinteresso dieventuali falsi negativi

• Talvolta recall è più importante di precision– e.g., indagini professionali, ricerche personali su discoMi interessa vedere il maggior numero di risultati rilevanti,anche se questo può comportare un certo numero di falsipositivi

Misure di valutazione

67Ontologie e web semantico

• Per fornire una misura di efficacia complessiva diun sistema di IR è necessario combinare i valoridi precision e recall

• E' questo l'obiettivo di F-measure• F-measure è definita come la media armonica di

precision e recall

Misure di valutazione: F-measure

68Ontologie e web semantico

Page 35: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

35

• F-measure è premiante per i sistemi di IR chehanno valori bilanciati di precision e recall

• F-measure è penalizzante per i sistemi di IR chehanno elevata precision ma scadente recall eviceversa

• Nella precedente formula di F-measure,precision e recall sono egualmente considerate

In una definizione più generale, è possibile definire F-measure dando maggiore importanza a una delle due misurein base alle necessità

Misure di valutazione: F-measure

69Ontologie e web semantico

• Esempio. Scenario 1

Misure di valutazione: F-measure

70Ontologie e web semantico

Page 36: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

36

• Esempio. Scenario 2

Misure di valutazione: F-measure

71Ontologie e web semantico

• Esempio. Scenario 3

Misure di valutazione: F-measure

72Ontologie e web semantico

Page 37: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

37

• Esempio. Scenario 4

Misure di valutazione: F-measure

73Ontologie e web semantico

• Considerazioni finali– La ground truth finora considerata non contempla un

ordinamento per rilevanza dei mapping– Nei sistemi reali sono possibili schemi di valutazione

più sofisticati• K-precision (considero solo i primi K documenti reperiti

dal sistema di IR)• R-precision (considero gli R mapping più rilevanti della

ground truth e misuro quanti di questi sono contenuti neiprimi R documenti reperiti dal sistema di IR)

Valutare un sistema di IR

74Ontologie e web semantico

Page 38: Corso di Ontologie e Semantic Web Introduzione all ...islab.di.unimi.it/ontoweb/materiale/information_retrieval.pdf · Corso di Ontologie e Semantic Web Introduzione all'information

38

• Considerazioni finali– Nel costruire la ground truth è opportuno considerare

gli effetti dei possibili duplicati e l'importanza diesprimere la cosiddetta rilevanza marginale

– La qualità percepita dagli utenti è un ulterioreelemento di valutazione di un sistema di IR anche sepiù difficile da catturare (i log di sistema risultano utiliin questo senso anche se richiedono di "riconoscere"gli utenti)

Valutare un sistema di IR

75Ontologie e web semantico

Riferimenti bibliografici

• C.D. Manning, P. Raghavan, H. Schütze,Introduction to Information Retrieval, CambridgeUniversity Press. 2008.http://nlp.stanford.edu/IR-book/information-retrieval-book.htmlCapitoli: 1, 2, 3, 6, 8

Ontologie e web semantico 76