I
Motori di Ricerca sono Sistemi di Information Retrieval (Sistemi di Recupero delle Informazioni, conosciuti anche con l'acronimo IRS). Per questa ragione
ai Motori di Ricerca possono essere
applicate la teoria che governa e
le formule che modellano, per l'appunto, gli IRS.
Spesso
mi sono occupato dell'argomento ponendo l'attenzione soprattutto al
problema dell'essere pertinente (
rilevante, in ossequio al termine inglese
relevant, è l'altro termine utilizzato)
dei documenti che compaiono nelle SERP alla query dell'utente.
Diverso tempo fa
ho terminato la lettura del libro Undestanding Search Engine - Mathematical Modeling and Text Retrieval e da poco ho iniziato a fare i conti con
Google's Page Rank and Beyond - The Science of Search Engine Rankings [2]. Il
primo è stato un libro molto interessante che mi ha permesso di cominciare a vedere il mondo dei Motori di Ricerca in termini quantitativi:
formule matematiche e definizioni affascinanti oltre che, ovviamente, molto utili. Un libro che mi ha inoltre permesso di familiarizzare con concetti che,
nel secondo libro, sto trovando applicati in modo molto più spinto.Ma veniamo
all'argomento del mio post. Rimando ai link in Webliografia (
[3][4][5]) per per chi volesse approfondire anche se
il consiglio che do è di acquistare i libri. Intanto
spero vi siano utili le slides :-) Per misurare le performance di un sistema di Information Retrieval sono utilizzate delle metriche: le più importanti di esse sono la
Recall e la
Precision. Nelle prime due slides della presentazione ho voluto definire in due modi tali metriche: nella prima ho richiamato il formalismo della teoria degli insiemi mentre nella seconda ho facilitato le cose fornendo una definizione visuale!
La Recall è il rapporto tra il numero dei documenti recuperati pertinenti alla query ed il numero di tutti i documenti pertinenti contenuti nell'archivio cui attinge il Motore di Ricerca. Più semplicemente è la proporzione fra il numero di documenti rilevanti recuperati e il numero di tutti i documenti rilevanti disponibili nella collezione considerata. Si potrebbe dire che più bassa è la Recall e minore è la probabilità di poterci dichiarare soddisfatti dopo un processo di ricerca su un Motore.
La Precision è il rapporto tra il numero di documenti recuperati pertinenti alla query ed il numero totale dei documenti recuperati a valle della query. In altre parole è la proporzione di documenti pertinenti fra quelli recuperati. Diciamo che più bassa è la precision (per una determinata query) e maggiore è la nostra impazienza nello sfogliare le SERP insoddisfatti per quello che il Motore ci sta restituendo.
Assumendo che all'aumentare della specificità della query diminuisce il numero dei documenti rilevanti presenti in archivio
[4], si ha che
una query specifica fa aumentare il tasso di precisione del sistema di Information Retrieval a discapito della Recall; ma mano che la
query diventa più generica, il Sistema
perde in precisione (dovendo misurarsi con una elevata quantità di documenti rilevanti) ma
guadagna in Recall dato che aumenta il numero di documenti rilevanti recuperati.
Il
sistema ideale è quello che riesce garantire una
Precision ed una Recall pari al 100%. In un tale sistema i documenti pertinenti alla query sarebbero tutti e soli i documenti recuperati.
Tenendo fuori dal ragionamento l'utente (che è il soggetto deputato alla formulazione della query da cui strettamente dipendono poi i valori delle metriche appena presentate) ho
due dubbi: Ma quand'è che un documento può ritenersi pertinente alla query? E, quindi, come si può misurare la rilevanza (o pertinenza)?
Pensando al concetto di pertinenza alla query, penso che un criterio per stabilirne l'entità potrebbe essere quello di attribuzione di un punteggio proprio come si fa in un Social Network [6]: se viene superata una soglia minima, il documento viene ritenuto automaticamente pertinente alle ricerche fatte in un determinato ambito. Se ci si pensa, con una tale definizione, verrebbe sicuramente identificato un insieme di documenti pertinenti più affidabile (presumibilmente con un numero minore di elementi) che porterebbe ad un aumento della Recall.
Quante, poi, sono le colpe da attribuire agli algoritmi se molti documenti pertinenti non vengono recuperati?
Mi sento di dire che se ci sono documenti pertinenti alle query che i motori di ricerca non restituiscono, alcune colpe potrebbero essere attribuite a quanti redigono la pagina Web. Un cattivo utilizzo dei meta tag e, soprattutto, un cattivo copywriting potrebbero portare i Motori di Ricerca a considerare i documenti stessi come non pertinenti o, per meglio dire, a non recuperarli per le query che invece, nelle intenzioni del gestore del Sito Internet, avrebbero dovuto farlo comparire nelle SERP. Di conseguenza mi viene da dire che se ci fosse un miglior copywrtiting ed un più accorto utilizzo dei meta tag, potrebbe aumentare il numero di documenti pertinenti recuperati con un aumento anche della Precision.
Questo
ragionamento ha bisogno di essere completato con alcune idee che ho (ma che devo ancora maturare) ma, soprattutto, con le
vostre impressioni.
Che dite?Ragioniamo insieme?[1] mdplab -
Motori di Ricerca[2] mdplab -
mdplab: nuovi arrivi in Biblioteca[3] Information Retrieval (wikipedia)
[4] Le basi degli IRS (pdf)
[5] IRS (pdf)
[6] mdplab -
Social Networking e Motori di Ricerca. come Migliorerà il Ranking grazie al Social Bookmarking!