venerdì 11 dicembre 2009

Real Time Search di Google: ma funziona davvero?

Due sono i parametri che qualificano un sistema di Recupero delle Informazioni [Information Retrieval].

Ripropongo qui le definizioni di tali parametri:

Recall: la Recall è il rapporto tra il numero dei documenti recuperati pertinenti alla query ed il numero di tutti i documenti pertinenti contenuti nell'archivio cui attinge il Sistema.
Precision: la Precision è il rapporto tra il numero di documenti recuperati pertinenti alla query ed il numero totale dei documenti recuperati a valle della query.

Le teorie dell'Information Retrieval ci dicono che l'efficacia di un sistema di Information Retrieval si valuta misurando la Precision a diversi livelli di Recall.

Ora un sillogismo che uso per entrare con efficacia nel cuore del post:

Google è un Motore di Ricerca. I Motori di Ricerca sono un sistema di Information Retrieval. Google è un Sistema di Information Retrieval.


Cosa accadrà con la novità di Google
che permette l'aggiornamento dei risultati di ricerca in tempo reale? È ovvio che in questo modo aumenteranno [e, altrettanto ovviamente, in tempo reale] le voci restituite dopo una richiesta di ricerca; ma perchè le performance del Motore di Ricerca rimangano almeno invariate occorrerà che, allo scontato aumento di dimensioni del serbatoio da cui pescare risultati [i. e. documenti indicizzati], segua anche, banalmente, un aumento del numero di documenti pertinenti alla query contenuti nel serbatoio.

Sarà possibile? Oppure ci si deve aspettare un deterioramento dell'esperienza di ricerca?
Non si ha la certezza che, percentualmente rispetto al totale dei documenti indicizzati, questo meccanismo aumenterà i documenti pertinenti.
Ammettendo che le modalità di restituzione non varino con il Google real time, è proprio questo l'elemento discriminante che decreterà il successo o meno del progetto. Osservo però che è altamente probabile che l'algoritmo di recupero sia diverso poichè vedo come impossibile un calcolo istantaneo del rating [che è il meccanismo su cui si basa il "Google classico"]. Si noti che la verifica/conferma di una effettiva modifica dell'algoritmo potrebbe anche impattare pesantemente sugli specialisti SEO/SEM.

Devo inoltre anche dire che non è del tutto assurda l'ipotesi di manovre fraudolente di pubblicazione di twit e post non propriamente autentici sui Social Media coinvolti che contribuiscono al Real Time Search. Osservazione, questa, fatta al netto di un altro fenomeno che minaccia il rinnovato sistema: il disorientamento per l'utente [alla ricerca di informazioni di acquisto si Prodotti e/o Servizi] che si vedrà addirittura trasformare sotto gli occhi la pagina di Google.

L'aumento della pubblicazione degli spazi sul Web fa in modo che l'entropia della Rete [e nella Rete] cresca; beh, dopo i dubbi appena espressi, una convinzione ce l'ho: che il real time non farà altro che aumentare il ritmo di tale crescita a tutto svantaggio dell'utente.

È scontato, ora più che mai, che un motore di ricerca semantico potrebbe risolvere gran parte dei problema [anche se il rischio delle frodi ci sarebbe comunque, anzi...]!

E voi, in particolare gli esperti [il link è per gli amici che conosco di persona], cosa ne pensate?

2 commenti:

carlo amoroso ha detto...

Beh.. come dicono loro stessi (http://googleblog.blogspot.com/2009/12/relevance-meets-real-time-web.html) le tecnologie sono diverse. Tra l'altro "in italiano" non mi sembra che siano ancora attive. Pero' ho fatto un piccolo test. Con il mio account twitter ho semplicemente scritto "test per sofitek".. e scegliendo "latest e updates"..nella versione inglese di google..(con 'show options' attivo) è saltato fuori il mio tweet dopo poco meno di un minuto. Impressionante.

Venendo invece alla pertinenza dei risultati, credo che nella ricerca "in tempo reale" sia un fattore che "conti meno", perchè quello che conta è la "freschezza" dell'informazione correlata.

Ed infatti la mole di dati su cui lavora (diciamo il dominio, per usare un termine matematico) è semplicemente filtrata "temporalmente".. cioè oltre un _tot_ di tempo, l'informazione viene scartata dalle ricerche in tempo reale indipendentemente dalla pertinenza.

Tra l'altro mi sembra di intuire che google abbia costruito una serie di "domini / indici" temporali a scalare (latest, last 24 hour,past week.. ecc) e le informazioni passano da un'indice all'altro in modo da avere sempre un "dominio" limitato.
E concludo.. che alcune info (tipo i tweets) mai finiranno nell'indice "natuarale".. perchè in 140 caratteri.. non è che si possa dire granchè!!! :-)
Infine.. anche quando google dice di avere milioni di risultati, in realtà se si scorrono tutte le pagine, oltre il 1000..

Marco Dal Pozzo ha detto...

Carlo,
grazie del link e della puntualizzazione :)

Quel che dici sulla importanza della freschezza sara' sicuramente vero ma non si puo' prescindere dall'esperienza di ricerca dell'utente.

Mi viene in mente che un simile tipo di ricerca potrebbe essere di utilita' come fonte di notizie per Redazioni giornalistiche ma sono pronto a scommettere che le Redazioni non sono che una minima percentuale del totale degli utenti di un Motore di Ricerca...

Non ho capito bene se i tweets non andranno mai negli indici; se cosi' fosse per me sarebbe un disastro!!!