sabato 21 luglio 2007

il Page Rank come l'Auditel. Ecco perchè Google non ci dice tutto quello che vorremmo sapere...

Quali sono le ragioni per cui un motore di ricerca non restituisce risultati pertinenti nel 100% dei casi ?

Cerca di spiegarlo Hamlet Batista su SEOmoz [1] con un elenco molto semplice da scorrere. Ho fatto una libera traduzione del post perchè voglio condividere con voi l'argomento e qualche riflessione finale.

Soggettività del concetto di query
Il Concetto di Pertinenza (Relevance) è un concetto soggettivo: ciò che è pertinente ad una richiesta fatta al motore di ricerca da parte di una persona non necessariamente lo è anche per un'altra. Il problema è che il motore di ricerca si comporta sempre allo stesso modo per la stessa query. Hamlet parla di un motore ideale che si basi sulla profilazione dell'utenza e che sia, quindi, in grado di interpretare le query proprio in base ai profili di cui dispone. E la privacy ?

Query in linguaggio naturale e non formale
I motori di ricerca operano su query che sono formulate in linguaggio naturale.
Soprattutto ai meno esperti capita di interrogare Google proprio come se si stesse chiedendo una informazione ad un vigile per trovare una strada o a un commesso per trovare un prodotto in un supermercato. Ingabbiare, però, l'utente in query rigide e
predefinite certamente limiterebbe il successo dei Motori di Ricerca. Si pensi, ad esempio all'utilizzo di un formalismo delle query come nel caso di Sistemi quali MySQL [G1].

Query scarne

Molti utenti dei Motori di Ricerca, pur avendo bene in mente cosa cercare, non sempre sono in grado di formulare la query migliore, nonostante abbiano la possibilità di farlo nel linguaggio comune.

Sinonimia [G2]

La query formulata dagli utenti dei motori di ricerca ha un unico
valore ma molto meglio sarebbe se il Motore di Ricerca ci restituisse dei risultati contenenti anche sinonimi di quella query. Sicuramente si vedrebbe aumentata la probabilità di trovare un argomento davvero pertinente. Giusto, ma mi viene da pensare che in questo modo, oltre a dover chiedere troppo agli algoritmi, sicuramente il numero dei risultati restituiti crescerebbe a dismisura rendendo meno usabili le SERPs. Penso, infatti, che più elevato è il numero di SERP restituite da Google, maggiore è il senso di frustrazione per l'utente !

Polisemia [G3]
L'essere modificato del significato delle parole in dipendenza del contesto in cui esse vengono utilizzate, sicuramente porta a risultati non sempre pertinenti alle intenzioni di ricerca degli utenti dei Motori di Ricerca.


Performance dei Motori non ottimali

Hamlet introduce brevemente due metriche dell'information retrieval [G4]: Precision e Recall. La Precision è la misura della pertinenza dell'informazione restituita a valle di una query mentre la Recall è la misura della bontà dei risultati pertinenti ottenuti. Un
motore di ricerca, o più in generale qualsiasi sistema di information retrieval, lavorerebbe in modo ottimale se sia la Precision sia la Recall fossero pari al 100 %. Ma questo non è possibile dato che è dimostrato che la Precision diminuisce all'aumentare della Recall. Un trade-off, quindi. Un compromesso che gli utenti pagano con l'insoddisfazione delle informazioni restituite :-(

Lo Spam [G5]
Lo spam a valle di una query è il risultato dell'azione poco etica sui parametri rilevanti che gli algoritmi dei motori di ricerca
utilizzando per l'indicizzazione [G6] delle pagine Web. Tali azioni ingannano gli algoritmi (anche se tali algoritmi vanno diventanto sempre più robusti rispetto a tali tecniche black hat [G7] SEO) ed hanno il deleterio effetto di far comparire nelle SERP risultati non pertinenti alle richieste degli utenti.

Hamlet alla fine sponsorizza un ruolo attivo per chiunque abbia un sito web e la legittima aspirazione a comparire nelle SERP che soddisfino gli utenti che hanno eseguito la ricerca: identificare le migliori keyword, includerle nei contenuti e studiare i siti Web più quotati dello stesso "segmento" di appartenenza. Io aggiungerei che da studiare sarebbero soprattutto i profili di utenza o, per meglio dire, del target individuato !

Concludo con una riflessione: la mancata relevance dei risultati alle query è una patologia di cui indubbiamente soffrono i motori di ricerca. Una patologia che, come ho già detto [2], è data dalla stretta connessione che c'è tra la popolarità di una pagina e la sua rilevanza rispetto alla query (vedi Page Rank).
Banalizzando si potrebbe dire che il problema dei motori di ricerca è proprio quello di non sapersi comportare come un vigile urbano o come un commesso quando ad essi viene chiesta un'informazione. Chiedo troppo lo so, ma il fatto è che non mi sembra giusto penalizzare un risultato davvero pertinente soltanto perchè di quella particolare fonte, di quel determinato Sito Web o Blog "non se ne parla abbastanza".

E' un po' quello che succede per interessanti programmi televisivi relegati (quando va bene) alla quarta serata: purtroppo è l'auditel che ne decreta il successo, non il contenuto !

L'auditel come il Page Rank (o viceversa !)

Mi rendo conto che la metafora è un po' forzata (il problema della TV è molto più grave e sicuramente differente) ma spero di aver reso bene l'idea :-)

Webliografia

[1] SEOmoz - 7 Reasons Why Search Engines Don't Return Relevant Results 100% of the Time
[2] mdplab - i Motori di Ricerca del Futuro...

Glossario

[G1] MySQL
[G2] Sinonimia
[G3] Polisemia
[G4] Information Retrieval
[G5] spam
[G6] indicizzazione
[G7] Black Hat

Nessun commento: