domenica 29 luglio 2007

la Processazione del Linguaggio Naturale. I Motori di Ricerca di Terza Generazione


Proprio qualche giorno fa, citando un interessante post su SEOmoz, parlavo delle ragioni per cui un motore di ricerca non restituisce delle informazioni pertinenti alle richieste degli utenti [1]. Una delle ragioni evidenziate da Hamlet Batista era il linguaggio naturale con cui le query sono formulate e l'incapacità degli algoritmi di ricerca di interpretarne correttamente il significato.

Per completare la (breve) trattazione di questo stimolante argomento, faccio menzione di un post su Search Engine Journal in cui Arun Radhakrishnan [2] presenta la nuova capability del motore di ricerca Lexxe [3] di raggruppare i risultati in cluster. Si tratta di una tecnica che permette all'utente di raffinare la propria ricerca accedendo al gruppo di risultati (la colonna compare a sinistra delle SERP) che più si avvicina alla sua query.
Lexxe (di cui personalmente ignoravo l'esistenza) è un Motore di Ricerca basato su avanzate tecnologie di processazione del Linguaggio Naturale.

Essendo sensibile all'argomento [4], sono andato a sbirciare nella pagina Question and Answer [5] di Lexxe. Invito tutti quanti siano interessati alle tecniche di processazione del Linguaggio Naturale, le cosiddette NLP (Natural Language Processing) [G1], a fare altrettanto. E' davvero interessante !


Una sezione della sezione QAA di Lexxe è dedicata alla presentazione delle tecniche NLP utilizzate dal motore. Ne sono presentate tre:

(1) Phrase Recognition
L'algoritmo permette di individuare nella query l'eventuale presenza di una o più frasi. A differenza dei motori di seconda generazione (così sono presentati quelli più usati rispetto ai motori di terza generazione alla quale si sostiene Lexxa appartenga) che interpretano la query come un semplice insieme di parole, il Phrase Recognition conduce un'analisi linguistica sulla query prima di fornire i risultati. La mancanza di questo tipo di analisi (che potremmo definire come una pre-processazione della query) genera nei motori di ricerca di seconda generazione dei risultati il più delle volte non pertinenti.

(2) Short Question Answering
Lexxe conferisce all'utente la possibilità di digitare una vera e propria domanda in linguaggio naturale. L'esempio nella sezione QAA è riferito alla domanda "when is Queen Elizabeth's birthday". Un motore di seconda generazione eliminerebbe dalla query le parole "when" e "is" per poi fornire all'utente dei risultati contenenti molte informazioni inutili; Lexxe a tale domanda restituisce proprio la data di nascita della Regina Elisabetta ! Incredibile (almeno per me)!


(3) Clustering
Lexxe permette di raggruppare nelle SERP in una colonna di servizio i risultati in cluster, gruppi che facilitano l'utente a reperire (con un filtraggio delle ricerche totali) più facilmente l'informazione che cerca.

Questo universo è davvero affascinante! Soprattutto perchè riesce a coniugare due mondi per i più totalmente distanti: quello del linguaggio e quello dei numeri ! Evidentemente riesco a cedere molto facilmente al fascino di entrambi...

Webliografia

[1] mdplab - il Page Rank come l'Auditel. Ecco perchè Google non ci dice tutto quello che vorremmo sapere...
[2] Search Engine Journal - Lexxe : Search Engine that Answers Exact Queries
[3] Lexxe - powered by advanced natural language technology
[4] mdplab - mdplab: nuovi arrivi in Biblioteca
[5] Lexxe - Question and Answer

Glossario

[G1] NLP

Nessun commento: