sabato 5 gennaio 2008

Wikia Search - Un Anno di Storia e Due Giorni di Inquietante Attesa!


Trasparenza
- l'essere open dei sistemi e degli algoritmi che operano, sia in termini di open source sia in termini di open content

Comunità - Ognuno può contribuire in qualche modo (sia a livello individuale sia al livello di intere organizzazioni)

Qualità - migliorare in modo significativo sia la rilevanza e l'accuratezza dei risultati di ricerca sia l'esperienza di ricerca

Privacy - deve essere protetta senza immagazzinare o trasmettere dati identificativi dell'utenza

Questi sono i quattro principi organizzativi che hanno dato vita al progetto Wikia Search [1], di un Motore di Ricerca "democratico" che dovrebbe vedere la luce (sebbene in forma ancora sperimentale) il prossimo 7 Gennaio. Un progetto portato avanti dalla stessa comunità che ha creato Wikipedia.

In questo post voglio fare prima un po' di storia e poi discutere di qualche questione insieme a voi. Invito chi la storia la conosce già a saltare direttamente alla fine (oltre che ad integrare e correggere le eventuali cavolate che ho scritto).

Nella pagina in Italiano [2] si capisce il pensiero che ha animato l'ambizioso progetto di creare un nuovo e più funzionale Motore di Ricerca. Considerando la mancanza di comunità, di responsabilità e di trasparenza nel Mondo del Searching sul Web, il pensiero di Jimmy Wales (il leader dell'organizzazione che creò Wikipedia) è quello di assicurare agli utenti dei risultati migliori, e garantiti dagli utenti stessi, in una logica che dovrebbe almeno assomigliare a quella che ha fatto di Wikipedia lo spazio Web che ha proprio nella Comunità, nella Responsabilità e nella Trasparenza degli utenti i suoi punti di forza.

Il lancio del progetto risale ad un anno fa quando il New York Times pubblicava un articolo [3] di cui è interessante riprendere alcuni passi:

Il Motore di Ricerca Wikia dovrebbe permettere agli utenti di vedere in modo trasparente come i risultati sono generati e modificare liberamente il ranking utilizzando le conoscenze che hanno dell'Internet. Ogni modifica potrebbe essere rielaborata da altri utenti e, come accade con Wikipedia, le discussioni dovrebbero portare ad una decisione trasparente e di qualità.

Wales diceva poi: “I suspect there is a need for categorization and grouping” by the volunteers, Mr. Wales said. “It would not make sense to have a dialogue for each long-tail search. For popular searches, it makes sense.

“The question is: Will there be a demand?” he said. “I think there will be. People are not happy with the lack of transparency.”

Insomma Wales dirigeva il suo interesse principalmente alle ricerche più popolari: se un argomento risulta essere popolare, maggiore è la discussione che si genera intorno ad esso e, trasferendo il ragionamento sul piano di un Motore di Ricerca "Sociale" (query popolari), migliore è (qui in effetti sarebbe d'obbligo il condizionale) l'accuratezza dei Risultati e il relativo Ranking.

Rassicurante era poi, sempre nello stesso articolo, l'affermazione di Gil Penchina, CEO di Wikia, che confrontava il processo di ricerca a quello di un filtro antispam.

“Humans are pretty good at that; machines are not so good at that,” he said. “What is obvious to a person is not always obvious to a machine. There are all sorts of tricks to fool the search engines. We think that people are better than machines at making decisions about what are proper results for any search term you type in.”

Insomma una vera rivoluzione!

In Italia se n'è cominciato a parlare dall'estate dello scorso anno (almeno a quel periodo risalgono i primi articoli che ho rintracciato) con un approccio che, dopo i proclami di Gennaio, era teso ad analizzare in modo più critico la cosa; con un occhio di riguardo, insomma, sia ad aspetti tecnici sia ad aspetti che oserei definire poco attinenti al Mondo del Search Puro ([4] e [5]).

Vediamo l'aspetto tecnico: il funzionamento di Wikia Search sarebbe basato, prima ancora che sulla discussione delle persone facenti parte della comunità sulla qualità e sul rating dei risultati, su un sistema open source di indicizzazione del Web (Grub [6]) in grado di eseguire un calcolo distribuito sui dati provenienti dai Computer di quanti, in Internet, avrebbero il Software di Crawling installato. Il tutto, a mio modo di vedere, in un primo atto di vera trasparenza. Il progetto Grub era partito già dal 2000 ed aveva attraversato dei momenti difficili ma è tornato a vivere proprio grazie all'acquisizione del team di Wikia che l'ha quindi presentato nelle sue pagine [7]; interessante poi, ma per addetti ai lavori (io non sono tra quelli), è stata la discussione che, proprio nel Wiki, si è sviluppata durante l'anno (ve la segnalo in Webliografia [8]).

Vediamo ora l'aspetto commerciale: si è appena detto dell'acquisizione di Grub. Questo dimostra che comunque Wikia poteva e può contare su un capitale. Nei vari articoli si parla infatti di finanziamenti di più di dieci milioni di dollari ed un contributo anche da parte di Amazon.com. Cifre spaventose, anche se ormai con i grandi movimenti economici di compravendita di idee sul Web (per il Web) c'abbiamo fatto l'orecchio, che dimostrano quanto ambizioso sia, non soltanto dal punto di vista dell'utente, il progetto. E l'ambizione è ovviamente quella di soppiantare Google e di neutralizzare almeno un po' il suo strapotere (a questo punto direi anche economico).

Già, Google! E quali saranno le sue mosse?

Ad Agosto c'era già chi poneva qualche interessante questione. Su Seo Black Hat [9] si rifletteva, in un'analisi rilanciata anche qui da Gijno [10], sul fatto che Google poteva (e può ancora adesso) garantire delle SERP di alta qualità proprio grazie ai contenuti di Wikipedia. Il problema posto era: può Google continuare a far dipendere la sua qualità di sistema di Ricerca da Wiki se Wiki stesso si appresta a diventarne concorrente? Google cercherà di allearsi o di eliminare dalle sue SERP i risultati? Con quali conseguenze?

Il progetto Wikia è comunque andato avanti e, ad un anno esatto di distanza dall'appello che è possibile leggere nella versione italiana nel link in Webliografia ([2])

"Cerco persone per la costruzione e collaborazione di un motore di ricerca ispirato a WIKI. Più specificatamente, delle comunità di persone che desiderano partecipare al miglioramento dei risultati di ricerca e degli sviluppatori per aiutare la creazione di un'alternativa libera per la ricerca in internet." Discutine qui [en]. Iscriviti alla mailing list [en].
--Jimmy Wales, 23 dicembre 2006

con una e-mail a tutti gli iscritti alla mailing list del progetto, il 23 Dicembre scorso, Jimmy Wales ha finalmente annunciato il lancio ufficiale di Wikia Search in questo modo (TechcRunch [11] via Tagliaerbe [12]):



Insomma ci siamo e la notizia è stata data, in questi ultimi giorni, in diverse parti ([13], [14] e [15]).

E adesso qualche riflessione
Un Motore di Ricerca (anche se forse sarebbe meglio parlare in senso un po' più generale come Sistema di Recupero delle Informazioni) fatto in questo modo dovrebbe, almeno stando agli articoli che ne hanno descritto in questi mesi il funzionamento, migliorare l'esperienza di ricerca ed il soddisfacimento da parte degli utenti. Proviamo a dimostrare il perchè.

Qualche tempo fa, su mdplab, avevo riportato delle definizioni sui parametri in base ai quali vengono giudicate le prestazioni dei Sistemi di Information Retrieval [16]: riporto per comodità quelle definizioni di seguito.

Recall: la Recall è il rapporto tra il numero dei documenti recuperati pertinenti alla query ed il numero di tutti i documenti pertinenti contenuti nell'archivio cui attinge il Motore di Ricerca.

Precision: la Precision è il rapporto tra il numero di documenti recuperati pertinenti alla query ed il numero totale dei documenti recuperati a valle della query.

Wikia dovrebbe, per il suo umano filtraggio antispam e per il suo altrettanto umano procedimento di rating, vedere aumentare sia i documenti pertinenti alla query sia quelli che, a valle della query, sono recuperati. Se fosse vera questa mia ipotesi allora Wikia Search dovrebbe garantire un valore Recall più o meno invariato perchè aumenterebbero tutti e due i fattori che contribuiscono a calcolarla. D'altra parte, invece, la Precision si dovrebbe alzare dato che presumibilmente si abbasserebbe il numero di documenti recuperati in seguito all'eliminazione di risultati di tipo spam.

Insomma, dato che le teorie dell'Information Retrieval [17] ci dicono che che l'efficacia di un sistema si valuta misurando la Precision a diversi livelli di Recall, se la Recall rimanesse più o meno la stessa e la Precision aumentasse, avremmo la dimostrazione anche matematica che Wikia sarà un sistema migliore!

Migliore si, se funzionasse davvero come si dice. Ho infatti qualche dubbio:

(1) siamo sicuri che i meccanismi saranno tutti trasparenti? L'interevento umano non potrebbe, invece, essere guidato da menti non ingenue come le nostre e non interessate al solo bene della scienza e della conoscenza? In altri termini: se Wikia, inteso in senso assoluto come un sistema di Searching sul Web, dovesse indicizzare prima ed ordinare poi anche url di entità commerciali (Aziende) come si fa a pensare che queste Aziende non saranno disposte ad assumere pseudo-volontari per far schizzare in alto (ed in moto assolutamente non naturale) i propri contenuti? In un periodo in cui l'Internet si sta affermando contro ogni altro canale di comunicazione non la vedo, questa, un'ipotesi campata del tutto in aria :(

No so che tipo di documenti indicizzerà Wikia ma in ogni caso dovremo fare tutti appello alle logiche che regolano le Comunità sul Web. Insomma: speriamo bene!

(2) se è vero come è vero che il progetto ha ricevuto dei finanziamenti, come si fa a non sospettare che chi ha finanziato non voglia avere anche un ritorno? Un ritorno che, poi, presumibilmente, farebbe scadere quella Qualità promessa da Jimmy Wales?

(3) E Google come farà? Visto che adesso la qualità dei suoi risultati dipende molto da Wikipedia e che Wikia appartiene alla stessa famiglia, darà ancora così tanto spago a Wikipedia stesso? Dobbiamo cioè prepararci a vedere delle SERP di Google ancora peggiori di quelle attuali?

(4) Con Wikia, a quale tipo di attività dovrebbero riconvertirsi i SEO? L'automaticità del funzionamento di Wikia risiederà esclusivamente nell'indicizzazione collaborativa tramite Grub; tutto il resto sarà umano! Avrebbe senso, in uno scenario simile, il lavoro del SEO? Sicuramente sarà importante capire come opera Grub e, conseguentemente, eseguire un adattamento delle piattaforme (ma non è detto che questo sarà necessario). Ma poi?

Che ne pensate voi? Avete qualche certezza in più? o qualche altro dubbio?

A voi la palla!



Webliografia

[1] Wikia Search - Home Page
[2] Wikia Search - Home Page Italiana
[3] New York Times - Something Wiki Is Coming to the Web Search Market
[4] Webmasterpoint - Wikia nuovo motore di ricerca di Wikipedia pronto a sfidare Google
[5] Macitynet - Wikia Search, arriva il motore di ricerca del Web 2.0
[6] Grub - la Home Page
[7] Wikia Search - la pagina che presenta Grub
[8] Wikia Search - la discussione su Grub
[9] Seo Black Hat - Google Exposing their Flank to Wikipedia
[10] Gijno - Google e Wiki
[11] Techcrunch - Wikia Search Launches Private Beta; Public Launch On January 7
[12] Tagliaerbe - Wikia Search parte il 7 gennaio: sarà il rivale di Google?
[13] Motoricerca - MotoNews - Wikia in arrivo
[14] Search Engine Journal - Wikia Search Launching Next Week
[15] Repubblica - Partecipazione, qualità e privacy Così Search Wikia sfida Google
[16] mdplab - Motori di Ricerca: qualche appunto su "come utilizzare gli utenti" per Migliorarne le Prestazioni e le Relative Metriche
[17] unibo - Le basi degli IRS (pdf)

2 commenti:

simmonsstummer ha detto...

ma se uno volesse aggiungere il proprio sito ai risultati di ricerca...come dovrebbe fare?? è tuta la mattina che cerco!

Marco Dal Pozzo ha detto...

simmonsstummer,
veramente non ho studiato ancora approfonditamente la cosa ma non credo che sia possibile autosegnalarsi...

Io credo che sia necessario far andare a regime il sistema, aspettare il crawler che lavori e poi lavorare di fino per votazioni etc...

Staremo a vedere