giovedì 7 giugno 2007

Duplicazione dei Contenuti - Google's Claim Your Content ?

Capita da qualche tempo che i miei post siano copiati da un misterioso www.3viso.com. Vedete voi stessi nella sezione Link a questo post di uno dei miei ultimi post [1].

La prima volta mi fece piacere constatare che qualcuno mi avesse citato. Ma dovetti subito ricredermi nel vedere che il post che mi citava era la copia conforme (figure incluse) del mio (ad onor del vero va detto che era citato anche l'autore).

Che sarà successo ? Pensai. Qui c'è qualcosa che non va !


La spiegazione di questo fenomeno l'ho trovata qualche tempo dopo in due post molto interessanti: il primo su Search Engine Journal [2] dal titolo "Google's Claim Your Content?" ed il secondo su Tagliablog [3] intitolato "Contenuti duplicati e posizionamento" (nel secondo viene richiamata una traduzione fatta da Marco Ziero sulla posizione di Google in merito alla duplicazione dei contenuti [4]).

Il tema trattato è quello degli Scraper che sono Siti Web mostranti contenuti prelevati da sorgenti come SERPS [G1], RSS Feeds [G2], Blogs e ogni altro Sito Web. Gli scraper sono Siti che duplicano contenuti da altri Siti sfruttandone la qualità e ricavando (da una visita, quindi, ad un contenuto non originale) introiti per esempio derivanti dal circuito AdSense di Google (www.3viso.com è pieno di annunci !).


Quelli Scraper sono molto spesso dei siti con domini dismessi e poi riacquisiti che, proprio per la loro anzianità sul Web, ingannano i motori di ricerca facendo credere di essere i proprietari dei contenuti a discapito dei proprietari reali costituiti da Siti Giovani costretti (proprio perchè neo-nati) a pagare lo scotto della SandBox [G3] prima dell'indicizzazione.

Dal post di Marco Ziero si deduce che Google definisce duplicato un contenuto quando è la copia identica di un altro (invito a leggere il post completo di Marco [4]). Se volessimo toglierci lo sfizio e reperire sul Web siti che copiano i nostri contenuti, tagliaerbe ci dice come fare segnalandoci quelli che lui definisce Siti Antiplagio; ne segnalo uno in Webliografia [5].

Carsten Kumbrovski di SEJ [2] amplia il discorso segnalando la registrazione da parte di Google di alcuni domini con le frasi “Claim Your Content”, “Claim My Content” e
Claim Our Content” (Claim significa rivendicare) avanzando l'ipotesi che Google stesso stia cercando di mettere a disposizione dei Webmaster dei metodi per segnalare la proprietà di un contenuto. Ma questa è solo un'ipotesi!

Carsten ragiona su quali potrebbero essere i metodi anticscraping. Ne cito due:
  1. invio ai motori di ricerca di un documento sul copyright digitale (DMCA [6], siamo in America !) ogni volta che un sito scrape ruba il contenuto al proprio Sito
  2. fare in modo che il feed (una delle sorgenti per gli scraper) contenga solo una parte del contenuto
Ma poi, riflettendo sul fatto che questi sono metodi dispendiosi (e che porterebbero il Webmaster/Content Manager a non fare nient'altro che claim), Carsten chiude l'articolo chiedendosi come Google potrà risolvere i seguenti problemi:
  • verifica dei siti che rivendicano (claim) la legittima proprietà di un contenuto
  • prevenire che ci sia il claim dei cotenuti da parte di proprietari non legittimi
  • permettere ai proprietari dei contenuti di distribuire una lista con i Siti che possono trattare liberamente i loro contenuti
Interrogativi che, vista anche la mia esperienza personale, mi pongo anch'io !

Webliografia

[1] mdplab - le Previsioni del Mercato Turistico 2007-2017 - dal Summit WTTC
[2] Search Engine Journal - Google's "Claim Your Content" ?
[3] tagliablog - Contenuti duplicati e posizionamento
[4] Marco Ziero - Google su contenuti duplicati
[5] un sito antiplagio - Copyscape
[6] DCMA, Atto sul Copyright Digitale emesso dalla WIPO (World Intellectual Property Organization) - Digital Millenium Copyright Act in pdf

Glossario

[G1] SERP
[G2] RSS feed
[G3] Sand Box

6 commenti:

carlo amorso ha detto...

Il problema è molto più ampio. I siti che duplicano il contenuto sono solo la superficie. Il vero "problema" sono quei software molto più raffinati (il cui algoritmo è noto da tanto tempo...)che prelevano il contenuto e lo modificano. Questa è una tecnica "black / grey" (a seconda dei punti di vista) per aumentare in maniera automatizzata la frequenza di aggiornamento dei contenuti, la bonta degli stessi... anche i link e il trust...(guarda qui, per esempio)

Marco Dal Pozzo ha detto...

Carlo,
grazie per il tuo prezioso commento. Mi ha fatto tornare in mente un post di Vincenzo Lombino sul suo kerouac3001 in cui si parlava proprio delle Catene di Markov.

Invito tutti ad andarlo a leggere: Catene di Markov [Spam che piace ai motori Pt 1]; ne vale la pena e penso che contribuisca ad alimentare questa interessante discussione.

vinarcid0810 ha detto...

non è una novità che siti copiano completamente il contenuto di altre pagine ... a proposito tempo fà lessi un interessante intervista di Adams
che riporto:

http://www.stonetemple.com/articles/interview-adam-lasnik.shtml

ora vedo 3 possibili soluzioni:
1)utilizzare lo spam report
http://www.google.com/contact/spamreport.html
2)raccomandata con l'avvocato
3)segnalazione a google DMCA (digital millenium copyright act)

Marco Dal Pozzo ha detto...

vinarcid0810,
si, i tuoi consigli sono utili e sono simili a quelli che ho letto nel post di SEJ. Il problema, però, secondo me, è proprio lo "stare dietro" a questo fenomeno: si rischia davvero di fare solo "sorveglianza"!!!
Stiamo a vedere cosa s'inventerà Google!
Grazie del commento :-)

lex Luthor ha detto...

rss-one
rss-verzeichnis
feedlist
codicesorgente
rssinteractive
feed2read
feedshow
rss88

e anche 3viso.com sono aggregatori di rss... cioe' espongono quello che quelli danno l'rss permettono di esporre.. non c'e' nessun copia e incolla..

cmq se qualcuno vuole far togliere i propri rss.. idem se vuole farli aggiungere basta contattare il webmaster ..

msn/mail:
marco76tv@hotmail.com
icq:
210139517
skype:
marco xot

p.s. dalle statistiche dopo l'avvenuta di 3viso le visite sono cresciute o diminuite ? (fino adesso a TUTTI sono cresciute)

lex Luthor ha detto...

Gli articoli pubblicati su 3viso.com sono liberamente tratti dalla rete a titolo di "rassegna stampa" per soli scopi di critica, di discussione e insegnamento, a tal proposito segnaliamo questo articolo [http://punto-informatico.it/p.aspx?i=58680]

Le fonti rss dalle quali gli articoli vengono prelevati sono quelle di Google Blogsearch o feedburner

Se non volete che gli articoli del vostro sito vengano pubblicati potete o non distribuire i vostri contenuti nei formati rss ed xml (syndication) o istruire tramite il file robots.txt i motori di ricerca per non indicizzare le sopracitate fonti.

Se ravvisate che qualche articolo pubblicato su 3viso.com violi la privacy o il vostro diritto d'autore contattare la redazione segnalando l'esatto url (indirizzo del sito) del post che, nel caso, provvederà all'immediata rimozione.