Think Pragmatic!

Rubber ducking about stuff.

Una, cento, mille Sitemap XML

Scritto il 10/01/2011 da Alessandro Martin.    

Chiacchierando con alcune persone dopo il mio intervento al convegno GT 2010 — in particolare Francesco Tinti che ringrazio per il feedback — mi sono accorto che la brevissima panoramica che ho dato della Sitemap XML video poteva creare confusione per qualcuno, in questo post ho cercato di fare chiarezza sul tema.

Il protocollo Sitemap consente di fornire informazioni sulla struttura di un sito e sui suoi contenuti in modo standardizzato e dunque facilmente comprensibile e processabile da parte di un software come il crawler di un motore di ricerca.

Per ottenere questo risultato il protocollo prevede l’uso del linguaggio XML (eXtensible Markup Language) per descrivere le informazioni all’interno della Sitemap. Il linguaggio XML per la sua estensibilità ha consentito nel tempo di ampliare le possibilità del protocollo che in origine consentiva la descrizione delle sole pagine web. Ora con una Sitemap XML è possibile fornire al motore di ricerca informazioni circa:

  • Pagine web
  • Video
  • Immagini
  • News

In linea teorica sarebbe possibile creare per ogni sito una Sitemap contenente informazioni su tutti e quattro i tipi di contenuti sopra elencati a patto che nel documento XML vengano correttamente specificati i relativi namespace. Nella pratica ci sono almenno sue ottime ragioni per cui una cosa del genere va evitata:

  • Ogni Sitemap XML può contenere la massimo 50000 URL e può avere al massimo una dimensione di 10MB non compressi.
  • Suddividere le proprie Sitemap in unità omogenee aiuta ad avere informazioni più precise sull’indicizzazione ed ad individuare eventuali problemi.

Sulla utilità ed efficacia delle Sitemap XML si è spesso dibattuto nella comunità SEO. Ad oggi gli unici tipi di Sitemap assolutamente indispensabili sono quelle dedicate a video e news, senza le quali è difficile ottenere una buona indicizzazione. Per quanto riguarda le sitemap dedicate a pagine web ed immagini io la penso così: il lavoro del SEO è ottimizzare un sito per (gli utenti de)i motori di ricerca, quindi è suo compito sfruttare ogni leva a disposizione per facilitare il lavoro del motore e fornirgli il maggior numero di informazioni possibili circa un sito web e le risorse in esso contenute.

Pertanto la creazione di una Sitemap XML per le pagine web e le immagini, anche se non indispensabile, è qualcosa che va fatto sempre, a meno che non sussistano delle condizioni per cui questa attività diventi profondamente antieconomica. Al di la degli approcci filosofici, basta usare un po’ di buon senso. Google ha speso un sacco di risorse per creare, promuovere ed aggiornare questo protocollo, e sarebbero stati pazzi ad averlo fatto senza averne una utilità pratica in un buon numero di casi.

Per chi ancora avesse dei dubbi il buon John Mueller ha ben riassunto il valore di una Sitemap XML in questa risposta su Pro Webmasters:

In addition to using Sitemaps extensively for “non-web-index” content (images, videos, News, etc.) we use information from URLs included in Sitemaps files for these main purposes:

  • Discovering new and updated content (I guess this is the obvious one, and yes, we do pick up and index otherwise unlinked URLs from there too)
  • Recognizing preferred URLs for canonicalization (there are other ways to handle canonicalization too)
  • Providing a useful indexed URL count in Google Webmaster Tools (approximations from site:-queries are not usable as a metric)
  • Providing a basis for useful crawl errors (if a URL included in a Sitemap file has a crawl error, that’s usually a bigger issue & shown separately in Webmaster Tools)

Nella stessa risposta, alla fine, dice qualcosa di chiaro ed utile rispetto ai meta dati (es. priority) che possono essere specificati nella Sitemap XML per le pagine web:

Don’t fuss over the meta-data. If you can’t provide useful values (eg. for priority), leave them out & don’t worry about that.

Ho detto tutto.

SEO Sitemap XML