Sitemap, sitemap.xml

sitemap.xml SITEMAP - INTRODUÇÃO AO SITEMAP.XML

Os mecanismos de busca fazem um bom trabalho com seus robôs em varrer o conteúdo da internet. Mesmo assim, oferecem a webmasters a possibilidade de informarem quais as páginas existentes em seus sites, diminuindo a possibilidade dos robôs do Google e Yahoo "esquecerem" de indexar determinadas páginas. Isto é feito através de um arquivo XML, geralmente chamado de SITEMAP.XML. O arquivo pode ser criado manualmente ou através de programas como o GsiteCrawler. Uma vez gerado o arquivo, este deve ser colocado no diretório principal do site. Em seguida, deve ser informado ao mecanismo a localização do arquivo. No caso do Google, isso é feito através de sua interface para webmasters.

No antigo modelo para submissão de Sitemap do Google, executar essa tarefa era uma perda de tempo, porque o Google localizava links e descobria novas páginas por contra própria, sem levar em consideração links existentes no arquivo sitemap submetido. Já o novo protocolo diponibiliza grandes recursos para um maior controle do robô do Google.

SITEMAP - VANTAGENS DO NOVO MODELO

As vantagens do novo padrão são resultados de pesquisa mais atualizados erastreamento mais eficiente, pois você passa a fornecer informações específicas sobre todos os detalhes das páginas de seu site, como freqüencia de atualização e relevância de determinada URL.

O novo modelo de sitemap faz com que informar ao Google sobre páginas novas ou atualizadas seja tão simples quato entregar um lista completa e formatada diretamente para um representante deles. Você ainda tem a possibilidade de priorizar as páginas através da especificação conhecida como hint (dica).

SITEMAP - USANDO OS RECURSOS

Para explorar todas as novas funcionalidades, o arquivo deve estar criado no formato XML, embora exista também o formato TXT. O arquivo TXT será uma simples lista de URLs. O sitemap baseado em XML, por outro lado, permite que além de submeter as URLs, seja informada a prioridade de cada página, freqüência de atualização e última modificação executada.

Para usar os recursos do novo modelo de Sitemap, siga as regras do formato XML e adicione as tags específicas:


  • <xml> segue as especificações requeridas para submissão no Google;
  • <urlset> indica o início e fim do conjunto de URLs a serem rastreadas;
  • <url> indica o início e fim de uma URL individual;
  • <loc> onde será inserida a URL completa da página;
  • <lastmod>, uma tag opcional com a data da última modificação;
  • <changefreq>, uma tag opcional com a freqüência que o robô deve executar o rastreamento;
  • <priority>, uma tag opcional com a relação prioritária da URL especificada em relação às demais contidas no arquivo.

Quer um exemplo? Vejo o sitemap do Google em
http://www.google.com.br/sitemap.xml.
Tome cuidado ao carregar o sitemap original do Google - por ter 4mb, pode travar o seu computador. Acesse aqui uma versão reduzida. Use o Internet Explorer ou um editor XML para visualizar corretamente as tags XML, ou mesmo o Wordpad do Windows.

 

PRÓXIMO TÓPICO