Sitemap, sitemap.xml
SITEMAP - INTRODUÇÃO AO SITEMAP.XML
Os mecanismos de busca fazem um bom trabalho com seus robôs em varrer o conteúdo da internet. Mesmo assim, oferecem a webmasters a possibilidade de informarem quais as páginas existentes em seus sites, diminuindo a possibilidade dos robôs do Google e Yahoo "esquecerem" de indexar determinadas páginas. Isto é feito através de um arquivo XML, geralmente chamado de SITEMAP.XML. O arquivo pode ser criado manualmente ou através de programas como o GsiteCrawler. Uma vez gerado o arquivo, este deve ser colocado no diretório principal do site. Em seguida, deve ser informado ao mecanismo a localização do arquivo. No caso do Google, isso é feito através de sua interface para webmasters.
No antigo modelo para submissão de Sitemap do Google, executar essa tarefa era uma perda de tempo, porque o Google localizava links e descobria novas páginas por contra própria, sem levar em consideração links existentes no arquivo sitemap submetido.
Já o novo protocolo diponibiliza grandes recursos para um maior controle do robô do Google.
SITEMAP - VANTAGENS DO NOVO MODELO
As vantagens do novo padrão são resultados de pesquisa mais atualizados erastreamento mais eficiente, pois você passa a fornecer informações específicas sobre todos os detalhes das páginas de seu site, como freqüencia de atualização e relevância de determinada URL.
O novo modelo de sitemap faz com que informar ao Google sobre páginas novas ou atualizadas seja tão simples quato entregar um lista completa e formatada diretamente para um representante deles. Você ainda tem a possibilidade de priorizar as páginas através da especificação conhecida como hint (dica).
SITEMAP - USANDO OS RECURSOS
Para explorar todas as novas funcionalidades, o arquivo deve estar criado no formato XML, embora exista também o formato TXT. O arquivo TXT será uma simples lista de URLs. O sitemap baseado em XML, por outro lado, permite que além de submeter as URLs, seja informada a prioridade de cada página, freqüência de atualização e última modificação executada.
Para usar os recursos do novo modelo de Sitemap, siga as regras do formato XML e adicione as tags específicas:
- <xml> segue as especificações requeridas para submissão no Google;
- <urlset> indica o início e fim do conjunto de URLs a serem rastreadas;
- <url> indica o início e fim de uma URL individual;
- <loc> onde será inserida a URL completa da página;
- <lastmod>, uma tag opcional com a data da última modificação;
- <changefreq>, uma tag opcional com a freqüência que o robô deve executar o rastreamento;
- <priority>, uma tag opcional com a relação prioritária da URL especificada em relação às demais contidas no arquivo.
Quer um exemplo? Vejo o sitemap do Google em
http://www.google.com.br/sitemap.xml.
Tome cuidado ao carregar o sitemap original do Google - por ter 4mb, pode travar o seu computador. Acesse aqui uma versão reduzida. Use o Internet Explorer ou um editor XML para visualizar corretamente as tags XML, ou mesmo o Wordpad do Windows.