O que é Robots.txt

googlebot Como evitar que determinadas páginas do site apareçam no Google?

Na internet, robots, ou robôs, são aplicativos que percorrem a internet em busca de conteúdo com o objetivo de indexá-lo ou verificarem alterações ocorridas desde a última "visita" (Saiba como funcionam os sites de busca no início do tutorial). Robots também são conhecidos como "indexadores", "bots" ou "crawlers". Muito conhecidos na comunidade de SEO, possuem até nome próprio! Os robots do Google são chamados de Googlebot, os robots do MSN de msnbot, os robots do Yahoo de yahoobot ou Yahoo! Slurp.

Nem todo o conteúdo de um site deve ser indexado pelos robots. Páginas de login, páginas repetidas, páginas de impressão são alguns desses exemplos. O que é robots.txt, então? Como o próprio nome já diz, é um arquivo no formato txt que funciona como um filtro para os Crawlers, fazendo com que webmasters possam controlar permissões de acesso a determinados pontos dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexado pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raíz da hospedagem.



ROBOTS.TXT - SINTAXE

O arquivo robots.txt tem o papel de criar uma política de acesso para os Robots. Para a execução dessas tarefas há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site:

User-agent

A função deste comando é apenas dizer quais Robots devem seguir as regras indicadas no Robots.txt. Supondo que você deseje apenas que o mecanismo de busca do google siga as definições constantes no arquivo robots.txt, este deve ser indicado como User-agent: Googlebot. Eis as principais opções:

  • Google: User-agent: Googlebot
  • Yahoo: User-agent: Slurp
  • MSN: User-agent: msnbot.
  • Todos os mecanismos: User-agent: *.

Disallow

Este comando diz aos mecanismos qual diretório ou página deve ser impedida de ter o conteúdo verificado. Exemplos:

  • Disallow: /images diz aos robots para que não seja indexado o conteúdo do diretório /images
  • Disallow: print1.html instrui os robots a não indexarem a página print1.html.

Allow

Este comando diz aos robots qual diretório ou página deve ter o conteúdo verificado. Mas qual seria a necessidade deste comando, sendo que diretórios e páginas são por definição sempre permitidos? Este será útil em situações em que o webmaster bloqueu o acesso a um diretório através do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado.


EXEMPLOS DE ROBOTS.TXT

Exemplo 1: O webmaster não deseja que o conteúdo do diretório /docs seja indexado pelos robots. Dessa bloqueou o acesso ao diretório /docs usando o comando Disallow: /docs no arquivo robots.txt. Dentro deste diretório, porém, existe um sub-diretório chamado "public", que deve ter seu conteúdo indexado. Para que isto aconteça, basta usar no arquivo robots.txt a instrução Allow: /docs/public/.


Exemplo 2: Condere a seguinte estrutura de um determinado site:

   /
      Index.html
      Contato.html
      /Interno
         Ambiente.html
         /News
            Novidades.html
      /Admin
         Restrito.html
         Seguranca.html
      robots.txt

Como pode ser observado, há na raíz 2 diretórios e 2 páginas. No diretório "Interno" há 1 página e 1 diretório, cujo nome é "News", onde existe 1 página. No diretório "Admin", podemos observar outras 2 páginas. Ainda na raíz está o arquivo robots.txt.

O webmaster responsável pelo site definiu que o diretório "Interno" terá seu conteúdo bloqueado aos robots, isto é, não deverá ser indexado pelo Google e outros sites de busca. , mas o diretório "News" deverá será indexado. Já o diretório "Admin" deve ser completamente bloqueado. As instruções, segundo o webmaster, devem ser seguidas por qualquer mecanismo de busca. O conteúdo do arquivo Robots.txt deve ser o seguinte:

      User-agent: *
      Disallow: /Interno
      Allow: /Interno/News
      Disallow: /Admin

Com as regras acima, os mecanismos irão indexar o conteúdo apenas da raíz e do diretório "News".


EXEMPLOS REAIS DE ROBOTS.TXT

Google: www.google.com.br/robots.txt
Registro.br: http://registro.br/robots.txt
Siciliano: http://www.siciliano.com.br/robots.txt



Você chegou ao final de nosso tutorial. Volte ao início do tutorial Google para rever os principais conceitos e entender como funciona o Google. Quer contratar uma agência especializada em fazer com que o seu site apareça nas buscas do Google? Conheça a SEO Marketing ou veja os nossos serviços de SEO e Links Patrocinados