Home Tutorial Google SEO Adwords Analytics
Tutorial SEO: : FAQ SEO: : Glossário SEO: : Ferramentas SEO

O que é Robots.txt ?

    Destaques
  • 1
  • 2
  • 3

Como evitar que determinadas páginas do site apareçam no Google?

Como já vimos na seção Googlebot, robots, ou robôs, são aplicativos que percorrem a internet em busca de conteúdo com o objetivo de indexá-lo ou verificarem alterações ocorridas desde a última "visita" Nem todo o conteúdo de um site deve ser indexado pelos robots. Páginas de login, páginas repetidas, páginas de impressão são alguns desses exemplos. O que é robots.txt, então? Como o próprio nome já diz, é um arquivo no formato txt que funciona como um filtro para os Crawlers, fazendo com que webmasters possam controlar permissões de acesso a determinados pontos dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexado pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raíz da hospedagem.

ROBOTS.TXT - SINTAXE

O arquivo robots.txt tem o papel de criar uma política de acesso para os Robots. Para a execução dessas tarefas há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site:

User-agent

A função deste comando é apenas dizer quais Robots devem seguir as regras indicadas no Robots.txt. Supondo que você deseje apenas que o mecanismo de busca do google siga as definições constantes no arquivo robots.txt, este deve ser indicado como User-agent: Googlebot. Eis as principais opções:

  • Google: User-agent: Googlebot
  • Yahoo: User-agent: Slurp
  • MSN: User-agent: msnbot.
  • Todos os mecanismos: User-agent: *.

Disallow

Este comando diz aos mecanismos qual diretório ou página deve ser impedida de ter o conteúdo verificado. Exemplos:

  • Disallow: /images diz aos robots para que não seja indexado o conteúdo do diretório /images
  • Disallow: print1.html instrui os robots a não indexarem a página print1.html.

Allow

Este comando diz aos robots qual diretório ou página deve ter o conteúdo verificado. Mas qual seria a necessidade deste comando, sendo que diretórios e páginas são por definição sempre permitidos? Este será útil em situações em que o webmaster bloqueu o acesso a um diretório através do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado.

EXEMPLOS DE ROBOTS.TXT

Exemplo 1: O webmaster não deseja que o conteúdo do diretório /docs seja indexado pelos robots. Dessa bloqueou o acesso ao diretório /docs usando o comando Disallow: /docs no arquivo robots.txt. Dentro deste diretório, porém, existe um sub-diretório chamado "public", que deve ter seu conteúdo indexado. Para que isto aconteça, basta usar no arquivo robots.txt a instrução Allow: /docs/public/.

Exemplo 2: Considere a seguinte estrutura de um determinado site:

   /
      Index.html
      Contato.html
      /Interno
         Ambiente.html
         /News
            Novidades.html
      /Admin
         Restrito.html
         Seguranca.html
      robots.txt

Como pode ser observado, há na raíz 2 diretórios e 2 páginas. No diretório "Interno" há 1 página e 1 diretório, cujo nome é "News", onde existe 1 página. No diretório "Admin", podemos observar outras 2 páginas. Ainda na raíz está o arquivo robots.txt.

O webmaster responsável pelo site definiu que o diretório "Interno" terá seu conteúdo bloqueado aos robots, isto é, não deverá ser indexado pelo Google e outros sites de busca. , mas o diretório "News" deverá será indexado. Já o diretório "Admin" deve ser completamente bloqueado. As instruções, segundo o webmaster, devem ser seguidas por qualquer mecanismo de busca. O conteúdo do arquivo Robots.txt deve ser o seguinte:

      User-agent: *
      Disallow: /Interno
      Allow: /Interno/News
      Disallow: /Admin

Com as regras acima, os mecanismos irão indexar o conteúdo apenas da raíz e do diretório "News".

EXEMPLOS REAIS DE ROBOTS.TXT

Google: www.google.com.br/robots.txt
Registro.br: http://registro.br/robots.txt

Próximo Tópico

Penalidades: Seu site foi penalizado
pelo Google? Descubra!