O que é Robots.txt
Como evitar que determinadas páginas do site apareçam no Google?
Na internet,
robots, ou
robôs, são aplicativos que percorrem a internet em busca de conteúdo com o objetivo de indexá-lo ou verificarem alterações ocorridas desde a última "visita" (Saiba
como funcionam os sites de busca no início do tutorial).
Robots também são conhecidos como "indexadores", "
bots" ou "
crawlers". Muito conhecidos na comunidade de SEO, possuem até nome próprio! Os robots do Google são chamados de
Googlebot, os
robots do MSN de
msnbot, os
robots do Yahoo de yahoobot ou
Yahoo! Slurp.
Nem todo o conteúdo de um site deve ser indexado pelos
robots. Páginas de login, páginas repetidas, páginas de impressão são alguns desses exemplos.
O que é robots.txt, então? Como o próprio nome já diz, é um arquivo no formato txt que funciona como um filtro para os
Crawlers, fazendo com que webmasters possam controlar permissões de acesso a determinados pontos dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexado pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raíz da hospedagem.
ROBOTS.TXT - SINTAXE
O arquivo robots.txt tem o papel de criar uma política de acesso para os
Robots. Para a execução dessas tarefas há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site:
User-agent
A função deste comando é apenas dizer quais Robots devem seguir as regras indicadas no Robots.txt. Supondo que você deseje apenas que o mecanismo de busca do google siga as definições constantes no arquivo robots.txt, este deve ser indicado como User-agent: Googlebot. Eis as principais opções:
- Google: User-agent: Googlebot
- Yahoo: User-agent: Slurp
- MSN: User-agent: msnbot.
- Todos os mecanismos: User-agent: *.
Disallow
Este comando diz aos mecanismos qual diretório ou página deve ser impedida de ter o conteúdo verificado. Exemplos:
- Disallow: /images diz aos robots para que não seja indexado o conteúdo do diretório /images
- Disallow: print1.html instrui os robots a não indexarem a página print1.html.
Allow
Este comando diz aos robots qual diretório ou página deve ter o conteúdo verificado. Mas qual seria a necessidade deste comando, sendo que diretórios e páginas são por definição sempre permitidos? Este será útil em situações em que o webmaster bloqueu o acesso a um diretório através do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado.
EXEMPLOS DE ROBOTS.TXT
Exemplo 1: O webmaster não deseja que o conteúdo do diretório /docs seja indexado pelos robots. Dessa bloqueou o acesso ao diretório /docs usando o comando Disallow: /docs no arquivo robots.txt. Dentro deste diretório, porém, existe um sub-diretório chamado "public", que deve ter seu conteúdo indexado. Para que isto aconteça, basta usar no arquivo robots.txt a instrução Allow: /docs/public/.
Exemplo 2: Condere a
seguinte estrutura de um determinado site:
/
Index.html
Contato.html
/Interno
Ambiente.html
/News
Novidades.html
/Admin
Restrito.html
Seguranca.html
robots.txt
Como pode ser observado, há na raíz 2 diretórios e 2 páginas. No diretório "Interno" há 1 página e 1 diretório, cujo nome é "News", onde existe 1 página. No diretório "Admin", podemos observar outras 2 páginas. Ainda na raíz está o arquivo robots.txt.
O webmaster responsável pelo site definiu que o diretório "Interno" terá seu conteúdo bloqueado aos robots, isto é, não deverá ser indexado pelo Google e outros sites de busca. , mas o diretório "News" deverá será indexado. Já o diretório "Admin" deve ser completamente bloqueado. As instruções, segundo o webmaster, devem ser seguidas por qualquer mecanismo de busca. O conteúdo do arquivo Robots.txt deve ser o seguinte:
User-agent: *
Disallow: /Interno
Allow: /Interno/News
Disallow: /Admin
Com as regras acima, os mecanismos irão indexar o conteúdo apenas da raíz e do diretório "News".
EXEMPLOS REAIS DE ROBOTS.TXT
Google: www.google.com.br/robots.txt
Registro.br: http://registro.br/robots.txt
Siciliano: http://www.siciliano.com.br/robots.txt
Você chegou ao final de nosso tutorial. Volte ao início do tutorial Google para rever
os principais conceitos e entender como funciona o Google. Quer contratar uma agência especializada em fazer com que o seu site apareça nas buscas do Google? Conheça a SEO Marketing ou veja os nossos serviços de SEO e Links Patrocinados.