Robots.txt: o que é, como funciona e por que utilizar
BR Software

Robots.txt: o que é, como funciona e por que utilizar

Abraão Almeida
Abraão Almeida

Tabela de conteúdos

Você já ouviu falar sobre estratégia SEO? Trata-se de um conjunto de práticas que ajudam o seu site a obter bons resultados em mecanismos de buscas e podem ter diversas ferramentas como aliadas. Uma dessas ferramentas é o robots.txt.

A sigla SEO significa Search Engine Optimization e pode ser traduzida como otimização para mecanismos de busca.

Na atualidade, essa otimização engloba uma série de técnicas que impulsionam o tráfego orgânico de um site, possibilitando que ele chegue às primeiras posições de uma busca feita no Google, por exemplo.

Assim, o robots.txt representa uma ajuda e tanto no cumprimento deste objetivo. Se você ainda não conhece esta ferramenta, vai tirar suas principais dúvidas ao longo deste artigo.

Nos tópicos seguintes, vamos explicar o que é, para que serve e como você pode utilizar na prática o robots.txt. Continue a leitura!

O que é robots.txt?

Uma forma bastante clara de entender o que é robots.txt é definir o recurso como um arquivo em formato de texto que é utilizado para definir se as páginas de um site não podem ser rastreadas pelos mecanismos de busca.

O arquivo funciona como uma linguagem de programação, com a aplicação de comandos para que as ações sejam executadas pelos robôs.

Para que ele seja corretamente empregado, o arquivo precisa ficar localizado na pasta raiz do site.

Como veremos mais adiante, ele pode ser criado no seu próprio bloco de notas, não sendo necessária uma ferramenta específica para sua criação

Assim, as ações que se referem ao robots.txt vão seguir o Protocolo de Exclusão de Robôs, isto é, um código de padronização e validação das ações desempenhadas pelos robôs.

Com esta padronização, é possível usar o robots.txt para evitar que determinadas páginas, arquivos, imagens ou outros recursos sejam rastreados pelo Google.

Em outras palavras, você pode utilizar o recurso para que determinados conteúdos não estratégicos não sejam exibidos nos resultados das pesquisas.

No próximo tópico, vamos entender melhor a aplicabilidade dessa restrição.

Para que serve o robots.txt?

Você deve estar se perguntando o seguinte: se a estratégia de aplicação do SEO diz respeito ao ranqueamento nas buscas do Google, como o robots.txt pode ajudar nisso?

É um questionamento válido, já que o robots.txt é usado justamente para bloquear o acesso dos rastreadores dos mecanismos de busca.

A questão é que existem páginas específicas do seu site cujo rastreamento pelas ferramentas de busca não é interessante em termos de aplicação das estratégias de SEO.

Monitore Grátis

É o caso, por exemplo, das páginas de login e as páginas com arquivos de acesso exclusivo para os seus clientes.

O robots.txt funciona justamente no sentido de te ajudar a ocultar essas páginas para o público de forma geral.

Talvez seja bem mais interessante que uma outra página, que informe, por exemplo, a história ou os serviços oferecidos pela sua empresa, ganhe maior visibilidade nos mecanismos de busca.

Ao pesquisar pelo nome da sua empresa, é bem melhor que o usuário do mecanismo de busca seja encaminhado para as informações sobre as soluções que você oferece do que para uma página de login cujos dados de acesso ele ainda não possui por ainda não ser um cliente.

Nesse sentido, podem ser bloqueadas com o uso do robots.txt não apenas páginas inteiras, mas também imagens contidas em uma página ou arquivos de recursos.

Além de evitar o rastreamento pelos mecanismos de busca, você também poupa os seus servidores.

Você também pode descobrir quais são as páginas não rastreadas de outros sites. Basta adicionar o comando /robots.txt/ após a url no site em questão.

Agora que você já sabe o que é e para que serve o robots.txt, deve estar interessado em entender como ele funciona na prática, certo?

Falaremos sobre esta parte prática no próximo tópico.

Como utilizar o robots.txt?

Como o próprio nome do recurso já sinaliza, o robots.txt é um arquivo em formato de texto. Isso significa que ele pode ser criado a partir de qualquer editor de texto.

Além de contar com o editor de texto, que pode ser o próprio bloco de notas do seu computador, você precisa ter conhecimento da pasta raiz do seu site.

Isso porque é nesta pasta que o arquivo do robots.txt deve ficar localizado para que os comandos sejam colocados em ação.

Os comandos funcionam como uma linguagem de programação e orientam os robôs dos mecanismos de busca a executarem determinada ação.

Vamos abordar em seguida os principais comandos do robots.txt.

Comando User-agent

O User-agent é usado para que uma ação específica seja realizada pelo robô do mecanismo de busca.

É importante sempre lembrar que o comando precisa ser colocado na pasta raiz do seu site, pois não funcionará adequadamente se inserido em outro local.

Com isso em mente, você precisa definir a qual mecanismo de busca se refere o comando e digitar o nome do robô correspondente após este comando.

Por exemplo, suponhamos que o mecanismo em questão seja o Google. Então, você digitará o seguinte: User-agent: Google Bot.

Caso você queira que todos os mecanismos de busca sigam este comando, você pode digitar: User-agent: *

Comando Disallow

O comando Disallow serve para que um arquivo específico seja excluído dos resultados da pesquisa feita no mecanismo de busca.

Sendo assim, o que você deve digitar no arquivo txt é o seguinte: Disallow:/arquivo/.

Nesse caso, no lugar da palavra “arquivo” você precisa colocar o endereço do arquivo que deve ser bloqueado.

É possível inserir certos níveis de padronização a este comando, como por exemplo, bloquear todos os arquivos cujos nomes comecem com determinada letra.

Você pode digitar, por exemplo: Disallow:/P.

Comando Allow

Este comando funciona como um oposto ao anterior, ou seja, ele permite o acesso dos robôs dos mecanismos de busca a determinado arquivo ou pasta.

Nova call to action

Assim, para utilizá-lo, você deve digitar o seguinte: Allow:/arquivo/.

No lugar da palavra “arquivo”, você deve colocar o endereço do arquivo em questão.

Os comandos Allow e Disallow podem ser usados de maneira combinada, quando você desejar, por exemplo, possibilitar o acesso a um arquivo específico dentro de uma página bloqueada.

Assim, você pode usar a seguinte sintaxe:

Disallow:/arquivos/

Allow:/arquivos/imagem

Comando Sitemap

Este comando serve para você se referir a todas as páginas contidas em seu site. Para utilizá-lo, você pode digitar o seguinte:

Sitemap: endereço do site/sitemap.xml.

Concluindo

As estratégias de SEO não têm a ver apenas com garantir um bom posicionamento no ranqueamento das buscas.

Elas também estão ligadas à necessidade de fazer com que os usuários da internet encontrem exatamente o que estão procurando, é claro, dentro do seu site, sempre que possível.Agora que você já entende a funcionalidade do robots.txt, recomendamos também a leitura do artigo sobre página de manutenção, que deve ser construída para os momentos em que seu site precisa ficar off-line para manutenções e atualizações. Até a próxima!



Junte-se à conversa.