Crear un archivo /robots.txt

Introducción


Los archivos  /robots.txt puede estar constituido de una o varias reglas, y cada una de ellas bloquea o permite el acceso de un determinado rastreador a una ruta de archivo especificada en un determinado sitio web.

Este articulo es la continuación de “Los robots de paginas web o el archivo /robots.txt“, visto en artículos pasados. A pesar que es la traducción de un documento de Google en Ingles, realmente era la parte que faltaba sobre el tema de los archivos /robots.txt

A continuación se muestra un archivo robots.txt sencillo con dos reglas, que se explican más adelante:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

Explicación:

  1. El agente de usuario llamado “Googlebot” no debe rastrear la carpeta http://example.com/nogooglebot/ ni ninguno de sus subdirectorios.
  2. Los demás agentes de usuario pueden acceder a todo el sitio web. Se podría haber omitido esta regla y el resultado habría sido el mismo, ya que de forma predeterminada se da acceso completo.
  3. El archivo de sitemap del sitio web está ubicado en http://www.example.com/sitemap.xml.

 

Reglas básicas de robots.txt


A continuación se indican algunas reglas básicas sobre los archivos robots.txt. Para escribir o editar archivos robots.txt de tu sitio web, utiliza la herramienta Probador de robots.txt, ya que te permite comprobar su sintaxis y comportamiento cuando rastrea tu sitio web. Consulta también la sintaxis completa de los archivos robots.txt, ya que es un poco más complicada de lo que puede parecer.

Formato y ubicación

Puedes crear un archivo robots.txt con prácticamente cualquier editor de texto. Este editor tiene que poder crear archivos de texto UTF‑8 o ASCII estándar. No utilices procesadores de texto, ya que suelen guardar los archivos en formatos propios y pueden añadir caracteres inesperados como comillas curvas, que pueden causar problemas a los rastreadores.

Reglas de formato y ubicación:

  • El archivo robots.txt tiene que ser un archivo de texto ASCII o UTF‑8. No se permiten otros caracteres.
  • El archivo debe llamarse robots.txt.
  • Un sitio web solo puede tener un archivo robots.txt.
  • El archivo robots.txt debe incluirse en la raíz del host del sitio web al que se aplica. Por ejemplo, para controlar el rastreo de todas las URL de http://www.example.com/, el archivo robots.txt debe ubicarse en http://www.example.com/robots.txt, y no en un subdirectorio como, por ejemplo, http://example.com/pages/robots.txt. Si no sabes con seguridad cómo acceder a la raíz del sitio web o necesitas permisos para hacerlo, ponte en contacto con tu proveedor de servicios de alojamiento web. Si no puedes acceder a la raíz del sitio web, utiliza un método de bloqueo alternativo, como las metaetiquetas.
  • Los archivos robots.txt se pueden aplicar a subdominios como, por ejemplo, http://website.example.com/robots.txt, o en puertos no estándar como, por ejemplo, http://example.com:8181/robots.txt.

Sintaxis

  • Los archivos robots.txt constan de uno o más conjuntos de reglas.
  • Cada regla hace referencia a uno o varios agentes de usuario y describe a qué directorios o archivos pueden acceder y a cuáles no.
  • Las reglas se procesan en el orden en que aparecen en el texto y cada agente de usuario solo puede coincidir con un conjunto de reglas, que será la primera regla más específica que coincida con un agente de usuario determinado.
  • De forma predeterminada, los agentes de usuario pueden rastrear páginas o directorios que no estén bloqueados por una regla Disallow:.
  • El sistema de las reglas distingue entre mayúsculas y minúsculas. Por ejemplo, la regla Disallow: /file.asp se aplica a http://www.example.com/file.asp pero no a http://www.example.com/File.asp.

En los archivos robots.txt se utilizan las siguientes palabras clave:

  • User-agent (agente de usuario): es obligatorio, hay uno o varios por regla, e indica el nombre del robot del motor de búsqueda (software del rastreador web) al que se aplica la regla. La mayoría de los nombres de los agentes de usuario figuran en la base de datos de robots web o en la lista de agentes de usuario de Google. Admite el carácter comodín * en el prefijo, el sufijo o toda la cadena de la ruta. Si se utiliza un asterisco (*) como en el siguiente ejemplo, afectará a todos los rastreadores salvo a los de AdsBot, que deben nombrarse de forma explícita. Consulta la lista de nombres de rastreadores de Google.
# Bloquear todos los rastreadores excepto los de AdsBot
User-agent: *
  • Disallow (bloquear): indica los directorios o páginas del dominio raíz que el agente de usuario no debe rastrear. Debe haber por lo menos una entrada Disallow o Allow en cada regla. Si es una página, se debe indicar el nombre completo de la página que se muestra en el navegador, mientras que si es un directorio debe terminar en “/”.  Admite el carácter comodín * en el prefijo, el sufijo o toda la cadena de la ruta.
  • Allow (permitir): indica los directorios o páginas del dominio raíz que el agente de usuario mencionado anteriormente debe rastrear. Debe haber por lo menos una entrada Disallow o Allow en cada regla. Se utiliza para anular la directiva Disallow y permitir que se rastree un determinado subdirectorio o página de un directorio bloqueado. Si es una página, se debe indicar el nombre completo de la página que se muestra en el navegador, mientras que si es un directorio debe terminar en “/”. Admite el carácter comodín * en el prefijo, el sufijo o toda la cadena de la ruta.
  • Sitemap: indica la ubicación de un sitemap de este sitio web. Puede haber uno, varios o ninguno en cada archivo. Esta línea es opcional, y se pueden especificar varios sitemaps diferentes, cada uno en su propia línea. Los sitemaps son una buena forma de indicar qué contenido debe rastrear Google, frente al contenido que puede o no puede rastrear. Más información sobre los sitemaps

Las palabras clave desconocidas se ignoran.

Otro archivo de ejemplo

Los archivos robots.txt constan de uno o varios bloques de reglas que comienzan con la línea User-agent, que especifica el objetivo de las reglas. A continuación se muestra un archivo con dos reglas, que se explican en comentarios insertados:

# Bloquear el acceso de googlebot a example.com/directory1/... y a example.com/directory2/...
# pero permitir que acceda a directory2/subdirectory1/...
# El acceso a los otros directorios del sitio web está permitido de forma predeterminada.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# Impedir que anothercrawler acceda al sitio web.
User-agent: anothercrawler
Disallow: /

Sintaxis completa de robots.txt


Consulta la sintaxis completa de robots.txt. Lee toda la documentación, ya que la sintaxis de robots.txt tiene partes complicadas que es importante que conozcas.

Reglas útiles de robots.txt

A continuación, se indican algunas reglas de /robots.txt habituales que te pueden resultar útiles:

Regla Ejemplo
Bloquear el rastreo de todo el sitio web. Recuerda que, en algunas situaciones, las URL del sitio web se indexarán aunque no se hayan rastreado previamente. Nota: Esta regla no afecta a los rastreadores de AdsBot, que deben nombrarse explícitamente.
User-agent: *
Disallow: /
Bloquear el rastreo de un directorio y de su contenido, para lo que se debe incluir una barra después del nombre del directorio. Recuerda que, para bloquear el acceso a contenido privado, no se debe utilizar el archivo robots.txt, sino un método de autenticación adecuado. Las URL bloqueadas por el archivo robots.txt se seguirán indexando aunque no se rastreen, lo que puede hacer que se revele la ubicación del contenido privado, ya que cualquier persona puede acceder al archivo robots.txt.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
Permitir que acceda un solo rastreador.
User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir que accedan todos los rastreadores, excepto uno concreto.
User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Bloquear el rastreo de una única página web, para lo que se debe incluir la página después de la barra.
Disallow: /private_file.html
Bloquear una imagen concreta para que no aparezca en Google Imágenes.
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Bloquear todas las imágenes que haya en tu sitio web para que no aparezcan en Google Imágenes.
User-agent: Googlebot-Image
Disallow: /
Bloquear el rastreo de tipos de archivo concretos (por ejemplo, .gif).
User-agent: Googlebot
Disallow: /*.gif$
Bloquear el rastreo del sitio web, pero mostrar anuncios de AdSense en esas páginas, para lo que debes permitir que solo el rastreador web Mediapartners-Google acceda a tu sitio web. Con este comando, las páginas no aparecen en los resultados de búsqueda, pero el rastreador web Mediapartners-Google puede seguir analizándolas para decidir qué anuncios se mostrarán a los visitantes del sitio web.
User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Bloquear las URL que terminen de una forma concreta, para lo que se debe incluir $. Con el código que se indica en el ejemplo, se bloquean las URL que acaben en .xls.
User-agent: Googlebot
Disallow: /*.xls$

 


links & referencias: 

Si deseas mas información o consultar las fuentes bibliográficas, aquí te dejamos…

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *