Los robots de Páginas web o El archivo robots.txt

Un archivo /robots.txt es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda.

Los robots web también conocidos como vagabundos web, rastreadores o arañas del web (Wanderers, Crawlers, Spiders), son programas que recorren la Web de forma automática.  Los motores de búsqueda como Google los utilizan para indexar el contenido de la web, los programas de spammers los usan para explorar en busca de direcciones de correo electrónico, entre muchos otros usos.

 

¿Que son? los archivos /robots.txt


En unas pocas Palabras, los propietarios de sitios web utilizan el archivo /robots.txt para proporcionar instrucciones sobre su sitio web a los robots; Esto es llamado el protocolo de exclusión de robots (The Robots Exclusion Protocol).

 

¿Como Funcionan?


Un robot quiere visitar una URL de sitio web por ejemplo nuestro Propio sitio http:// VUXMI.com/raspberry-pi-3-gpio-pin-layout/. Antes de hacerlo, se comprueba la existencia del archivo respectivo en el raíz http:// VUXMI.com/robots.txt y encuentra lo siguiente:

User-agent: *
Disallow: /

El “User-agent: *” significa esta sección se aplica a todos los robots. El “Disallow: /” le dice al robot que no debe visitar cualquier página de la web.

 

Consideraciones en su Utilización


Hay dos consideraciones importantes cuando se utiliza /robots.txt:

  • Los robots pueden ignorar el uso del archivo /robots.txt. Especialmente los robots de uso malware que exploran la web en busca de vulnerabilidades de seguridad, y cosechadores de direcciones de correo electrónico que son utilizadas por los spammers, que son probablemente los que no hagan caso del mismo.
  • El /robots.txt es un archivo a disposición del público. Cualquiera puede visualizar qué secciones de su servidor ha declarado que NO desea que los robots exploren para su uso.

NO trate de usar /robots.txt para ocultar la información.

 

¿Cuáles? son las implicaciones de seguridad de /robots.txt


Algunas personas les preocupa que las listas de páginas o directorios en el archivo /robots.txt podrá invitar a accesos no deseados. Hay dos respuestas a esto.

La primera respuesta es una solución: Se puede poner todos los archivos que NO desea que los robots visiten en un subdirectorio separado, hacen que el directorio Sin Privilegios de listarse en tu sitio web (mediante la configuración de su servidor) y, a continuación colocar sus archivos susceptibles allí, y lista sólo el nombre del directorio en el /robots.txt. Ahora un robot de mala voluntad no va a atravesar ese directorio a menos que usted u otra persona ponga un enlace directo en la web para uno de sus archivos, y  esto dejaría ser responsabilidad del archivo /robots.txt.

Un ejemplo podría ser, en lugar de:

User-Agent: *
Disallow: /foo.html
Disallow: /bar.html

crear el archivo /robots.txt siguiente:

User-Agent: * 
Disallow: /norobots/

Al hacer un directorio “norobots”, poner foo.html y bar.html en él, y configurar el servidor para no generar un listado de directorio para ese directorio. Ahora todo lo que un atacante podría aprender es que usted tiene un directorio “norobots”, pero no será capaz de enumerar los archivos contenidos en este; y se ve obligado a adivinar sus nombres.

Sin embargo, en la práctica esto es una mala idea, es demasiado frágil. Alguien puede publicar un enlace a los archivos en su sitio. O se puede convertir en un archivo de registro de acceso público, por ejemplo del servidor proxy que del usuario, o tal vez se mostrará en el registro del servidor web de alguien como referente. O alguien puede desconfigurar el servidor en una fecha futura, “fijar” lo que muestra un listado de directorio. Lo que me lleva a la verdadera respuesta:

La verdadera respuesta es que /robots.txt no está destinado al control de acceso, así que no intente utilizarlo como tal. Piense en ello como una señal de “prohibido el paso”, NO una puerta cerrada con llave.

Si tiene archivos en su sitio web que usted no quiere que personas no autorizadas accedan, a continuación, configurar el servidor para realizar la autenticación, autorización y configuración apropiada. Una Autenticación básica ha existido desde los primeros días de la web (y en, por ejemplo Apache en UNIX es un trivial caso para configurar). Los sistemas modernos de gestión de contenidos compatibles con los controles de acceso en las páginas y colecciones de recursos individuales poseen esta capacidad.

 

Especificaciones y Estándares


El /robots.txt es un estándar “de facto“, y no es propiedad de ningún organismo de normalización. Hay dos descripciones históricas:

Además, hay recursos externos:

La norma /robots.txt no se desarrolla de forma activa, lamentablemente hoy en día.

 

¿Cómo? crear un archivo /robots.txt


¿Donde ponerlo?

La respuesta corta: En el directorio de nivel superior de su servidor web.

La respuesta larga:

Cuando un robot busca el archivo “/robots.txt” para una URL, se despoja a la componente de la ruta de la dirección URL (todo, desde la primera barra individual), y pone “/robots.txt” en su lugar (como vimos al inicio en el apartado ¿Como Funcionan?)

Así que, como propietario de un sitio web es necesario ponerlo en el lugar correcto en el servidor web para que la URL resultante pueda trabajar correctamente. Por lo general, que es el mismo lugar donde se coloca la página de bienvenida de su sitio web principal “index.html”. ¿Dónde? exactamente este, y ¿cómo? poner el archivo, depende de su software de servidor web (habitualmente hablamos de un FTP).

Recuerde que debe utilizar todo en minúsculas para el nombre de archivo: “robots.txt”, y NO “Robots.txt”.

¿Qué poner?

El archivo “/robots.txt” es un archivo de texto, con uno o más lineas. Por lo general, contiene un único registro con este aspecto:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

En este ejemplo, se excluyen tres directorios.

Tenga en cuenta que necesita una línea separada “Disallow” para cada prefijo de URL que desea excluir, NO se puede decir “Disallow: / cgi-bin / / tmp /” en una sola línea. Además, puede que no tenga líneas en blanco en un archivo, ya que se utilizan para delimitar varios declaraciones.

Tenga en cuenta también que se estaban utilizando comodines y expresiones regulares que NO son compatibles, ya sea en el User-agent o no permitir líneas. El “*” en el campo User-agent es un valor especial que significa “cualquier robot”. En concreto, no se puede tener líneas como “User-agent: * * bot”, “Disallow: / tmp / *” o “Disallow: * .gif”.

Lo que se quiere excluir depende de su servidor. Todo lo que no se considera rechazado explícitamente sera presa fácil de recuperar para los robots. He aquí algunos ejemplos:

User-agent: *
Disallow: /
User-agent: *
Disallow:

Lo anterior puede ser fácilmente implementado con un archivo vació “/robots.txt”.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
User-agent: BadBot
Disallow: /
User-agent: Google
Disallow:

User-agent: *
Disallow: /
User-agent: *
Disallow: /~joe/stuff/

Este es actualmente un poco incómodo, ya que no hay campo “Allow”. La manera más fácil es poner todos los archivos que No se van permitir en un directorio aparte, es decir “cosas/paginas/script”, y dejar el archivo en el nivel por encima de este directorio “/~joe/stuff/”.

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

 

Para finalizar te recomendamos visitar nuestro Articulo sobre Preguntas Frecuentes (FAQ) a este tema.

El archivo robots.txt Preguntas Frecuentes

 


links & referencias: 

Si deseas mas información o consultar las fuentes bibliográficas, aquí te dejamos…

Estudiante de la vida, buscando aprender…
Tu solo pregunta, si no tengo la respuesta… ya NO preguntaras solo…

6 thoughts on “Los robots de Páginas web o El archivo robots.txt

  1. Heya i am for the first time here. I came across this board and I find It truly useful & it helped me out a lot. I hope to give something back and help others like you aided me.

  2. Many thanks for creating the effort to discuss this, I feel strongly about this and like learning a great deal more on this topic. If possible, as you gain expertise, would you mind updating your weblog with a great deal more info? It’s extremely helpful for me.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *