El archivo robots.txt Preguntas Frecuentes

Preguntas Frecuentes


Existe toda una gama de preguntas que podrían surgir en la búsqueda de comprensión y utilización del tema de los archivo robots.txt, a continuación resumimos algunas de ellas.

Este articulo es la continuación de:

Los robots de Páginas web o El archivo robots.txt

 

¿Puedo bloquear sólo los robots malos?

En teoría sí, en la práctica, no. Si el robot malo obedece /robots.txt, y usted conoce que el nombre se escanea en el campo User-Agent (ejemplo formulario). A continuación, se puede crear una sección en su /robotst.txt para excluir este específicamente. Sin embargo, casi todos los robots malos ignoran /robots.txt, por lo que NO tiene sentido.

Si el robot malo opera desde una única dirección IP, puede bloquear su acceso a su servidor web a través de la configuración del servidor o con un firewall de la red.

Si copias del robot funcionan desde un montón de diferentes direcciones IP, tales como PCs secuestrados que son parte de una gran red de bots (Botnet), a continuación, se hace más difícil. La mejor opción, es utilizar la configuración de reglas de firewall avanzado que bloquea automáticamente el acceso a direcciones IP que hacen muchas conexiones; pero esta practica puede golpear robots buenos en su intento de evadir a sus malos robots.

¿Por qué? un robot ignore mi /robots.txt

Podría ser por un mal algoritmo de software que no reconoce el archivo correctamente. De vez en cuando las escuelas solicitan a sus estudiantes “escribir un robot web” como asignacion. Sin embargo, en estos días es más probable que el robot está escrito explícitamente para escanear su sitio para obtener información con fines abusivos: que podría recoger direcciones de correo electrónico para enviar spam electrónico, buscar formas para publicar enlaces (“spamdexing“), o agujeros de seguridad para explotar .

¿Qué? programa debo utilizar para crear /robots.txt

Se puede utilizar cualquier software que produzca un archivo de texto sin formato.

En Microsoft Windows, el uso notepad.exe, o wordpad.exe (Guardar como documento de texto), o incluso Microsoft Word (Guardar como texto sin formato). En Macintosh, utilice edición de textos (Formato> Convertir en texto normal, a continuación, Guardar como Occidental) y en Linux, vi o emacs.

¿Cómo uso? /robots.txt en una máquina virtual

El término “máquina virtual” se utiliza a veces para significar varias cosas diferentes:

Un servidor web “máquina virtual” utiliza el encabezado de host HTTP para distinguir las solicitudes a diferentes nombres de dominio en la misma dirección IP. En este caso, el hecho de que el dominio está en un servidor compartido, NO hace ninguna diferencia para cualquier visita de un robot web, y se puede poner un archivo en el directorio /robots.txt dedicada a su dominio.

Un “servidor virtual” ejecuta un sistema operativo independiente en una máquina virtual, como VMWare o Xen. Una vez más, a un robot esto es un equipo independiente.

¿Cómo uso? /robots.txt en un servidor compartido

Si comparte un host con otras personas, y tiene una URL como http://www.example.com/~username/ o http://www.example.com/username, entonces no puede tener su propio archivo /robots.txt. Si desea utilizar /robots.txt usted tendrá que preguntar al administrador de Servicio Web para proporcionarle ayuda.

¿Cómo evito? los robots mal intencionados

El siguiente articulo te puede ser de mucha utilidad.

Spider Trap, Trampa de la Araña


links & referencias: 

Si deseas mas información o consultar las fuentes bibliográficas, aquí te dejamos…

Estudiante de la vida, buscando aprender…
Tu solo pregunta, si no tengo la respuesta… ya NO preguntaras solo…

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *