Spider Trap, Trampa de la Araña

Una trampa de la araña (o trampa rastreador ) es un conjunto de páginas web que pueden intencionalmente o no ser utilizados para causar a un rastreador webrobot de búsqueda hacer un número infinito de peticiones o provocar un mal funcionamiento sobre su ejecución. Rastreadores web también se llaman rastreadores de telaraña (web crawler), de los que se deriva el nombre. Las trampas de araña pueden ser creados para “capturarspam bot u otros rastreadores que desperdician ancho de banda de un sitio web. También se pueden crear involuntariamente por el uso de los calendarios que utilizan las páginas dinámicas con enlaces que apuntan continuamente al día siguiente, fecha o el año.

Un robot de spam (spam bot) es un programa informático diseñado para ayudar en el envío de correo no deseado. Spam suelen crear cuentas y enviar mensajes de correo basura con ellos. Los servidores de Internet y operadores de sitios web han respondido mediante la prohibición de los spammers, que conduce a una lucha constante entre ellos y los spammers en el que los spammers encuentran nuevas maneras de evadir las prohibiciones y los programas anti-spam, y los anfitriones contrarrestan estos métodos.

Las técnicas más comunes utilizadas son:

  • Creación de estructuras de indefinidamente profundidad de directorios, como:
http: //foo.com/bar/foo/bar/foo/bar/foo/bar / .....
  • Las páginas dinámicas que producen un número ilimitado de documentos para un rastreador web a seguir. Los ejemplos incluyen calendarios y generada mediante algoritmos poesía lenguaje.
  • documentos llenos de un gran número de caracteres, rompiendo el analizador léxico o analizador sintáctico.
  • Utilizar documentos basados con id de sesión que hacen requeridas las cookies.

No existe un algoritmo para detectar todas las trampas de araña. Algunas clases de trampas se pueden detectar de forma automática, sino es que surgen nuevas trampas, no reconocidas rápidamente.

 

La cortesía

Una trampa de la araña provoca a un rastreador web para entrar en algo así como un bucle/lazo infinito, lo que desperdicia los recursos de la araña o rastreador web, reduce su productividad, y, en el caso de un rastreador mal escrito, puede provocar un fallo en el programa. Arañas educadas alternan entre diferentes peticiones hosts y no solicitan documentos a un mismo servidor más de una vez cada varios segundos, lo que significa que un “educado” rastreador web se ve afectado en un grado mucho menor que un rastreador “mal educado“.

Además, los sitios con trampas de araña por lo general tienen un robots.txt contando los robots no ir a la trampa, por lo que una legítima bot “educado” no caería en la trampa, mientras que un bot “mal educado“, que no tiene en cuenta la configuración robots.txt se vería afectado por la trampa.

Este podría considerarse un articulo complementario para:

Los robots de Páginas web o El archivo robots.txt

 


links & referencias: 

Si deseas mas información o consultar las fuentes bibliográficas, aquí te dejamos…

 

Estudiante de la vida, buscando aprender…
Tu solo pregunta, si no tengo la respuesta… ya NO preguntaras solo…

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *