Web Crawler ¿Qué son? y ¿Cómo Funcionan?

Un rastreador web es un bot , que busca sistemáticamente en la World Wide Web , por lo general con el propósito de indexación web ( rastreo web ).

El concepto web Crawler proviene del ingles que significa tractor web, arador web o rastreador web, pero se refiere a un software que recorre un sitio web como lo haría un tractor en un campo de siembra o un rastreador para recoger información de las paginas web del sitio.

Los motores de búsqueda web y algunos otros sitios utilizan el rastreo web o software de rastreo para actualizar su contenido de la web o de los índices de contenido web de otros sitios. Los Rastreadores web pueden copiar todas las páginas que visitan para su posterior procesamiento por un motor de búsqueda que los indices de las páginas descargadas por lo que los usuarios pueden buscar en forma mucho más eficiente. Otra utilidad de la información recolectada es para un correcto posicionamiento de las webs en sus resultados SEO, para los casos de buscadores como google.com o de SEM para publicidad.

Una araña web (o araña de la web ), suele ser el termino general mas aceptado en español para los Web Crawler o rastreadores web. Aunque de acuerdo a lo que hemos expuesto este podría ser un termino mal interpretado de la traducción ingles.

Los rastreadores consumen recursos en los sistemas que visitan y suelen visitar sitios sin la aprobación tácita. Las cuestiones de horario, la carga, y “cortesía” entran en juego cuando se accede a las grandes colecciones de páginas. Existen mecanismos para sitios públicos no se desea estar arrastrado a darlo a conocer al agente de rastreo. Por ejemplo, incluyendo un archivo robots.txt puede solicitar a los robots para indexar sólo partes de un sitio web, o nada del contenido en absoluto.

A medida que el número de páginas en Internet es cada vez mayor, incluso los más grandes rastreadores están a la altura de hacer un índice completo. Para que los motores de búsqueda antes eran motivo de dar malos resultados relevantes en los primeros años de la World Wide Web, antes del año 2000. Esta mejora en gran medida por los modernos motores de búsqueda, hoy en día proporciona buenos resultados que se dan al instante.

Rastreadores pueden validar los hipervínculos y HTML código. También se pueden utilizar para Web scraping (véase también la programación basada en datos )

Web Crawler, Funcionamiento y logica
Web Crawler, Funcionamiento y logica

Nomenclatura


Un rastreador web también se puede llamar una araña web , una hormiga , un indexador automática , o (en el FOAF contexto de software) un scutter Web.

 

Información general


Un rastreador Web comienza con una lista de direcciones URL para visitar, llamado las semillas. A medida que el rastreador visita estas direcciones URL, identifica todos los hipervínculos en la página y los añade a la lista de URL para visitar, llamada la frontera de rastreo . URL de la frontera se forma recursiva visitadas de acuerdo con un conjunto de políticas. Si el rastreador está realizando el archivo de los sitios web se copia y guarda la información a medida que avanza. Los archivos se almacenan por lo general de tal manera que se puedan ver, leer y navegar como lo fueron en la web en directo, pero se conservan como “instantáneas”.

El gran volumen implica al rastreador que sólo puede descargar un número limitado de las páginas Web en un tiempo determinado, por lo que necesita dar prioridad a sus descargas. La alta tasa de cambio puede implicar a las páginas que podría ya haber sido actualizados o incluso eliminado.

El número de posibles URL rastreadas siendo generados por el software del lado del servidor también ha hecho que sea difícil para los rastreadores web para evitar recuperar el contenido duplicado.

El contenido duplicado es un término utilizado en el campo de la optimización de motores de búsqueda para describir el contenido que aparece en más de una página Web. El contenido duplicado puede ser una parte sustancial del contenido dentro o/y través de dominios y puede ser o bien duplicar exactamente o muy similar. Cuando existen varias páginas que contienen esencialmente el mismo contenido, los motores de búsqueda como Google puede penalizar o dejar de mostrar el sitio que posee la copia, de los resultados relevantes.

Un sinfín de combinaciones de HTTP GET existen parámetros (basados en URL), de los cuales sólo una pequeña selección anterior obtiene un contenido único. Por ejemplo, un simple galería de fotos en línea puede ofrecer tres opciones a los usuarios, tal como se especifica a través de parámetros HTTP GET en la URL. Si existen cuatro formas de ordenar las imágenes, tres opciones de tamaño miniatura, dos formatos de archivo, y una opción para desactivar el contenido proporcionado por el usuario, a continuación, el mismo conjunto de contenidos se puede acceder con 48 direcciones URL diferentes, todos los cuales pueden estar vinculados en el sitio. Esta combinación matemática crea un problema para los rastreadores, ya que deben ordenar a través de un sinfín de combinaciones de secuencias de comando, cambios relativamente menores con el fin de recuperar el contenido único.

“Teniendo en cuenta que el ancho de banda para la realización de rastreos no es ni infinito ni libre, se hace indispensable para rastrear la Web, no sólo en una forma escalable, pero eficiente, sino tambien alguna medida razonable de calidad o frescura debe ser mantenido.” Un rastreador debe elegir con cuidado en cada paso qué página siguiente visitar.

Política de Arrastre o Rastreo


El comportamiento de un buscador web es el resultado de una combinación de políticas:

  • una política de selección que establece las páginas de descarga,
  • una política de re-visita que establece cuándo debe buscar cambios en las páginas,
  • una política de cortesía que indica cómo evitar la sobrecarga de los sitios Web , y
  • una política de paralelización que indica la forma de coordinar los rastreadores web distribuidos

Política de selección

Teniendo en cuenta el tamaño actual de la Web, incluso los grandes motores de búsqueda cubren sólo una porción de la parte a disposición del público. Un estudio de 2009 mostró incluso a gran escala de los motores de búsqueda índice de no más de 40-70% de la Web indexable; un estudio previo realizado por Steve LawrenceLee Giles mostró que ningún motor de búsqueda indexa más de un 16% de la Web en 1999. Como rastreador siempre se descarga sólo una fracción de las páginas web, es altamente deseable para la fracción descargado poder contener las páginas más relevantes y no sólo una muestra aleatoria de la web.

Esto requiere una métrica de importancia para la priorización de las páginas Web. La importancia de una página es una función de su calidad intrínseca, su popularidad en términos de enlaces o visitas, e incluso de su URL (este último es el caso de los motores verticales de búsqueda restringidos a un único dominio de nivel superior , o motores de búsqueda restringidas a un sitio web fija). El diseño de una buena política de selección tiene una dificultad añadida: tiene que trabajar con información parcial, ya que el conjunto completo de páginas web no se conoce durante el rastreo.

Cho al. Hizo el primer estudio sobre las políticas para el rastreo de programación. Su conjunto de datos estaba a 180.000 páginas se arrastran desde elstanford.edu de dominio, en el que una simulación de rastreo se realizó con diferentes estrategias. Las métricas de pedido que fueron probados son búsqueda de anchuravínculo de retroceso recuento y cálculos parciales Pagerank. Una de las conclusiones fue que si el rastreador quiere descargar páginas con alto Pagerank durante el proceso de rastreo, entonces la estrategia Pagerank es la mejor, seguida de búsqueda de anchura y vínculo de retroceso de recuento. Sin embargo, estos resultados son para un solo dominio. algo que Cho también escribió en su tesis Ph.D. doctoral en Stanford en el rastreo web.

Najork y Wiener realizaron un rastreo real en 328 millones de páginas, usando ordenamiento primero en amplitud. Se encontró que un rastreo en amplitud captura páginas con anticipación alta en Pagerank en el rastreo (pero no compararon esta estrategia contra otras estrategias) . La explicación dada por los autores de este resultado es que “las páginas más importantes tienen muchos enlaces a los mismos desde numerosos ejércitos, y los enlaces se detectan a tiempo, sin tener en cuenta en el que la página principal o el rastreo se origina”

Abiteboul diseñó una estrategia de rastreo basado en un algoritmo llamado OPIC (On-line Computación Página Importancia). En la OPIC, cada página se da una suma inicial de “efectivo” que se distribuye por igual entre las páginas que lo han generado. Es similar a un Pagerank cálculo, pero es más rápido y sólo se realiza en un solo paso. Una descarga de orugas OPIC impulsada primeras las páginas en la frontera que se arrastra con una mayor cantidad de “dinero en efectivo”. Los experimentos se realizaron en un gráfico sintética 100.000 páginas con una distribución de ley potencial de in-enlaces. Sin embargo, no había comparación con otras estrategias ni experimentos en la Web real.

Boldi. Simulación utilizado en diferentes grupos de la Web de 40 millones de páginas de la .it de dominio y 100 millones de páginas desde el rastreo WebBase, probando primero en amplitud contra primero en profundidad, ordenación aleatoria y una estrategia omnisciente. La comparación se basa en lo bien PageRank calculado en un arrastre parcial se aproxima al verdadero valor de PageRank. Sorprendentemente, algunas de las visitas que se acumulan PageRank muy rápidamente (en particular, en amplitud y la visita omnisciente) proporcionan aproximaciones progresivas muy pobres.

Baeza-Yates. Simulación usando en dos subconjuntos de la Web de 3 millones de páginas de la .gr y .cl dominio, probando varias estrategias rastreros. Se mostró que tanto la estrategia OPIC y una estrategia que utiliza la longitud de las colas por el lugar son mejores que en anchura de rastreo, y que también es muy eficaz para utilizar un rastreo anterior, cuando está disponible, para guiar a la actual.

Daneshpajouh. Diseñaron un algoritmo basado en la comunidad para descubrir buenas semillas. Su método rastrea páginas web con alto PageRank de diferentes comunidades en menos iteraciones en comparación con el rastreo a partir de semillas aleatorias. Uno puede extraer buena semilla de una gráfica en la Web rastreado previamente el uso de este nuevo método. El uso de estas semillas un nuevo rastreo puede ser muy eficaz.

La restricción de enlaces seguidos

Un rastreador sólo se puede querer buscar páginas HTML y evitar todos los otros tipos MEDIA/MIME. Con el fin de solicitar sólo los recursos HTML, un rastreador puede realizar una solicitud HTTP HEAD para determinar el tipo MEDIA/MIME de un recurso Web antes de solicitar la totalidad del recurso con una petición GET. Para evitar hacer numerosas peticiones HEAD, un rastreador puede examinar la URL y sólo solicitar un recurso si la URL termina con ciertos caracteres, como .html, .htm, .asp, .aspx, .php, .jsp, .jspx o una barra. Esta estrategia puede causar numerosos recursos Web HTML para ser involuntariamente omitidos.

Algunos rastreadores pueden también evitar la petición de todos los recursos que tienen un “?” En ellos (se producen de forma dinámica) con el fin de evitar las trampas de araña que pueden causar el rastreador para descargar un número infinito de direcciones URL de un sitio Web. Esta estrategia no es fiable si el sitio utiliza la re-escritura de URL para simplificar sus URLs.

El motor de reescritura o Ingenieria de re-escritura  es un componente de software que realiza la re-escritura de URL (localizadores uniformes de recursos), modificando su presentación. Esta modificación se llama la re-escritura de URL. Es una forma de implementar la asignación de URL o de enrutamiento (Mapa de URL) dentro de una aplicación web. El motor es típicamente un componente de un servidor web o framework de aplicaciones web . URL re-escritas (a veces conocidas como cortas , bonitas o direcciones URL de lujo, los motores de búsqueda – SEF URLs, o babosas web”) se utilizan para proporcionar URL más cortas y brindar un aspecto de enlace más relevante a páginas web. La técnica añade una capa de abstracción entre los archivos que se utilizan para generar una página web y la URL que se presenta al mundo exterior.

original
http://example.com/w/index.php?title=Page_title

ingeniería de re-escritura o motor de re-escritura de URL
http://example.com/Page_title

La normalización de URL

Rastreadores suelen realizar algún tipo de normalización de URL con el fin de evitar el rastreo el mismo enlace más de una vez. El término normalización URL , también llamada URL canonicalización , se refiere al proceso de modificación y la estandarización de un URL de una manera consistente. Hay varios tipos de normalización que pueden realizarse incluyendo la conversión de direcciones URL a minúsculas, la eliminación de “.” y “..” segmentos, y posterior adición de rayas verticales para el componente de trazado que no esté vacía.

 


links & referencias: 

si deseas mas información o consultar las fuentes bibliográficas, aquí te dejamos…

Estudiante de la vida, buscando aprender…
Tu solo pregunta, si no tengo la respuesta… ya NO preguntaras solo…

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *