Spider

Spider
Información sobre la plantilla
Spider1.jpg

Spider o Crawleres. Uno de los componentes que conforman la arquitectura de un buscador. El spider se encarga de la tarea de descubrir nuevos contenidos en la Web.

Ambas palabras son inglesas: Spider = Araña, y Crawler, cuya raíz es crawl que significa arrastrarse. Ambas tratan de dar la idea de un agente que busca (se arrastra) por la web (tela de araña).

Objetivo de este componente

La misión del crawler, decíamos, es descubrir nueva información en la Web. Esta misión tan general como lo es la terminología "nueva información": supone que el spider tenga un conocimiento previo de la Web para poder discernir entre lo nuevo y lo ya conocido, y tenga al menos un mecanismo para explorar la Web.

Estos dos problemas (determinar lo nuevo, y explorar) serán los problemas principales que debe enfrentar un crawler.

Las técnicas para saber si algo es nuevo o no pueden variar en dependencia del objetivo de crawler y el dominio de información al que se aplique.

Para un spider de uso general, no existe tal dominio de la información y por tanto casi no se tiene en cuenta (al menos en la versiones iniciales del crawler donde la base de información explorada todavía es muy reciente y no ha sido posible realizar estudios sobre ella).

Los mecanismos de exploración de un spider de sentido general, pueden basarse sólo en los protocolos y mecanismos actuales para la Web. En algunas circunstancias (spiders locales como Guglebot), los mecanismos de exploración pueden aprovechar cierto conocimiento del ambiente para resolver el problema de una web.

El problema de la Web desconectada

En una Web totalmente conexa (donde potencialmente de una página cualquiera se pudiera llegar a todas las demás páginas en la Web pinchando enlaces) un spider sería capaz de encontrar todas las páginas de la Web.

La realidad es que la Web no es totalmente conexa. Por tanto, hay que proveer de mecanismos externos para introducir nuevos clusters de páginas Web que no puedan ser descubiertos a partir del conocimiento actual de la Web.

Spider2.gif

La figura anterior muestra un conjunto de páginas conocidas por el spider (A), páginas que puede descubrir (B) y páginas que no puede descubrir (¿?).

Un método simple y convencional para resolver este problema es permitirle a los usuarios registrar su sitio Web. De este modo el spider puede obtener esa página para luego indizarla y aumentar su conocimiento de la Web.

Fuente