Diferencia entre revisiones de «Crawler»

(Etiqueta: nuestro-nuestra)
(Etiqueta: nuestro-nuestra)
Línea 5: Línea 5:
 
|tamaño=
 
|tamaño=
 
|concepto= Es un pequeño software, un pequeño programa que recorre el entremado de páginas Web de Internet de forma automática y sistemática.
 
|concepto= Es un pequeño software, un pequeño programa que recorre el entremado de páginas Web de Internet de forma automática y sistemática.
}}
+
}}<div align="justify">
 
==Crawler==
 
==Crawler==
 
Crawler, araña Web (también conocida como  Web spider o Web walker) es un pequeño software, un pequeño programa que recorre el entremado de páginas Web de Internet de forma automática y sistemática.
 
Crawler, araña Web (también conocida como  Web spider o Web walker) es un pequeño software, un pequeño programa que recorre el entremado de páginas Web de Internet de forma automática y sistemática.

Revisión del 12:39 25 feb 2015

Crawler (Web spider o Web walker)
Información sobre la plantilla
Webcrawler.gif
Concepto:Es un pequeño software, un pequeño programa que recorre el entremado de páginas Web de Internet de forma automática y sistemática.

Crawler

Crawler, araña Web (también conocida como Web spider o Web walker) es un pequeño software, un pequeño programa que recorre el entremado de páginas Web de Internet de forma automática y sistemática. Las arañas Web (crawlers) se utilizan mucho hoy en día. Su principal uso es en motores de búsqueda, pero éste no es el único uso en absoluto. Las arañas Web (crawlers) pueden utilizarse para multitud de tareas. Por ejemplo, podríamos crearnos una araña Web (crawler) que invite a todos los miembros de Tuenti que salgan de fiesta por Madrid centro y estudien en la Universidad Carlos III de Madrid o podríamos crear una araña Web (crawler) que garantizara que todos los enlaces de nuestra página Web apuntan a páginas activas. Como vemos, el uso de una araña web (crawler) puede ser muy variado, estando los límites establecidos únicamente en la imaginación.

Definición

Una araña Web (crawler) es un tipo especializado de webbot - robot de la Web - que se encaga de llevar a cabo un tipo concreto de tareas. En particular, se encarga de recorrer las páginas Web de Internet, descargarlas al ordenador local, parsearlas y procesarlas.

Las arañas Web (crawlers), como cualquier otro tipo de software, pueden ser utilizadas con fines diversos, aunque el uso más conocido es el de agente software en los motores de búsqueda, donde su función básica es proporcionar al indizador el contenido apropiado para ser indizado. Algunas arañas Web (crawlers) de este tipo son Googlebot o Yahoo slurp, las arañas Web (crawlers) de Google y Yahoo, respectivamente.

Es importante mencionar que también existen arañas Web (crawlers) con fines ilegales: spambots. Estos programas tienen un propósito malicioso y suelen recurrir a técnicas maliciosas como la falsificación de identidad para lograr sus objetivos.


Funcionamiento

Por lo general, una araña Web (crawler) dispone de un conjunto inicial de URLs, conocidas como semillas. La araña Web (crawler) va descargando las páginas Web asociadas a las semillas y buscando dentro de éstas otras URLs. Cada nueva URL encontrada se añade a la lista de URLs que la araña Web (crawler) debe visitar. A este proceso se le denomima recolección de URLs. Existen distintas políticas para escoger la siguiente URL que la araña Web (crawler) visitará. En general, estas políticas se basan en las respuestas a preguntas tipo: ¿Cómo de importante es la página en la que estoy? ¿ Cómo de importante es el sitio en el que se encuentra la página Web actual? ¿He visitado ya alguna página Web del dominio de la página a la que tengo intención de dirigirme?.

Según la araña Web (crawler) accede a una nueva URL, la página web asociada es descargada al ordenador local. Una vez ahí, éstas son parseadas y procesadas. Es importante mencionar que ninguna araña Web (crawler) puede acceder a todas las URLs que hay en Internet, pues el número de páginas existentes es gigantesco.

Estadísticamente, el porcentaje de Internet que suele ser explorado por una araña Web (crawler) es aproximadamente del 15%. Cuando la araña Web (crawler) parsea una página Web, lo que hace es decidir qué partes de ésta son de utilidad. Por ejemplo, puede quedarse sólo con los enlaces, sólo con imágenes, sólo con texto. Tras el parseo, la araña Web (crawler) procesa la información disponible, es decir, aplica algún tipo de algoritmo para conseguir el objetivo establecido. Por ejemplo, comprobar la disponibilidad de un enlace o verificar el tamaño de una imagen. Por último, conviene mencionar algunas de las dificultades a las que las arañas Web (crawlers) se deben enfrentar: enormes cantidades de páginas que recorrer, elevado número de actualizaciones de páginas existentes, páginas que crean su contenido de forma dinámica, redireccionamientos.

Aplicaciones

Para mucha gente, las arañas Web (crawlers) son sinónimo de motores de búsqueda; sin embargo, las posibiladades que una araña Web (crawler) ofrece van mucho más allá. Se puede escribir una araña Web (crawler) que haga lo que cualquier otro webbot puede hacer, con la ventaja de que el alcance logrado sería Internet entero.

La posibilidad de crear arañas Web (crawlers) específicas, abre un nuevo mercado para los desarrolladores Web, un mercado en el que el diseño de arañas Web (crawlers) con tareas concretas cobra gran relevancia, debido a que hoy en día, son cada vez más las empresas que desean incluir arañas Web (crawlers) en su negocio.

A continuación se ofrecen algunas de las aplicaciones que se le podría asignar a una araña Web (crawler):

  • Invitar a todos los miembros de Tuenti que salgan de fiesta por Madrid centro y estudien en la Universidad Carlos III de Madrid
  • Verificar que todos los enlaces de nuestra página Web apuntan a páginas activas.
  • Crear periódicamente un informe de cambios del sitio de una empresa competidora.
  • Realizar un estudio estadístico sobre el uso de un determinado término en páginas españolas.
  • Enviar un mensaje de correo electrónico cuando se añadan noticias a una página de noticias

Por supuesto, esta lista es meramente un ejemplo de lo que se puede conseguir mediante el uso de arañas Web (crawlers). Como se puede observar, en la lista anterior no aparece la funcionalidad principal de las arañas Web (crawlers): proporcionar al indizador de los motores de búsqueda el contenido apropiado para ser indizado.

Referencias