Web invisible

Web invisible
Información sobre la plantilla
Web invisible & visible.JPG
Concepto:Se denomina a la información que no puede recuperarse con los mecanismos o motores de búsqueda comunes en la web.

Web invisible. Término acuñado por la Jill Ellsworth en 1994 para denominar la información que resultaba “invisible” para las maquinarias de búsqueda convencionales en la web. También se la denomina “web profunda” (deep web), por oposición a la “web superficial” (surface web) cuya información puede recuperarse con los buscadores de Internet.

A pesar de su aparente exhaustividad, se calcula que los mayores motores de búsqueda solo indizan entre un tercio y la mitad de los documentos disponibles al público en la Red.

Tipos de contenidos

Según Sherman y Price (2001a) se identifican cuatro tipos de contenidos invisibles en la web: la web opaca (the opaque web), la web privada (the private web), la web propietaria (the proprietary web) y la web realmente invisible (the truly invisible web).

La web opaca

Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

• Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.

• Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.

• Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).

URL desconectados: las generaciones más recientes de buscadores, como Google, presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados a otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

La web privada

Consiste en las páginas web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:

• Las páginas están protegidas por contraseñas (passwords).

• Contienen un archivo “robots.txt” para evitar ser indizadas.

• Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

La web propietaria

Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95 % de la web profunda contiene información de acceso público y gratuito (Turner, 2003).

La web realmente invisible

Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

• Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

• Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.

• Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.

Herramientas de búsqueda

Buscadores

Los buscadores comunes hasta ahora solo pueden recuperar directamente la información que se encuentra disponible en la web y no aquella que se ofrece a través de la web. Desde que se empezó a hablar de la web invisible los buscadores comunes han añadido funcionalidades adicionales para la búsqueda en la llamada web profunda y han surgido buscadores especializados en ese segmento de la web. Estos últimos permiten la búsqueda directa de artículos y documentos en texto completo y recuperan archivos PDF o PostScript.

Metabuscadores

Los metabuscadores pueden presentar limitaciones respecto a las posibilidades de búsqueda de cada buscador por separado. Por ejemplo, cuando la búsqueda es sobre materiales o formatos especiales, resulta más práctico sacar provecho de las opciones avanzadas de búsqueda de los buscadores y, si es necesario, realizar búsquedas sucesivas en varios de ellos. En este sentido, son más recomendables los directorios concentradores de buscadores.

Directorios

La mayoría de los mecanismos que se usan para localizar recursos en la web profunda consisten en directorios de recursos especializados, principalmente bases de datos disponibles de forma gratuita en la red. El patrocinio de las instituciones académicas en la elaboración de los directorios, particularmente de los que son anotados, garantiza la cobertura y calidad de los recursos compilados.

Guías

Las guías de recursos especializados generalmente están elaboradas por bibliotecarios y son una excelente herramienta de búsqueda y localización de recursos, además de constituir un buen instrumento de aprendizaje en el uso de la información.

Motores avanzados

Los motores de pregunta dirigida (directed query engines) tienen la capacidad de realizar búsquedas simultáneas en varias bases de datos en la web. Lexibot y su sucesor, Deep Query Manager, así como Distributed Explorer (Warnick et al., 2001) y FeedPoint, son ejemplos de estos motores avanzados de búsqueda.

Recursos de búsqueda en la web profunda

Buscadores: WebSearch, Scirus, ResearchIndex (CiteSeer)

Metabuscadores: Search.Com, Ixquick, ProFusion

Directorios de buscadores: AlphaSearch, Beaucoup

Directorios: Complete Planet, Infomine, Internet Invisible, AcademicInfo

Motores avanzados: Search4science, Strategic Finder

Fuentes