Google books

Revisión del 08:39 20 ago 2011 de Candelaria2 jc (discusión | contribuciones)
(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Google Books
Información sobre la plantilla
Google-books.jpg
Logotipo de Google Books
DesarrolladorGoogle
GéneroBiblioteca digital de libros
Sistemas Operativos compatiblescualquiera (aplicación web)
Idiomamultilenguaje
Sitio web
Google Books

Google Books Es un servicio que indexa la información contenida dentro de cientos de miles de libros impresos, para poder ofrecer a los usuarios la posibilidad de que encuentren cualquier dato dentro de ellos.

Para indexar esta información, Google ha desarrollado una tecnología propia para escanear los libros y clasificar su información. La idea de Google Books es muy interesante, pero tiene además sus aristas, como por ejemplo los problemas relacionados con los derechos de autor de los libros en cuestión; numerosas demandas se han realizado en contra de la iniciativa, y su futuro aún es considerado por muchos como incierto.

Tecnología

Para obtener los libros y poder escanearlos, Google dispone de dos caminos.El primero, conocido como Programa de Afiliación, está dirigido a todas las editoriales que quieren que sus libros aparezcan en Google Books. Después de todo, este servicio es un buen escaparate para que cualquier persona localice un libro cuyos contenidos le interesan. Buscar una palabra en Google Books lleva menos de un segundo, y hojear todos los libros de una librería puede llevarte mucho tiempo.

Una vez que el usuario haya localizado en Google Books un libro que contiene los términos que andaba buscando, se encontrará con enlaces a varias librerías online donde poder adquirirlo. Por ejemplo en la parte inferior izquierda de esta página.

Para incluir un libro dentro de Google Books, la editorial puede enviarlo físicamente a Google para ser escaneado, o bien enviar un fichero PDF con sus contenidos completos. Hay más información en este enlace.


El segundo camino que tiene Google para obtener los libros es el acuerdo al que ha llegado la compañía con varias bibliotecas de todo el mundo. En las bibliotecas existen libros que no están disponibles ya en las liberías, pero cuya información es muy valiosa para los usuarios.

Así, las bibliotecas ceden a Google los millones de libros que tienen para que sean escaneados. La información de los que aún están con derechos de autor no se muestra en su totalidad. Por ejemplo, este libro es de 1973, aún tiene derechos de autor, pero fue escaneado porque estaba en una biblioteca. Este segundo camino es conocido como Proyecto Biblioteca.

Algo de historia

Interfaz de Google Books

Corría el año 2004 cuando Google anunció una nueva iniciativa anexa a su motor de búsqueda: escanear millones de libros impresos para permitir hacer con ellos un motor de búsqueda y, de paso, conservarlos en formato digital para la posteridad.

En ese esfuerzo, contó con el apoyo de muchas bibliotecas universitarias y públicas. Al principio eran solamente instituciones angloparlantes: las universidades de Stanford, Oxford, Hardvard, Michigan y la biblioteca pública de New York. En los años que siguieron, se unieron instituciones de otras partes del mundo: la universidad Keio de Japón, la Complutense de Madrid, la Universidad Ghent en Holanda, la Bayerische Staatsbibliothek en Alemania, La Bibliothèque Municipale de Lyon, la Universidad de Mysore en India y muchas otras universidades e instituciones gringoparlantes.

El proyecto tomaba la forma de una inmensa metabiblioteca en donde no sólo estaban indexados los libros y su ubicación, sino que apuntaba a replicar también el contenido. Asi pues, Google se dedicó a escanear, un verbo mediante el que nos referimos a la digitalización de cada página más el ulterior reconocimiento de caracteres para llevar estos libros no a fotos sino a texto digital.

Se valieron de sendas cámaras Ephel 323 que permiten digitalizar 1000 páginas por minuto. Claro, en ese tiempo era una cifra respetable, pero hoy hay aparatos 15 veces más rápidos. Como hemos dicho no basta con fotografiar las páginas si el computador no es capaz de leerlas, por lo que Google terminó comprando Recaptcha para enseñar a sus computadores a leer páginas a mal traer.

En su cruzada por escanear al mundo, Google también trabajó con material protegido por derechos de autor: algunos estaban fuera de catálogo hace años y el gigante web asumió que podría escanearlos y poner a disposición de los visitantes un extracto del contenido sin enfurecer a sus autores o a la editorial que los había dejado de ofrecer por última vez.

Contenidos

Como ya se ha indicado, Google Books es un servicio de Google que permite realizar búsquedas en el contenido de libros (y revistas) impresos, así como una posterior navegación y lectura total o parcial de los mismos.

El lector atento habrá detectado una aparente contradicción en la idea que el contenido de material impreso sea a la vez objeto de búsqueda y navegable a través de un sitio web y mediante un navegador estándar. La razón estriba en que se trata de documentos impresos desde el punto de vista de su formato final. Pero no es el formato con el que Google Books trabaja. Lógicamente, para poder proporcionar la clase de prestaciones a las que nos hemos referido sucintamente (se detallarán más adelante) Google Books utiliza necesariamente la versión digital de cada uno de los millones de libros que componen su biblioteca virtual.

Datos cuantitativos

¿Cuántos documentos hay en Google Books? Se trata de una pregunta que es difícil de contestar con precisión y a la cual sólo podemos aportar diversas consideraciones dado que en la página oficial del portal no se ofrece información al respecto.

Lo que sabemos es que el "Proyecto para Bibliotecas" proporciona la cifra oficial de 12 millones de volúmenes digitalizados a finales del 2009, de acuerdo con la declaración de Dan Clancy, uno de los directores de Google Books (Clancy, 2010). A pesar de ello, esto no significa que el total esté disponible a texto completo en la plataforma.

Por otro lado, como hemos señalado antes, en Google Books hay también un número indeterminado de libros que ha sido proporcionado directamente por los editores en formato PDF ("Programa de Afiliación") y que, por tanto, se tienen que añadir a los libros digitalizados directamente por la empresa.

Si consideramos la realización de una búsqueda global en la base de datos para averiguar el número total de documentos nos encontramos con que una buena parte de la lista de resultados corresponde a referencias y no contiene el texto completo. En conclusión, probablemente existan más de una decena de millones de obras, aunque es una cifra meramente orientativa.

Valoración técnica

Antes que nada tiene que destacarse que poner el contenido de millones de libros a disposición de todo el mundo otorga a Google Books un valor fundamental. Por tanto, para decirlo de forma tan directa y clara como nos resulta posible, son los ciudadanos de todo el planeta los principales beneficiarios.

Sin embargo, como han destacado algunos críticos, un análisis pormenorizado de las características y prestaciones de Google Books nos muestra que tiene actualmente diversas deficiencias y limitaciones técnicas especialmente para el público especializado y, singularmente, para los investigadores. Ahora bien, con este tipo de limitaciones sucede lo mismo que con las críticas que al principio de la aparición de los buscadores se hacía a los mismos: son elementos a considerar pero tampoco hay una alternativa real. Dicho de otro modo: o tenemos un Google Books imperfecto o no tenemos nada.

En concreto, las críticas que se han realizado a Google Books se refieren fundamentalmente a cuestiones relacionadas con la catalogación (nombres de autor sin normalizar, errores en la clasificación temática, ejemplares idénticos sin agrupar, etc.); y, en menor medida, con la calidad del escaneo y la fiabilidad del OCR. Bearman (2006) y posteriormente Duguid (2007) fueron de los primeros en exponerlas públicamente.

Más recientemente, Nunberg (2009), en su texto "Google Book Search: a disaster for scholars", las ha detallado con particular concreción. Señala errores en los años de publicación así como en la clasificación temática de los libros —divertidos algunos de ellos— aunque al no ser un estudio sistemático no se puede conocer el porcentaje de error. En cualquier caso, según él, la poca calidad de los metadatos dificulta muchas consultas académicas y demuestra que la extracción automática de metadatos no es suficiente para atender las necesidades de los investigadores.

Se trata de comentarios a los que Google replica descargando las responsabilidades en los proveedores (editores principalmente), que facilitarían metadatos erróneos. Desde el punto de vista técnico, no obstante, el nivel de desarrollo del proyecto si bien responde adecuadamente a las necesidades de un público muy amplio, es posible que no siempre proporcione la calidad suficiente para atender demandas de carácter muy especializado o de carácter académico.

El enfoque del proyecto aplicado por Google es similar al que usó para su buscador (indexación automática de los contenidos, extracción automática de metadatos, acceso a millones de documentos, etc.). Esto genera un número de imprecisiones, pérdidas de información, ruido, etc., superior al existente en sistemas que utilizan alguna clase de catalogación manual junto con esquemas de clasificación, lenguajes controlados, etc. Pero como hemos señalado antes, la indexación automática es la única posibilidad, con todas sus imperfecciones, cuando se trata de indexar el contenido de decenas de miles de millones de documentos (en el caso de los buscadores) y de decenas o centenares de millones de libros.

Por otro lado, muchas de las críticas que se lanzan contra Google Books tendrán sentido cuando exista un proyecto distinto pero susceptible de usos alternativos. Los actuales catálogos de las bibliotecas nacionales no proporcionan la posibilidad de consultar el contenido de sus documentos, no proporcionan funciones de navegación ni de lectura y, por último, se limitan (como parece lógico) a su colección.

Fuentes