Indización documental


Indización documental
Información sobre la plantilla
Indizacion documental.jpeg
Concepto:Conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución de una demanda planteada”. Es decir “buscar documentos” que respondan a la necesidad informativa determinada”.
Indización documental. Proceso metodológico-intelectual que consiste en describir y extraer de él o de sus resúmenes unos vocablos especialmente expresivos y con una enorme cara informativa (descriptores) que permiten la clasificación y recuperación de cada artículo o documento publicado, llegar al documento por autor(es), por título del documento, por palabra clave, editores, título de revistas, año de publicación, etc, Es decir, son los mecanismos de descripción, ubicación y difusión de las publicaciones, conocidos como visibilidad en el mundo del conocimiento científico.

Indización

Es el proceso de identificación y asignación de códigos, descriptores o encabezamientos de materia relativos a un documento, de modo que su contenido sea conocido y el índice creado pueda ayudar a recuperar elementos de información.

Variables asociadas con el proceso de indización

Existen diversas formas para realizar el proceso de indización, cada una de las cuales da lugar a un tipo de índice con características especiales en su construcción y en su aplicación como dispositivo de recuperación de la información.

Independientemente del sistema de indización que se utilice hay una serie de variables que inciden en el proceso y que, en gran medida, definen su calidad. Entre estas variables las más importantes son las siguientes:

1. Indizador

2. Colección de documentos

3. Política y las reglas de indización

    • Grado de exhaustividad
    • Profundidad
    • Especificidad

4. Lenguaje de indización

Indizador

Es la persona que realiza el trabajo intelectual de la indización y puede considerarse el factor de mayor importancia de todos los que afectan la calidad de este proceso.

En el trabajo del indizador influyen, además de una serie de rasgos personales, su dominio de la actividad científico informativa y sus conocimientos sobre idiomas extranjeros y sobre la materia o materias de la colección de documentos que tiene que analizar.

Colección de documentos

No se podrá lograr ofrecer un buen servicio de información si la colección no es adecuada o es insuficiente. Aquí influye que el fondo documental sea suficiente, oportuno y pertinente.

Política de indización. Reglas de indización

El sistema de información traza la política de indización, la cual se traduce en una serie de lineamientos para guiar el trabajo del indizador con la finalidad de lograr elaborar índices que funcionen como dispositivos, lo más efectivos posibles en situaciones determinadas, para recuperar la información. Una parte de los lineamientos que emanan de la política de indización se convierten en reglas de indización, o sea en disposiciones concretas que deben cumplirse con exactitud.

La política de indización se traza teniendo en cuenta los intereses de los usuarios y el tipo y volumen de la colección de documentos.

La política de indización establece las pautas para determinar la exhaustividad, profundidad y especificidad de la indización.

Exhaustividad

La materia que abarca el contenido de un documento es la totalidad de tópicos que se tratan en el mismo. La exhaustividad en la indización de un documento se define como el número máximo de diferentes tópicos indizados. Por ejemplo, un documento trata sobre el tópico central A y tres tópicos colaterales B, C y D. Si se indizan los cuatro tópicos el grado de exhaustividad empleado para indizar este documento será máximo.

Profundidad

La profundidad de la indización se define como el número de diferentes términos seleccionados para indizar el documento. Esta variable también se denomina densidad de indización.

Especificidad

La especificidad es una propiedad semántica de los términos, es el nivel de detalle y exactitud con que se representa un concepto dado. Para apreciar el verdadero significado de la especificidad es necesario tener en cuenta uno de los tipos más importantes de relación que existe entre los conceptos, es decir, la relación género/especie.

Por ejemplo, si BIBLIOTECAS representa el género, entonces los diferentes tipos de bibliotecas serán las especies:

  • BIBLIOTECAS ESCOLARES
  • BIBLIOTECAS NACIONALES
  • BIBLIOTECAS PUBLICAS
  • BIBLIOTECAS UNIVERSITARIA

Lenguaje de indización

El vocabulario de lenguaje que proporciona los términos que se pueden usar en la indización, si es muy específico facilita la información específica y si por el contrario carece de especificidad se convertirá en un freno para la indización específica.

Tipos de lenguajes de indización

  • Alfabético por materia (Epígrafes): están dentro de los lenguajes precoordinados, enumerativos que ordenan alfabéticamente los términos y no ofrecen posibilidades para coordinar clases más complejas en el momento de la indización. Actualmente se emplean subepigráfes lo que permite el aumento de la especificidad del lenguaje.
  • Palabras claves: son términos extraídos tal cual se encuentran en los documentos. Estos se escogen empíricamente de los documentos de acuerdo con su actitud para expresar el contenido de la información. Permite una descripción detallada y se presten a todas las combinaciones posibles entre ellas.
  • Descriptores: se utilizan en los sistemas poscoordinados y permiten no solo la recuperación de la información por múltiples aspectos y con cualquier grado de complejidad, sino que también posibilitan y facilitan la utilización de procedimientos automatizados en los sistemas de información.

Componentes de los lenguajes de indización

Vocabulario

Es el conjunto de términos que se utilizan para expresar el contenido informacional de un documento (libro, folleto, artículo, de revista, tesis etc.) o solicitud de información estos términos pueden estar representados por:

  • Palabras aisladas o combinación de palabras
  • Código numérico, alfabético o alfanumérico
  • Códigos en combinación con palabras del lenguaje natural

Aspectos del vocabulario

  • Homonimia: Se elimina con aclaraciones en los significados del término, se colocan entre paréntesis a continuación de los vocablos que sean homógrafos (una misma palabra con 2 o más significado)
    • Ej. Planta (instalación industrial) (Piso de un edificio) (parte inferior de pie) (en botánica)
  • Sinonimia: Se elimina estableciendo un conjunto de clases equivalentes entre los sinónimos o casi sinónimos o sea entre 2 o mas palabras diferentes que tienen diferentes significados iguales o parecidos, se selecciona a una de estas palabras que represente el conjunto y se establecen referencias de (use o véase)
    • Ej. Carbohidratos, Hidratos de carbono, Glúcidos.
  • Relaciones paradigmáticas Estas se manifiestan a partir de una serie de regulaciones paradigmáticas que se establecen en los términos por rasgo común de tipo semántica o morfológico
Sintaxis

Es el conjunto de reglas para combinar los términos del vocabulario en cadenas, frases o en unidades sintácticas capaces de expresar conceptos o significados más completos que no podrían ser expresados si se utilizaran los términos del vocabulario de forma aislada; y se le llama:

  • Relaciones sintagmáticas: relaciones lingüísticas entre términos para formar las cadenas, frases o unidades sintácticas.
Reglas de uso

Sistema sindético: son las relaciones y aclaraciones sobre los términos que sirven de guía para el mejor uso del vocabulario.

  • Relaciones de equivalencia: USE o VÉASE, UP (usado por)
  • Relaciones jerárquicas: TG (término genérico), TE (término específico)
  • Relaciones asociativas: TR (término relacionado)

Fases de la indización

Hay tres fases u operaciones a realizar durante la indización:

  1. Examen del documento: Permite establecer su contenido. Hay que prestar atención las partes más informativas (título, resumen, introducción, conclusiones y títulos de los capítulos) y preguntarse qué, cómo, cuándo y dónde.
  2. Extraer conceptos para identificarlo: Se trata de extraer los conceptos que mejor concreten el tema del documento. Se recomienda el uso de listados controlados.
  3. Selección de los términos de indización: Si se utiliza un lenguaje documental, hay que traducir los conceptos extraídos a los términos del lenguaje. Si se trata de texto libre, conviene que los términos sean aceptados en fuentes de referencia: diccionarios, manuales.

Sistemas de indización

Dentro de los sistemas de indizaciones se encuentran:

Indización con epígrafes

Emplean los epigrafíaríos, que son los lenguajes alfabéticos de materia del tipo precoordinado con vocabularios enumerativo, se conocen como listas de epígrafes o listas de encabezamientos de materia .El constituye el catálogo de materia de las bibliotecas.

Desventaja: no posibilitan la recuperación multifacética y son muy voluminosos por tanto retardan la búsqueda.

Indización Coordinada

Con descriptores. Estos utilizan lenguajes descriptores que posibilitan la recuperación multifacética de la información y facilitan el almacenamiento, son apropiados para los sistemas automatizados.

Desventaja: carecen prácticamente de gramática al indizar un documento se yuxtaponen los descriptores. Pueden producir falsas e incorrectas coordinaciones.

Indización en cadena

Se apoyan en una clasificación facética, estas se basan en la síntesis o sea en la coordinación de los términos en el proceso de indización.

La indización en cadena puede definirse como un método para elaborar un índice alfabético de materia de una forma semiautomática de acuerdo con un proceso que comprende dos fases:

1. El indizador construye la cadena temática que conduce al término de nivel más genérico hacia el término de nivel más específico siguiendo los pasos siguientes:

  • hace el análisis de contenido del documento, extrae los conceptos claves y construye una frase temática
  • consulta la clasificación facética y selecciona las notaciones con los términos correspondiente que representen los conceptos claves contenidos en la frase temática
  • ordena los términos (con sus notaciones) según el orden de citación establecido, construyendo la cadena básica temática

2. A partir de la cadena básica temática se confeccionan las entradas al índice, eliminando de modo sucesivo eslabones en la cadena.

Indización permutada o por rotación

No ofrecen control de vocabulario, sino que utilizan el lenguaje natural libre .Se basan en la rotación de la palabras significativas de los títulos de los documentos o de frases, o de términos compuestos Los índices que se generan son listas alfabéticas de palabras claves presentadas en su contexto.

Generan los llamados índices permutados KWIC y KWOC

Indización de citación

Es un sistema de indización de materia, las palabras que se utilizan como clave de búsqueda son los nombres de determinados autores. Este sistema no se fundamenta en la asignación o extracción de términos para expresar el contenido del documento, se basa en que los autores al publicar sus trabajos suelen presentar un conjunto de referencias bibliografías de los documentos consultados, los cuales tratan de temáticas iguales o afines a los asuntos por ellas tratados, pudiendo ser utilizados como claves para la localización del contenido de materia de los documentos.

Indización de relación o articulada

Los sistemas de relación se apoyan en una serien de principios lógicos con la finalidad de elaborar índices con entradas que se fundamentan en estructuras sintácticas.

Ej. Sistema ASI (articuled subject index) sistema de indización que elabora índices de materia articulados. En este sistema el indizador formula una frase que expresa el contenido esencial del documento. Los términos de esta frase que deben aparecer como entradas al índice las señalas colocando los símbolos < > antes y después de cada término. Las frases marcadas se introducen en la computadora que las procesa para crear una modificación para cada término de entrada.

Características de la indización automatizada

Los factores que hacen posible pensar en el paso de una indización manual a una indización automatizada son, los siguientes:

  • Alto coste de la indización humana (tiempo)
  • Aumento exponencial de la información electrónica y la proliferación del full-text
  • La Gestión Electrónica de Documentos (GED) y a la informatización de los procesos documentales
  • Automatización de los procesos cognitivos y la investigación creciente y los avances en el Procesamiento del Lenguaje Natural (PLN)
  • Automatización de los procesos cognitivos (IA)
  • Investigación en el procesamiento del Lenguaje Natural

Evaluación de la calidad de la Indización

La calidad de las tareas correspondientes al análisis de contenido documental (especificadas en la indización y el resumen) resulta, pues, fundamental para permitir una satisfactoria recuperación de información y una adecuada explicación de los contenidos a los usuarios. Consideramos indicadores de calidad los que miden la coherencia, la pertinencia o precisión, la exhaustividad o respuesta, la consistencia, la densidad informativa, la profundidad, la extensión o tamaño, así como los indicadores temporal, de costes (recursos invertidos en un servicio), del esfuerzo del usuario y de errores.

Para Aumentar el Recobrado y la Precisión

  • La atención, interés, número y pericia de los analistas.
  • Las características de las fuentes a incluir en el repertorio.
  • Los costes, métodos, procedimientos, y tiempo en que se efectúa el análisis.
  • El producto obtenido y su adecuación a los objetivos documentales.
  • El esfuerzo que deba hacer el usuario.
  • E incluso la forma de presentación.

Fundamentos metodológicos

La indización es un proceso que comprende dos fases fundamentales, el cual se puede realizar siguiendo una metodología de trabajo que comprende varios pasos. No se puede establecer una guía de trabajo única, inflexible. Hay una serie de variantes que será necesario introducir acorde con el sistema de indización que se esté aplicando, con el lenguaje que se utilice. Por tanto, la metodología de trabajo que se aplicará en este texto puede servir de guía general para realizar el proceso de indización, pero será necesario tener en cuenta que en cada caso particular habrá que hacerle algunas modificaciones en correspondencia con los principios, objetivos y características del sistema de indización que se vaya a aplicar. En este caso la guía se ha elaborado suponiendo que se va a aplicar un sistema de indización que se compone de:

  • Un lenguaje de indización con un vocabulario autorizado formado por una lista alfabética de términos autorizados y los no autorizados ( sinónimos, casi- sinónimos y otros) . Los términos no autorizados se presentan con una referencia cruzada de USE para indicar el término que debe usarse.
  • Una política de indización que ha trazado una serie de pautas de modo que la indización se realice de acuerdo con los intereses de los usuarios, con el tipo de documentos que se van a indizar, y con una profundidad tal que permite que a cada documento analizado se asigne, en caso necesario, hasta un máximo de 8 términos índices como promedio.

Guía metodológica de trabajo

  1. Se revisa el documento.
  2. Se formula la interrogante ¿es valioso para la colección?. Hay que tomar la decisión de si se debe o no analizar el documento para indizarlo e incluirlo en la colección. Esta decisión se tomará considerando los intereses de los usuarios. Claro está que si la política de selección y adquisición ha sido adecuada los documentos que lleguen a la etapa del procesamiento analítico - sintético es porque son de interés para el sistema. De todos modos este paso es necesario ya que muchos de los trabajos que se van a analizar son artículos de revista. Una revista puede ser importante para el sistema, pero, no obstante, es posible que determinados artículos no respondan a los intereses de los usuarios. Si el documento no es valioso no se analiza, es decir no se sigue el proceso. Se desvía a otro destino donde puede tener mayor utilidad o simplemente se elimina. Por supuesto que si el documento es un artículo de una revista, la cual tiene otros artículos que sí son de interés, no pueden ser desviados ya que sería absurdo mutilar la revista. En los grandes sistemas integrales el personal que hace la selección desvía los documentos, de acuerdo con la rama del conocimiento, hacia los especialistas calificados para que los analicen.
  3. Si el documento es de interés para la colección se anotan los datos bibliográficos en la hoja de trabajo (registro bibliográfico) de acuerdo con las reglamentaciones establecidas por el sistema.
  4. Se analiza el contenido del documento y se asignan los términos para expresar los conceptos claves, utilizando las propias palabras del autor o del indizador. Este es el paso más importante y complejo de todo el proceso.
  5. Se consultarán los términos asignados (TA) con el vocabulario autorizado (VA).
  6. Con cada término asignado se plantea la pregunta: ¿Está el TA en el VA?
  7. Si el término TA está en el VA se utiliza como término índice ( TI) y se escribe en la hoja de trabajo .
  8. Si el TA no está en el VA hay que plantearse la pregunta: ¿Es un identificador? si es un identificador, o sea un nombre propio de personas, institución, organización, se utiliza cómo TI y se escribe en la hoja de trabajo.
  9. Si el TA no es un identificador hay que hacerse la pregunta: ¿Tiene una referencia de USE?
  10. Si el TA no es un identificador, pero tiene una referencia de USE se busca el término autorizado correspondiente y se utiliza como TI añadiéndolo a la hoja de trabajo.
  11. Si el TA no tiene referencia de USE se buscan posibles sinónimos en diccionarios, glosarios u otro tipo de repertorio.
  12. ¿Se encuentra algún sinónimo?
  13. Si se encuentra algún sinónimo hay que averiguar si está ó no en el VA. Si está en el VA se utiliza como TI y se anota en la hoja de trabajo.
  14. Si no se encuentra un sinónimo (o casi-sinónimo) (o si el sinónimo encontrado no está en el VA ) se estudia la posibilidad de incluir en el VA el TA en primera instancia (o el sinónimo encontrado que no está en el VA).
  15. Hay que tomar la decisión si debe o no incluirse en el VA.
  16. Si se toma la decisión de incluir el término en el VA se llena la tarjeta que ordena que sea incorporado el vocabulario y se utiliza como TI adicionándolo a la hoja.
  17. Si se toma la decisión de no incluirlo en el VA no se utiliza como TI y se sigue el proceso con otro TA (paso 5).

Futuro de la indización

A pesar de la proliferación de bases de datos textuales y del hecho de que cada vez son más accesibles por Internet, parece poco probable que la necesidad de indizadores experimentados desaparezca en el futuro más inmediato. La facilidad con que se puede hacer una base de datos accesible a través de Internet anima cada vez más a las organizaciones a desarrollar las suyas propias -por ejemplo, a las bibliotecas para producir bases de datos de recursos importantes a nivel local.

La indización humana, con alguna forma de control de vocabulario, puede aumentar considerablemente la utilidad de tales recursos. Además, las organizaciones pueden construir bases de datos útiles para ellas mismas descargando documentos de diversas fuentes de Internet.

Puede que resulte necesaria una indización local para aumentar el valor de tales bases de datos. Del mismo modo, algunos bibliotecarios están comenzando a darse cuenta de que una función importante de la biblioteca en un entorno digital puede ser la de construir recursos en red relevantes a nivel local. Por último, los desarrollos tecnológicos han creado nuevos retos, como los asociados con la indización de bases de datos de imágenes y sonidos. Puede que pase mucho tiempo antes de que los ordenadores puedan reemplazar totalmente a los humanos en la indización y en las demás tareas de tipo intelectual, necesarias para la recuperación de la información.

Fuente

  • Amat Noguera, N. Documentación científica y nuevas tecnologías de la información. Madrid: Pirámide, 1987.
  • Gimeno Perelló, J. “Sistemas de indización aplicados en bibliotecas: clasificaciones, tesauros y encabezamientos de materias”. En: Tratado básico de Biblioteconomía. Madrid: Síntesis, 1996.
  • González Bravo, Margarita. Indización. Publicado el miércoles, febrero 02, 2011 Disponible en: default Consultado el 6 de julio de 2012.
  • Guinchat, C.; Menou, M.; Blanquet, M-F. Introducción general a las ciencias y técnicas de la información y documentación. Madrid: CINDOC, UNESCO, 1990.
  • Laboire, T.; Halpein, M. y White, H.- Library and InformationScience Abstracting and Indexing services: Coverage, Overlap and Context, en Library and Information Science Abstracts, (1985), 7: 183-195.
  • Lancaster, F. W.- El control de vocabulario en la recuperación de la información. Valencia: Universitat de Valencia, 1996.
  • Naumis Peña, Catalina. Indización y clasificación: Un problema conceptual y terminológico. Disponible en: file Consultada 6 de julio de 2012.
  • Análisis documental. Disponible en:Universidad de Valencia
  • Huancas Vergara, Roberto. Indización con Encabezamiento de Materia en la Biblioteca Central de la Universidad Nacional Mayor de San Marcos. Disponible en:Universidad Nacional Mayor de San Marcos