Diferencia entre revisiones de «Recuperación de información»

(Calidad de la información)
(Calidad de la información)
Línea 52: Línea 52:
 
*Probabilístico: fue propuesto por Robertson y Spark-Jones. Se basa en procesos estocásticos, operaciones de la teoría de la probabilidad y el teorema de Bayes.Se calcula la probabilidad en que el documento responde a la consulta. Frecuentemente utiliza retroalimentación con el usuario.
 
*Probabilístico: fue propuesto por Robertson y Spark-Jones. Se basa en procesos estocásticos, operaciones de la teoría de la probabilidad y el teorema de Bayes.Se calcula la probabilidad en que el documento responde a la consulta. Frecuentemente utiliza retroalimentación con el usuario.
 
== Calidad de la información ==
 
== Calidad de la información ==
Es de gran importancia en la actualidad, que la información recuperada por el usuario sea capaz de satisfacer sus necesidades. Sin embargo, esta es una de las grandes problemáticas que se presenta en los sistemas de búsqueda y recuperación de información presentes en Web, debido fundamentalmente al gran volumen de información almacenada que requiere de mucho tiempo para que el usuario determine lo que le interesa. Por otra parte la información gratuita recuperada no es toda la que se publica, solo se puede acceder con los buscadores tradicionales a una parte de la información científica que generalmente no es relevante a la búsqueda teniendo en cuenta que no todo lo que se publica en Internet es arbitradoPor esta razón se han propuesto criterios para evaluar la calidad de la información recuperada. Pinto Molina considera los siguientes:   
+
Es de gran importancia en la actualidad, que la información recuperada por el usuario sea capaz de satisfacer sus necesidades. Sin embargo, esta es una de las grandes problemáticas que se presenta en los sistemas de búsqueda y recuperación de información presentes en Web, debido fundamentalmente al gran volumen de información almacenada que requiere de mucho tiempo para que el usuario determine lo que le interesa. Por otra parte la información gratuita recuperada no es toda la que se publica, solo se puede acceder con los buscadores tradicionales a una parte de la información científica que generalmente no es relevante a la búsqueda teniendo en cuenta que no todo lo que se publica en Internet es arbitradoPor esta razón se han propuesto criterios para evaluar la calidad de la información recuperada. Pinto Molina considera los siguientes<ref>Ibídem</ref>:   
 
*Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, dse manera que al formular estrategias de búsqueda el usuario utilice términos admitidos.                                         
 
*Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, dse manera que al formular estrategias de búsqueda el usuario utilice términos admitidos.                                         
 
*Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad
 
*Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad

Revisión del 13:24 3 sep 2013

Recuperación de información
Información sobre la plantilla
RI.jpg

Recuperación de información. Está indosolublemente vinculado a la búsqueda de información y consiste en la localización de recursos de información con el propósito de dar solución a necesidades de información específicas.

Antecedentes

Desde los tiempos remotos, el hombre ha tratado de representar información a través de diversos medios. Los soportes han evolucionado; hoy en día la información se representa también digitalmente. Unido a ello, el crecimiento exponencial de la información en Internet, disponible en diversos formatos y sistemas de información ha traído consigo una sobrecarga. Entonces se hace cada vez más importante el procesar toda la información disponible para que pueda ser recuperada y usada con diversos fines.

La Recuperación de Información es un área que ha venido experimentando un creciente interés desde finales de la década de 1950. En la actualidad adquiere una mayor importancia por el valor que tiene la información como recurso para el desarrollo de procesos, para la adquisición de conocimiento, para garantizar la sostenibilidad de las organizaciones actuales ante los constantes cambios del entorno (clientes, competidores, legislaciones, etc.). El éxito de cualquier operación dentro de una organización depende de la información de calidad que dispongan lso decisores e individuos vinculados directamente a la situación.

Definiciones

Es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc. [1]

Proceso donde se accede a una información previamente almacenada, mediante herramientas informáticas que permiten establecer ecuaciones de búsqueda específicas. Dicha información ha debido de ser estructura previamente a su almacenamiento.[2]

Herramientas para la recuperación de información

Técnicas de recuperación de información

Sistemas de recuperación de lógica difusa

Permite formular consultas con frases normales y luego la máquina solo procesa las palabras que considera relevantes, no tomando en cuenta signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos). La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento.

Técnicas de ponderación de términos

La ponderación da un valor adecuado a los criterios de búsqueda, dependiendo de los intereses del usuario, por tanto la recuperación de información depende del valor asignado. El documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.

Técnica de clustering

Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking.

Técnicas de retroalimentación por relevancia

Luego de determinar unos criterios de búsqueda y observar los documentos recuperados se repete nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.

Técnicas de stemming

Elimina las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.

Técnicas lingüísticas

Pretenden acotar de una manera eficaz los documentos relevantes. Lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas alestablecer las consultas.

Modelos de Recuperación de Información

Los modelos de recuperación de información tratan de calcular el grado en que determinado elemento de información responde a determinada consulta. Los tres modelos clásicos y con mayor utilización son:

  • Booleano: basado en la teoría de conjuntos y álgebra de Boole. Mide la correspondencia entre los elementos de la consulta y los documentos.
  • Vectorial: fue planteado y desarrollado por Gerard Salton. Opera mediante el álgebra de vectores. Mide el grado en que divergen los vectores que representan la consulta y los términos del documento.
  • Probabilístico: fue propuesto por Robertson y Spark-Jones. Se basa en procesos estocásticos, operaciones de la teoría de la probabilidad y el teorema de Bayes.Se calcula la probabilidad en que el documento responde a la consulta. Frecuentemente utiliza retroalimentación con el usuario.

Calidad de la información

Es de gran importancia en la actualidad, que la información recuperada por el usuario sea capaz de satisfacer sus necesidades. Sin embargo, esta es una de las grandes problemáticas que se presenta en los sistemas de búsqueda y recuperación de información presentes en Web, debido fundamentalmente al gran volumen de información almacenada que requiere de mucho tiempo para que el usuario determine lo que le interesa. Por otra parte la información gratuita recuperada no es toda la que se publica, solo se puede acceder con los buscadores tradicionales a una parte de la información científica que generalmente no es relevante a la búsqueda teniendo en cuenta que no todo lo que se publica en Internet es arbitradoPor esta razón se han propuesto criterios para evaluar la calidad de la información recuperada. Pinto Molina considera los siguientes[3]:

  • Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, dse manera que al formular estrategias de búsqueda el usuario utilice términos admitidos.
  • Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad

de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.

  • Tasa de acierto: coeficiente resultado de dividir el número de documentos relevantes recuperados entre el número total de documentos relevantes de la colección.
  • Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.
  • Tasa de relevancia: coeficiente resultado de dividir el número de documentos relevantes recuperados, entre el número total de documentos recuperados.
  • Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
  • Tasa de pertinencia: coeficiente resultado de dividir el número de documentos pertinentes recuperados, entre el número total de documentos. recuperados.
  • Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes.
  • Tasa de precisión: coeficiente resultado de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección.

Principales problemáticas de la Recuperación de Información

  • Sobrecarga de información: el creciente volumen de información en la Web a la que se ven expuestos los usuarios, y que genera problemas en el momentos de recuperarla, ya que devuelve al usuario gran cantidad de información no relevante y pertinente para su consulta de información.
  • Silencio documental: información no recuperada y que es relavante. Esto se debe a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.
  • Ruido documental: documentos recuperados por el sistema pero que no son relevantes. Ocurre generalmente cuando la estrategia de búsqueda se ha definido demasiado genérica.
  • Fenómenos léxicos:
    • Polisemia:cuando una palabra tiene varios significados o acepciones.
    • Sinonimia:dos o más palabras distintas con los el mismo significado.

Referencias

  1. Croft WB. Approaches to intelligent information retrieval. Information Proccesing & Management. 1987; 23(4).Citado por:H. Tolosa G, A. Bordignon FR. Introducción a la Recuperación de Información. Conceptos, modelos y algoritmos básicos.2007. Disponible en: RCLIS.Consultado el 28 de agosto del 2013.
  2. Pinto Molina M. Búsqueda y recuperación de información.2004. Disponible en: Página Web Personal. Consultado el 28 de agosto del 2013.
  3. Ibídem

Fuentes