Ley de Zipf


Ley de Zipf
Información sobre la plantilla
Concepto:Es una ley empírica bibliométrica que determina la distribución de las frecuencias de utilización de palabras en los textos.

Ley de Zipf. Es una ley empírica bibliométrica que determina la distribución de las frecuencias de utilización de palabras en los textos. Se fundamenta en lo que Zipf denominó el "Principio del mínimo esfuerzo": si un repertorio comunicativo es demasiado unificado o repetitivo, entonces solo son posibles unos pocos mensajes para expresar todo un surtido de informaciones y, entonces, la complejidad comunicativa será baja.

Reseña

Ley de Zipf, delinea sus orígenes en un estudio desarrollado por el profesor George K. Zipf con respecto a las frecuencias relativas de empleo y modificación en el uso de fonemas, que después paso al empleo de palabras en los textos, de los cuales se derivo la publicación de tres textos por parte del autor. Zipf formuló la Ley en 1933.

La adaptación generalizada de la Ley es r¢f = c, donde ¢ es la pendiente de la línea de los datos, r es la línea de la palabra, f es la frecuencia y c es una constante. La investigación primaria mostraba una mejor relación entre los rangos centrales que los del final y el corpus debería ser al menos de 5000 palabras para que rf sea constante. En trabajos sobre lenguaje natural, rf muestra un consistente crecimiento ligero según aumente r, en lugar de permanecer constante.

Benoit Mandelbrot presentó una transformación de la Ley de Zipf, provocando que esta Ley, administra un mejor ajuste a los datos típicos, especialmente en las categorías bajas y palabras de alta frecuencia.

Descripción

El enunciado de esta ley se expresa de la siguiente manera:

«El producto que resulta de multiplicar las frecuencias (f) de observación de las palabras de los textos por el valor numérico (r) del rango que ocupan estas palabras en una distribución de frecuencias de observación, es constante.»[1]

La ley de Zipf maximiza esta eficiencia comunicativa y minimiza el coste de comunicación (Ferrer y Solé, 2003), con un rango de exponentes al parecer limitado (Ferrer, 2005b; 2006) y donde las palabras más conectadas de la red generalmente desempeñan papeles sintácticos relevantes (Ferrer et al., 2004). Esta ley también implica la conectividad entre palabras (Ferrer, Bollobás y Riordan, 2005), un requisito para la sintaxis.

En relación con la conectividad, la gramática y el léxico son aspectos emergentes del lenguaje ligados a la conectividad de los elementos lingüísticos (Bates y Goodman, 1999). Así, las palabras de alta frecuencia suelen ser palabras de bajo contenido semántico y enorme importancia sintáctica por estar muy conectadas en la red lingüística (Ferrer, 2006), mientras que las de baja frecuencia suelen tener menor relevancia sintáctica y en cambio un mayor significado (Ferrer et al., 2005).

La dependencia que indica la ley de Zipf se encuentra no solamente en muchos de los idiomas modernos, sino también en lenguajes especiales como la hagioantroponomía, que estudia el empleo del nombre de los santos como sobrenombres o apodos de personas; también lo estudia en su uso relativo a los apellidos de familias.[2]

Aplicación

La aplicación más frecuente de esta ley está en el área de diseño de sistemas de información que utilizan lenguajes controlados, y/o definición de campos temáticos específicos, además de los estudios lingüísticos cuantitativos. Se aplica de acuerdo con esta metodología:

  • Ordenación decreciente de las palabras.
  • Multiplicación de la frecuencia por el rango.
  • Obtención de la media para términos de frecuencias iguales, que tiene cómo efecto disponerlos en orden alfabético.
  • Se elegirían como palabras de indización aquellas que tuviesen una frecuencia de aparición superior a la constante C determinada por esta ley.

La aplicación de la Ley de Zipf en los procesos del Análisis Documental tiene dos funciones primordiales: la recuperación de información y la indización automática. La etapa de identificación y adquisición de componentes representativo de un dominio esta integrado por cinco procesos ("Análisis léxico", "Tratamiento de palabras vacías", "Tratamiento de términos flexionados", "Tratamiento de palabras compuestas", "Filtrado de términos"), en este último es dónde la Ley de Zipf es aplicada.

Véase también

Referencias

  1. FERREIRO Alaez, L. Bibliometría. Análisis bivariante. Madrid, EYPASA, 1993. 480p. Consultado el 15 de agosto de 2014.
  2. El caos ordena la lingüística. La ley de Zipf. Disponible: http://bibliotecadigital.ilce.edu.mx/sites/ciencia/volumen3/ciencia3/150/htm/sec_23.htm. Consultado el 15 de agosto de 2014.

Fuentes

  • Hernández-Fernández, Antoni; Diéguez-Vide, Faustino. La ley de Zipf y la detección de la evolución verbal en la enfermedad de Alzheimer. Anuario de Psicología, vol. 43, núm. 1, abril, 2013, pp. 67-82. Disponible en: http://www.redalyc.org/pdf/970/97027472005.pdf. Consultado el 15 de agosto de 2014.
  • Setién Quesada E. (1995). Aportes metodológicos sobre la actividad bibliotecaria en el Ministerio de Cultura de Cuba. Boletín Bibliotecas, No.2 p.24. Consultado el 15 de agosto de 2014.
  • Morales Morejón, M. (1997). Glosario de términos bibliométricos. IDICT: PROINFO, 1997. Consultado el 15 de agosto de 2014.
  • Estudio métrico de información en bases de datos internacionales del periodo 1990 al 2006. Disponible en: http://www.bibliotecaenba.sep.gob.mx/tesis/35.pdf. Consultado el 15 de agosto de 2014.