Usuario:Onilda jc.jiguani2

Limpieza de datos en la PC

Limpieza de datos en la PC: es el proceso que se encarga de detectar y eliminar anomalías en los datos y generalmente se relaciona con Almacenes de Datos, debido a que en ellos es necesaria la integración de los datos desde distintas fuentes y éstas pueden, por tanto, introducir errores, diferentes semánticas y formatos para su representación, pero en general en cualquier base de datos operacional o sistema de ficheros puede ser aplicados.

Sumario

1 Caracterísiticas
2 Herramientas de limpieza de datos
- 2.1 Integrity, Vality.
- 2.2 DfPower, Dataflux Corporation.
3 Desafíos y Problemas
4 Referencias
5 Fuente

Caracterísiticas

Cuando se construye una aplicación de bases de datos, generalmente se dedica un gran esfuerzo al diseño de la entrada de éstos para evitar errores en ese proceso. Los lenguajes visuales de hoy dan facilidades de uso de diferentes controles (cuadros de edición, listas, listas desplegables, controles numéricos, etc.) que pueden ayudarnos a lograr una entrada de datos casi libre de errores. Se ha demostrado que cuando este esfuerzo no se hace, el proceso de entrada de datos engendra una razón de error de alrededor de un 5% o # más. Para las bases de datos que ya contienen información, la solución lógica sería tratar de limpiar los datos de alguna forma, lo que llevaría una exploración en el conjunto de datos para determinar los posibles problemas y trabajar en su corrección. Por supuesto, realizar esto manualmente sería muy complejo debido, en principio, a la gran cantidad de horas hombre requeridas (recuerde que hablamos de un gran volumen de datos), pero además esta tarea sería muy laboriosa, consumidora de mucho tiempo y, por tanto, propensa a introducir errores por sí misma. El proceso de limpieza cobra vital importancia cuando la información de una base operacional es llevada a un almacén de datos. En este caso puede suceder que el almacén se nutra de varias fuentes de datos y por tanto es imprescindible homogeneizar los datos de forma que lleguen coherentes. Entre los tipos de errores más frecuentes en los datos se encuentran:

Valores contenidos dentro de atributosde formato libre o valores mal colocados.
Valores de atributos incorrectos.
Diferentes representaciones para los atributos y diferentes significados de los valores.
Artículos duplicados.

Herramientas de limpieza de datos

Existe una gran variedad de herramientas de limpieza de datos. Se clasifican en tres grupos y aunque tienen diferencias están muy relacionadas:

*Herramientas de migración de datos: aquellas que permiten especificar reglas de transformación simples, por ejemplo: reemplazar la cadena "masc" por "masculino".

*Herramientas de lavado de datos: son aquellas que usan conocimiento del dominio específico (por ej. Dirección postal) para realizar el lavado de los datos. Frecuentemente explotan técnicas de análisis y comparación con certidumbre (técnicas fuzzy) para resolver la limpieza de múltiples fuentes.

*Herramientas de Auditoría de datos: aquellas que descubren reglas e interrelaciones explorando los datos y detectando violaciones de las reglas. Estas herramientas pueden ser consideradas variantes de la minería de datos. Entre las más difundidas se encuentran:

Trillium Software System: tienen tres componentes:

*Analizador: estandariza los campos, procesamiento sensitivo al contexto para derivar el significado de palabras en atributos de formato libre.

*Comparación: brinda un conjunto estándar para enlazar artículos compararlos.

*Herramienta para frecuencia automatizada para el análisis de datos: Está dirigido específicamente a la estandarización de nombres y direcciones.

Integrity, Vality.

El problema de limpieza tiene cuatro estados: investigación, estandarización, comparación y consolidación. Se utiliza en la determinación de duplicados. Usado en reingeniería de datos de sistemas legales.

DfPower, Dataflux Corporation.

La limpieza con esta herramienta sigue las siguientes fases: análisis, estandarización, ordenamiento y eliminación de duplicados.

*I.d.Centric. firstLogic: Limpia información relacionada con consumidores. El proceso está compuesto por 6 pasos:

1. Análisis: asegura que los valores correctos sean insertados en cada campo.

2. Corrección: usa algoritmos y tablas de búsqueda para chequear las direcciones.

3. Estandarización: convierte los campos de consumidores a un formato estándar.

4. Ampliación de datos: completa los campos vacíos y añade datos que vienen de fuentes secundarias.

5. Comparación: para cada artículo entrado busca artículos similares ya almacenados.

6. Consolidación: combina los artículos que concuerdan para obtener una vista de consumidores más completa.

Desafíos y Problemas

*Corrección de Error y pérdida de información: El mayor desafío dentro de la limpieza de datos es la corrección de valores, pues incluye el quitar duplicados y entradas inválidas. En muchos casos, la información disponible sobre tales anomalías es limitada e insuficiente de determinar las transformaciones necesarias o correcciones abandonando la tachadura de tales entradas como la única solución. La eliminación de datos aunque, conduce a la pérdida de información que puede ser en particular costosa si hay una cantidad grande de datos suprimidos.

*Mantenimiento de Datos Limpiados: La limpieza de datos es cara y el tiempo consumido es grande. Después de haber realizado la limpieza de datos y el alcanzar una colección de datos sin errores, uno querría evitar la relimpieza de datos integramente después de que se realizan algunos cambios en la base de datos. El proceso sólo debería ser repetido sobre los valores que se han cambiado, esto significa, que debemos guardar un linaje limpiador que requiere una eficiente colección de datos y técnicas de administración de datos.

*Limpieza de Datos en Entornos virtualmente Integrados: En Fuentes prácticamente integradas como DiscoveryLink de la IBM, la limpieza de datos tiene que ser realizada siempre con acceso de datos de diferentes fuentes, con una considerable disminución el tiempo de respuesta y la eficacia.

*Limpieza de datos en el Framework: En muchos casos no será posible llegar a un completo mapa de limpieza de datos, que guíe el proceso por adelantado. Esto hace que la limpieza de datos sea un proceso iterativo que implica la exploración significativa y la interacción que puede requerir un framework, es decir, un marco que incluya una colección de métodos para la detección de errores y la eliminación además de la revisión de datos. Esto puede ser integrado con otras etapas informáticas como la integración y el mantenimiento