Diferencia entre revisiones de «Sistema de codificación»
(→Evolución de los sistemas de codificación) |
|||
Línea 10: | Línea 10: | ||
== Evolución de los sistemas de codificación<br> == | == Evolución de los sistemas de codificación<br> == | ||
− | La difusión de la informática a culturas de raíz no latina puso rápidamente de manifiesto que 256 caracteres eran insuficientes para contener los grafos de todas las lenguas. Por ejemplo, el [[Cirílico|cirílico]]; el [[Hebreo|hebreo]]; el [[Árabe|árabe]]; el [[Griego|griego]], y el [[Japones|japonés]] por citar algunas | + | La difusión de la informática a culturas de raíz no latina puso rápidamente de manifiesto que 256 caracteres eran insuficientes para contener los grafos de todas las lenguas. Por ejemplo, el [[Cirílico|cirílico]]; el [[Hebreo|hebreo]]; el [[Árabe|árabe]]; el [[Griego|griego]], y el [[Japones|japonés]] por citar algunas. Se hizo evidente la necesidad un sistema con más de 256 posibilidades, lo que condujo a establecer sistemas de codificación en los que cada carácter ocupaba más de un octeto (al menos ciertos caracteres), razón por la cual a estos sistemas se les conoce genéricamente como de [[Caracteres anchos|caracteres anchos]]. La solución adoptada comprende dos grandes grupos: el sistema [[Multibytes|multibyte]] (§2 ) y el sistema de caracteres anchos (§3 ), de los que existen distintas variedades. Generalmente el primero se utiliza en representación externa ([[Almacenamiento|almacenamiento]]) y [[Comunicaciones|comunicaciones]], mientras que el segundo es preferido para representaciones internas.<br> |
== Sistema multibyte<br> == | == Sistema multibyte<br> == |
Revisión del 12:35 31 mar 2011
|
Los sistemas de codificación y la necesidad de la clasificación surge en la necesidad de registrar, enmascarar, ordenar, identificar, agrupar y clasificar fenómenos y para facilitar su registro y transmisión. Ejemplos: códigos Morse, escrituras en claves, códigos de clasificación bibliotecaria, códigos de productos, etc.
Sumario
Evolución de los sistemas de codificación
La difusión de la informática a culturas de raíz no latina puso rápidamente de manifiesto que 256 caracteres eran insuficientes para contener los grafos de todas las lenguas. Por ejemplo, el cirílico; el hebreo; el árabe; el griego, y el japonés por citar algunas. Se hizo evidente la necesidad un sistema con más de 256 posibilidades, lo que condujo a establecer sistemas de codificación en los que cada carácter ocupaba más de un octeto (al menos ciertos caracteres), razón por la cual a estos sistemas se les conoce genéricamente como de caracteres anchos. La solución adoptada comprende dos grandes grupos: el sistema multibyte (§2 ) y el sistema de caracteres anchos (§3 ), de los que existen distintas variedades. Generalmente el primero se utiliza en representación externa (almacenamiento) y comunicaciones, mientras que el segundo es preferido para representaciones internas.
Sistema multibyte
Si se trata de representar juegos de más de 256 caracteres en almacenamientos externos o en sistemas de transmisión, en los que es importante la economía de espacio y/o ancho de banda, la solución ha consistido en utilizar sistemas de codificación multibyte. Conocidos abreviadamente como MBCS ("Multibyte Character Set").
Como su nombre indica utilizan más de un octeto, pero la anchura de los distintos caracteres es variable según la necesidad del momento. Los caracteres multibyte son una amalgama de caracteres de uno y dos bytes de ancho que puede considerarse un superconjunto del ASCII de 8 bits. Por supuesto una convención de este tipo exige una serie de reglas que permitan el análisis ("Parsing") de una cadena de bytes para identificar cada carácter.
Versiones de este tipo de codificación
- JIS (Japanese Industrial Standar). Es utilizado principalmente en comunicaciones, por ejemplo correo electrónico, porque utiliza solo 7 bits para cada carácter. Usa secuencias de escape para conmutar entre los modos de uno y dos bytes por carácter y para conmutar entre los diversos juegos de caracteres.
- Shift-JIS Introducido por Microsoft y utilizado en el sistema MS-DOS, es el sistema que soporta menos caracteres. Cada byte debe ser analizado para ver si es un carácter o es el primero de un dúo.
- EUC (Extended Unix Code). Este sistema es utilizado como método de codificación interna en la mayoría de plataformas Unix. Acepta caracteres de más de dos bytes, por lo que es mucho más extensible que el Shift-JIS, y no está limitado a la codificación del idioma japonés. Resulta muy adecuado para el manejo de múltiples juegos de caracteres.
- UTF-8 (Unicode transformation format). En este sistema, cada carácter se representa mediante una secuencia de 1 a 4 bytes, aunque en realidad, el número de bits destinados a representar el carácter se limita a un máximo de 21 (el resto son metadatos -información sobre información-). El objeto de estos metadatos es que la secuencia pueda ser interpretada a partir de cualquier posición.
Objetivos de los Códigos
- Facilitar el procesamiento.
- Permitir identificación inequívoca.
- Permitir clasificación.
- Permitir recuperación o localización de información.
- Posibilitar establecimiento de relaciones entre diferentes elementos codificados.
- Facilitar el señalamiento de propiedades particulares de los elementos codificados.
Características de los Sistemas de Códigos
- Debe estar adaptado lógicamente al sistema informativo de que forme parte.
- Debe tener precisión necesario para describir un dato.
- Debe mantenerse tan reducido como se pueda.
- Debe permitir expansión.
- Debe ser fácil de usar.
- Deben ajustarse a los requerimientos de los equipos
Tipos de codificación
Cuando hablamos de codificación de caracteres en informática nos referimos al método que permite convertir un caracter de un lenguaje natural (alfabeto o silabario) en un símbolo de otro sistema de representación, por ejemplo en un número, una secuencia de pulsos eléctricos en un sistema electrónico, octetos aplicando normas o reglas de codificación. Esto con la finalidad de facilitar el almacenamiento de texto en computadoras o para facilitar la transmisión de texto a través de la redes de telecomunicaciones, un ejemplo muy simple puede ser el del código morse
Existen dos tipos básicos de sistemas de códigos: los códigos significativos y los no significativos.
Significativos
Como su nombre lo indica son aquellos que implican un significado, es decir, que reflejan en un mayor o menor grado las características del objeto, partida o individuo a los cuales se la asigna.
No significativos
A veces llamados secuenciales o consecutivos) de ninguna manera describen el objeto a que se aplican sino que son simples etiquetas por medio de las cuales se distinguen de otros el objeto.
Existen una gran variedad de métodos de codificación, los que se clasifican de acuerdo a los símbolos que usan:
En sentido general, los códigos alfabéticos y alfanuméricos son efectivos cuando se trata de codificaciones simples, sin muchas clasificaciones y con una cantidad reducida de partidas. Tienen la desventaja que la cantidad limitada de letras no permite mucha amplitud en las clasificaciones, aunque con un carácter alfabético se pueden clasificar 26 posibilidades, lo que puede permitir reducir el tamaño de un código. Además permiten el empleo de recursos nemotécnicos, lo que puede resultar necesario en casos en que se requiera una rápida y fácil interpretación del código.
Fuentes
http://elies.rediris.es/elies3/cap310.htm
http://www.zator.com
sistemas-codificacion-codigos-numericos
tipos-de-codificacion-de-caracteres