URL
|
URL. Sigla en inglés de Uniform Resource Locator, que en español es Localizador uniforme de recursos. Es una cadena de caracteres con la cual se asigna una dirección única a cada uno de los recursos de información disponibles en la Internet. Existe un URL único para cada página de cada uno de los documentos de la World Wide Web, para todos los elementos de Gopher y todos los grupos de debate USENET, y así sucesivamente.
Sumario
Historia
Los localizadores uniformes de recursos fueron una innovación fundamental en la historia de la Internet. Fueron usadas por primera vez por Tim Berners-Lee en 1991, para permitir a los autores de documentos establecer hiperenlaces en la World Wide Web. Desde 1994, en los estándares de la Internet, el concepto de URL ha sido incorporado dentro del más general de URI (uniform resource identifier, en español identificador uniforme de recurso), pero el término URL aún se utiliza ampliamente.
Aunque nunca fueron mencionadas como tal en ningún estándar, mucha gente cree que las iniciales URL significan universal resource locator (localizador universal de recursos). Esta interpretación puede ser debida al hecho de que, aunque la U en URL siempre ha significado "uniforme", la U de URI significó en un principio "universal", antes de la publicación del RFC 2396.
El URL de un recurso de información es su dirección en Internet, la cual permite que el navegador la encuentre y la muestre de forma adecuada. Por ello el URL combina el nombre del ordenador que proporciona la información, el directorio donde se encuentra, el nombre del archivo, y el protocolo a usar para recuperar los datos.
Definición
El formato general de un URL es:
esquema://máquina/directorio/archivo
También pueden añadirse otros datos:
esquema://usuario:contraseña@máquina:puerto/directorio/archivo
Esquema URL
Un URL se clasifica por su esquema, que generalmente indica el protocolo de red que se usa para recuperar, a través de la red, la información del recurso identificado. Un URL comienza con el nombre de su esquema, seguida por dos puntos, seguido por una parte específica del esquema'.
Algunos ejemplos de esquemas URL
- http - (HyperText Transport Protocol), es el protocolo utilizado para transmitir Hipertexto. Todas las páginas HTML en servidores WWW deberán ser referenciadas mediante este servicio. Indicará conexión a un Servidor de la WWW.
- https - (HyperText Transport Protocol Secure), es el protocolo para la conexión a servidores de la WWW seguros. Estos servidores son normalmente de ámbito comercial y utilizan encriptación para evitar la intercepción de los datos enviados, usualmente números de tarjeta de crédito, datos personales, etcétera, realizará una conexión a un servidor de la WWW seguro.
- Ftp - (File Transfer Protocol), utilizará el protocolo FTP de transferencia de ficheros. Se utilizará cuando la información que se desee acceder se encuentre en un servidor de ftp. Por defecto se accederá a un servidor anónimo (anonymous), si se desea indicar el nombre de usuario se usará: ftp://maquina.dominio@usuario, y luego le pedirá la clave de acceso.
- Mailto - Se utilizará para enviar Correo electrónico, todos los navegadores no son capaces. En este caso solo se indicará la dirección de correo electrónico del destino: mailto://alias. correo@domino
- LDAP - búsquedas LDAP Lightweight Directory Access Protocol
- File - recursos disponibles en el sistema local, o en una red local
- News - Accede al servicio de news, para ello el visualizador de la WWW debe ser capaz de presentar este servicio, todos no lo son. Se indicará el servidor de news y como camino el grupo de noticias al que se desea acceder
- Gopher - el protocolo Gopher (ya en desuso)
- Telnet - Emulación de terminal remota, para conectarse a máquina multiusuario, se utiliza para acceder a cuentas públicas como por ejemplo la de biblioteca. Lo normal es llamar a una aplicación externa que realice la conexión. En este caso se indicará la máquina y el login.
- Data - el esquema para insertar pequeños trozos de contenido en los documentos Data: URL
Algunos de los esquemas URL, como los populares "mailto", "http", "ftp", y "file", junto a los de sintaxis general URL, se detallaron por primera vez en 1994, en el Request for Comments RFC 1630, sustituido un año después por los más específicos RFC 1738 y RFC 1808.
Algunos de los esquemas definidos en el primer RFC aún son válidos, mientras que otros son debatidos o han sido refinados por estándares posteriores. Mientras tanto, la definición de la sintaxis general de los URL se ha escindido en dos líneas separadas de especificación de URI: RFC 2396 (1998) y RFC 2732 (1999), ambos ya obsoletos pero todavía ampliamente referidos en las definiciones de esquemas URL.
El estándar actual es STD 66 / RFC 3986 (2005).
Sintaxis genérica URL
Todos los URL, independientemente del esquema, deben seguir una sintaxis general. Cada esquema puede determinar sus propios requisitos de sintaxis para su parte específica, pero el URL completo debe seguir la sintaxis general.
Usando un conjunto limitado de caracteres, compatible con el subconjunto imprimible de ASCII, la sintaxis genérica permite a los URL representar la dirección de un recurso, independientemente de la forma original de los componentes de la dirección.
Los esquemas que usan Protocolos típicos basados en conexión usan una sintaxis común para "URI genéricos", definida a continuación:
esquema://autoridad/ruta?consulta#fragmento
La autoridad consiste usualmente en el nombre o Dirección IP de un Servidor, seguido a veces de dos puntos (":") y un número de Puerto TCP. También puede incluir un nombre de usuario y una clave, para autenticarse ante el servidor.
La ruta es la especificación de una ubicación en alguna estructura jerárquica, usando una barra diagonal ("/") como delimitador entre componentes.
La consulta habitualmente indica parámetros de una consulta dinámica a alguna Base de datos o proceso residente en el servidor.
El fragmento identifica a una porción de un recurso, habitualmente una ubicación en un Documento.
Diferenciación entre mayúsculas/minúsculas
De acuerdo al estándar actual, en los componentes esquema y anfitrión no se diferencian mayúsculas y minúsculas, y cuando se normalizan durante el procesamiento, deben estar en minúsculas. Se debe asumir que en otros componentes sí hay diferenciación. Sin embargo, en la práctica, en otros componentes aparte de los de protocolo y anfitrión, esta diferenciación es dependiente del servidor web y del Sistema operativo del sistema que albergue al servidor.
URL en el uso diario
Un HTTP URL combina en una dirección simple los cuatro elementos básicos de información necesarios para recuperar un recurso desde cualquier parte en la Internet:
- El protocolo que se usa para comunicar,
- El anfitrión (servidor) con el que se comunica,
- El puerto de red en el servidor para conectarse,
- La ruta al recurso en el servidor (por ejemplo, su nombre de archivo).
Muchos navegadores web no requieren que el usuario ingrese "http://" para dirigirse a una página web, puesto que HTTP es el protocolo más común que se usa en navegadores web. Igualmente, dado que 80 es el puerto por omisión para HTTP, usualmente no se especifica.
Dado que el protocolo HTTP permite que un servidor responda a una solicitud redireccionando el navegador web a un URL diferente, muchos servidores adicionalmente permiten a los usuarios omitir ciertas partes del URL, tales como la parte "www.", o el carácter numeral ("#") de rastreo si el recurso en cuestión es un directorio. Sin embargo, estas omisiones técnicamente constituyen un URL diferente, de modo que el navegador web no puede hacer estos ajustes, y tiene que confiar en que el servidor responderá con una redirección. Es posible para un servidor web (pero debido a una extraña tradición) ofrecer dos páginas diferentes para URL que difieren únicamente en un carácter "#".
Referencias
- Tim Berners-Lee, Roy T. Fielding, Larry Masinter. (January 2005).“Uniform Resource Identifier (URI): Generic Syntax”. Internet Society. RFC 3986; STD 66