el HTML ha sido funcionando desde el 1991, pero el HTML 4.0 (el diciembre de 1997) era la primera versión estandardizada donde los carácteres internacionales fueron dados el tratamiento razonablemente completo. Cuando un documento del HTML incluye los carácteres especiales fuera de la gama de metas ASCII dos del siete-pedacito valen el considerar: integridad de la información, y exhibición universal del hojeador .

La codificación del carácter del documento

Cuando se sirven los documentos del HTML hay tres maneras de decir al hojeador qué codificación específica del carácter debe ser utilizada para la exhibición al lector. Primero, los jefes del HTTP se pueden enviar por el web server junto con cada Web page (documento del HTML). Un jefe típico del HTTP parece esto:

Contenido-Tipo: texto/HTML; charset=ISO-8859-1

Para HTML (no generalmente XHTML ), el otro método está para que el documento del HTML incluya esta información en su tapa, dentro del elemento de HEAD.

< http-equiv=" de la meta; Contenido-Type" content=" texto/HTML; charset=US-ASCII" >

Los documentos XHTML tienen una tercera opción: para expresar la codificación del carácter en el preámbulo XML, por ejemplo

¿<? version=" del xml; 1.0" encoding=" ¿ISO-8859-1"? >

Estos métodos cada uno aconsejan el receptor que el archivo que es enviado las aplicaciones que la codificación del carácter especificó. La codificación del carácter se refiere a menudo como el " " del juego de caracteres; y limita de hecho los carácteres en el texto original crudo. Sin embargo, los estados estándar del HTML que el " charset" es ser tratado como codificación de los carácteres de Unicode y proporciona una manera de especificar los carácteres que el " charset" no cubre. La página de código del término también se utiliza semejantemente.

Es una mala idea enviar la información incorrecta sobre la codificación del carácter usada por un documento. Por ejemplo, un servidor donde los usuarios múltiples pueden colocar los archivos creados en diversas máquinas no puede prometer que todos los archivos que envía se ajustará al &mdash de la especificación del servidor; algunos usuarios pueden tener máquinas con diversos juegos de caracteres. Por esta razón, muchos servidores no envían simplemente la información en absoluto, así evitando haciendo promesas falsas. Sin embargo, esto puede dar lugar a la situación igualmente mala donde el agente de usuario exhibe el documento incorrectamente porque ni uno ni otro que enviaba el partido ha especificado una codificación del carácter.

La especificación del jefe del HTTP reemplaza todas las especificaciones de la etiqueta de la meta del HTML (o XHTML), que pueden ser un problema si el jefe es incorrecto y uno no tiene el acceso o el conocimiento para cambiarlos.

Los hojeadores que reciben un archivo sin la información de la codificación del carácter deben hacer una asunción oculta. Que las idiomas de Europa occidental, es típico y bastante seguro asuman el windows-1252 (que es similar al ISO-8859-1 pero tiene carácteres imprimibles en lugar de algunos códigos de control que se prohíban en el HTML de todos modos), pero es también campo común para que los hojeadores asuman al natural del juego de caracteres a la máquina en la cual están funcionando. La consecuencia de elegir incorrectamente es que aparecen los carácteres fuera de la gama imprimible del ASCII (32 a 126) generalmente incorrectamente. Esto presenta los pocos problemas para el inglés - usuarios de discurso, pero el otro &mdash de las idiomas regularmente; en algunos casos, siempre — requerir el exterior de los carácteres que se extiende. En ambientes CJK donde hay varias diversas codificaciones del multi-octeto funcionando, la auto-detección se emplea a menudo.

Es cada vez más común para que los Web site multilingües utilicen uno Unicode /de los formatos de la transformación de la ISO 10646, como éste permite el uso de la misma codificación para todas las idiomas. El UTF-8 se utiliza generalmente algo que el UTF-16 o el UTF-32 porque es más fácil dirigir en los lenguajes de programación que asumen una codificación Byte-oriented del sobreconjunto ASCII, y es eficiente para el texto ASCII-pesado (que el HTML tiende a ser).

La visión acertada de una página no es necesario una indicación que su codificación está especificada correctamente. Si creador de la página y lector es ambos si se asume que una cierta codificación machine-specific del carácter, y el servidor no envía ninguna información de identificación, después el lector no obstante verá la página como el creador pensó, pero otros lectores con diversos sistemas nativos no verán la página según lo previsto.

Referencias de carácter

considera también: Referencia de entidad del carácter,

la referencia de carácter numérico

Además de codificaciones nativas del carácter, los carácteres se pueden también codificar como referencias de carácter del, que pueden ser las referencias de carácter numérico del ( decimal o hexadecimal) o las referencias de entidad del carácter del . Las referencias de entidad del carácter también se refieren a veces como las entidades entidades nombradas del, o del HTML del para el HTML. El uso del HTML de las referencias de carácter deriva de SGML .

Las referencias de entidad del carácter tienen el & del formato; conocido; donde " name" es una secuencia alfanumérica con diferenciación entre mayúsculas y minúsculas. Por ejemplo, el carácter “λ” se puede codificar como & lambda; en un documento del HTML 4. < de los carácteres;, >, " y y se utilizan para delimitar etiquetas, valores de cualidad, y referencias de carácter. & de las referencias de entidad del carácter; lt; , & GT; , & quot; y & amperio; , que se predefinen en el HTML, XML, y el SGML, se puede utilizar en lugar de otro para las representaciones literales de los carácteres.

Las referencias de carácter numérico pueden estar en el formato decimal, DD &#; , donde está una cadena la DD del del de la variable-anchura de dígitos decimales. Semejantemente hay un formato hexadecimal, HHHH del &#x; , donde está una cadena de la variable-anchura de dígitos hexadecimales, aunque muchos la consideran buena práctica nunca de utilizar menos de cuatro dígitos hex, y nunca utiliza el HHHH del un número impar de los dígitos hex (debido a la correspondencia de dos dígitos hex a un octeto). Desemejante de entidades nombradas, las referencias de carácter hexadecimales son sin diferenciación entre mayúsculas y minúsculas en el HTML. Por ejemplo, el λ se puede también representar como & #955; , & #x03BB; o & #X03bb; .

El numérico de las referencias refiere siempre a puntos de código del juego de caracteres universal, sin importar la codificación de la página. Usar las referencias numéricas que refieren a gamas del código de control del UCS se prohíbe, a excepción del avance de línea, de la lengüeta, y de los carácteres de retorno del carro. Es decir, los carácteres en las gamas hexadecimales 00-08, 0B-0C, 0E-1F, 7F, y 80-9F no se pueden utilizar en un documento del HTML, no incluso por la referencia - tan " & #153; ", por ejemplo, no se permite. Sin embargo, para la compatibilidad hacia atrás con los autores tempranos y los hojeadores del HTML que no hicieron caso esta restricción, los caracteres brutos y las referencias de carácter numérico en la gama 80-9F es interpretada por algunos hojeadores como representación de los carácteres trazados a los octetos 80-9F en la codificación Windows-1252.

El uso innecesario de las referencias de carácter del HTML puede reducir perceptiblemente legibilidad del HTML. Si la codificación del carácter para un Web page se elige apropiadamente entonces las referencias de carácter del HTML generalmente se requieren solamente para algunos carácteres especiales (o en absoluto si una codificación nativa de Unicode como el UTF-8 se utiliza).

Referencias de entidad del carácter de XML

Desemejante del HTML tradicional con su gama grande de referencias de entidad del carácter, en el XML hay solamente cinco referencias de entidad predefinidas del carácter. Éstos se utilizan a los carácteres de escape que son margen de beneficio sensible en ciertos contextos:
& del

; amperio; → y (signo "&", U+0026)
& lt; → < (menos-que la muestra, U+003C)
& GT; → > (grande-que la muestra, U+003E)
& quot; → " (marca de cita, U+0022)
& apos; → '(apóstrofe, U+0027)

El resto de las referencias de entidad del carácter tienen que ser definidas antes de que puedan ser utilizadas. Por ejemplo, uso del & eacute; (que da el é, pequeña letra latina E con agudo, U+00E9, en el HTML) en un documento de XML generará un error a menos que la entidad se haya definido ya. XML también requiere que el x en referencias numéricas hexadecimales esté en minúsculas: por ejemplo & #xA1b algo que & #XA1b. El XHTML, que es un uso de XML, apoya el sistema de entidad del HTML 4 y el & de XML; apos; entidad, que no aparece en HTML 4.

Sin embargo, uso del & apos; en XHTML debe ser evitado generalmente por razones de la compatibilidad. & #39; ¡ puede ser utilizado en lugar de otro.

Referencias de entidad del carácter del HTML

Para una lista de todas las referencias de entidad nombradas del carácter del HTML, ver la lista del las referencias de entidad del carácter de XML y del HTML (aproximadamente 250 entradas).

Ver también

Integración de la información
Unicode
Referencia de Unicode (wikibooks)

.

  • Zenithic
  • Josh Pyke
    Random links:Anserinae | WNUV | Đerdap | Aguamiel de Richard | Kini'je

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">