Un carácter del que la codificación consiste en un código que aparee una secuencia de los carácteres de un juego de caracteres dado (designado a veces la página de código ) con algo más, tal como una secuencia de natural numera a octetos del o los pulsos eléctricos, para facilitar el almacenaje del texto en las computadoras y la transmisión del texto a través de redes de telecomunicaciones. Los ejemplos comunes incluyen el código Morse, que codifica las letras del alfabeto latino como series de depresiones largas y cortas de una llave de telégrafo ; y ASCII, que codifica las letras, números, y otros símbolos, como números enteros y como 7 - versiones binarias del pedacito de esos números enteros, ampliadas generalmente con un cero-pedacito adicional para facilitar almacenaje en los octetos de 8 bits (octetos).
En días anteriores de computación, la introducción de los juegos de caracteres cifrados tal como ASCII (1963) y el EBCDIC (1964) comenzaron el proceso de la estandardización. Las limitaciones de tales sistemas pronto se convirtieron en un número de métodos ad hoc evidentes, y desarrollados para extenderlos. La necesidad de apoyar los sistemas de escritura múltiples (idiomas), incluyendo la familia CJK de escrituras asiáticas del este, ayuda requerida para un número lejos más grande de carácteres y exigido un acercamiento sistemático a la codificación del carácter algo que los acercamientos ad hoc anteriores.
El Unicode y su estándar paralelo, juego de caracteres universal de la ISO 10646, que juntos constituyen la codificación más moderna del carácter, se rompieron lejos de esta idea, y en lugar de otro separaron las ideas de qué carácteres están disponibles, su enumeración, cómo esos números se codifican como serie de " cifrar el units" (números del limitado-tamaño), y finalmente cómo esas unidades se codifican como corriente de los octetos (octetos). La idea detrás de esta descomposición es establecer un sistema universal de los carácteres que se pueden codificar de una variedad de maneras. Para describir correctamente este modelo necesita términos más exactos que " " del juego de caracteres; y " encoding" del carácter;. Los términos usados en el modelo moderno siguen:
Un repertorio de carácter del es el sistema completo de carácteres abstractos las ayudas de un ese sistema. El repertorio puede ser cerrado, ésa no es ninguna adición se permite sin crear un nuevo estándar (al igual que el caso con el ASCII y la mayor parte de la serie ISO-8859), o puede estar abierto, permitiendo adiciones (al igual que el caso con Unicode y en cierto modo las páginas de código de Windows ). Los carácteres en un repertorio dado reflejan las decisiones que se han tomado sobre cómo dividir sistemas de escritura en unidades de información lineares. Las variantes básicas latino, griego, y de los alfabetos cirílicos se pueden analizar en letras, dígitos, la puntuación, y algunos carácteres especiales como el espacio, que se puede todos arreglar en las secuencias lineares simples que se exhiben en la misma orden que se leen. Incluso con estos de los alfabetos actitud de los signos diacríticos sin embargo una complicación: pueden ser mirados o como parte de un solo carácter que contiene una letra y un signo diacrítico (sabidos en terminología moderna como carácter precomposed), o como carácteres separados. El anterior permite un sistema lejos más simple del tratamiento de textos pero este 3ultimo permite cualquier letra/combinación diacrítica que se utilizarán en texto. Otros sistemas de escritura, tales como árabe y hebreo, se representan con repertorios de carácter más complejos debido a la necesidad de acomodar cosas como los Glyphs bidireccionales del texto y que se ensamblan juntos en las maneras diferentes para diversas situaciones.
Un juego de caracteres cifrado especifica cómo representar un repertorio de carácteres usar un número de códigos del número entero no negativo llamados los puntos de código del . Por ejemplo, en un repertorio dado, un carácter que representa el " de la mayúscula; A" en latín el alfabeto se pudo asignar al número entero 65, el carácter para el " B" a 66, y así sucesivamente. Un sistema completo de carácteres y de números enteros correspondientes es un juego de caracteres cifrado. Los juegos de caracteres cifrados múltiples pueden compartir el mismo repertorio; por ejemplo el ISO-8859-1 y el 037 de las páginas de código de IBM y el 500 todo cubren el mismo repertorio pero los trazan a diversos códigos. En un juego de caracteres cifrado, cada punto de código representa solamente un carácter.
Una forma (CEF) de la codificación del carácter del especifica la conversión de los códigos del número entero de un juego de caracteres cifrado en un sistema de los valores de código del del número entero del limitado-tamaño que facilitan almacenaje en un sistema que represente números en forma binaria usar un número fijo de pedacitos (e., virtualmente cualquie sistema informático). Por ejemplo, un sistema que almacena la información numérica en unidades de 16 bits podría solamente representar directo números enteros a partir de la 0 a 65.535 en cada unidad, pero números enteros más grandes se podrían representar si más de una unidad de 16 bits podría ser utilizado. Éste es un qué CEF acomoda: define una manera de trazar el solo punto código del de una gama de, por ejemplo, 0 a 1.4 millones, a una serie de uno o más valores código de de una gama de, por ejemplo, 0 a 65.
El sistema más simple de CEF es simplemente elegir bastante grandes unidades que los valores del juego de caracteres cifrado pueden ser codificados directo (un punto de código a un valor de código). Esto trabaja bien para los juegos de caracteres cifrados que caben en 8 pedacitos (como lo hacen la mayoría de las codificaciones del non-CJK de la herencia) y para los juegos de caracteres cifrados que para caber razonablemente bien en 16 pedacitos (tales como versiones tempranas de Unicode). Sin embargo, como el tamaño del juego de caracteres cifrado aumenta (e. Unicode moderno requiere por lo menos 21 pedacitos/carácter), esto llega a ser cada vez menos eficiente, y es difícil adaptar sistemas existentes para utilizar valores de código más grandes. Por lo tanto, la mayoría de los sistemas que trabajan con versiones posteriores de Unicode utilizan cualquier UTF-8, que traza puntos de código de Unicode a las secuencias variable-length de octetos, o el UTF-16, que traza puntos de código de Unicode a las secuencias variable-length de palabras de 16 bits.
Después, un esquema (CES) de la codificación del carácter del especifica cómo los códigos de tamaño fijo del número entero se deben trazar en una secuencia del octeto conveniente para ahorrar en un sistema de ficheros octeto-basado o transmitir sobre una red octeto-basada. Con Unicode, un esquema simple de la codificación del carácter se utiliza en la mayoría de los casos, especificando simplemente si los octetos para cada número entero están en el big- Endian o la pequeña-endian orden (incluso esto no se necesita con UTF-8). Sin embargo, hay también los esquemas de la codificación del carácter compuesto, que utilizan semencias de escape para cambiar entre varios esquemas simples (tales como ISO 2022 ), y los esquemas de compresión, que intentan reducir al mínimo el número de octetos usados por unidad de código (tal como SCSU, BOCU, y Punycode ).
Finalmente, puede haber un protocolo de alto nivel que suministra la información adicional que se puede utilizar para seleccionar la variante particular de un carácter de Unicode, particularmente donde hay las variantes regionales que “se han unificado” en Unicode como el mismo carácter. Un ejemplo es el xml de la cualidad de XML: lang.
Linux :
recodificar - el contenido del archivo del convertido a partir de una codificación a otra
utrac - contenido del archivo del convertido a partir de una codificación a otra.
cstocs - contenido del archivo del convertido a partir de una codificación a otra
convmv - convertir un nombre de fichero a partir de una codificación a otra.
enca - analiza las codificaciones para los archivos de texto dados
| Random links: | Waterford (ciudad), Nueva York | Relaciones exteriores de Sri Lanka | Allen Fieldhouse | Airstars | Lista de tunebooks de la forma-nota |