¡libro de textos de Duh…… que no va a ver un artículo de compartimiento sobre tal materia prima. Como 2+2=4, está el material elemental a muchos… Usuario: fabartus --->
ayudas del juego de caracteres universal de s de Unico hexadecimal' potencialmente sobre 1 millón de (1.112 = 220 + 216 o × 216 de 17, 110000) puntos de código.
En fecha Unicode 5.2%) de estos puntos de código se asignan, con otros 137.3%) reservados para el uso privado, 2.048 para los sustitutos, y 66 noncharacters señalados, dejando 872. El número de puntos de código asignados se compone como sigue:
2.684 en la reserva para la designación dentro de un bloque particular
98.893 carácteres gráficos
435 carácteres del propósito especial para el control, el formato, y la selección de la variación del glyph/del carácter.
(Véase la tabla sumaria para una avería más detallada).
Los carácteres de Unicode se pueden categorizar en gran medida. Cada carácter se asigna una escritura del (aunque muchos se asignan el campo común o las escrituras heredadas donde heredan la escritura del carácter adyacente). En Unicode una escritura es un sistema de escritura coherente que incluye letras pero también puede incluir la puntuación específica de la escritura, signo diacrítico y otras marcas y números y símbolos. Una sola escritura apoya uno o más idiomas.
Los carácteres se asignan en los bloques del de carácteres. Estos bloques son generalmente grupos de puntos de código en un cierto múltiplo de ocho: muchos, por ejemplo, se agrupan en los bloques de 128 o 256 puntos de código. Cada carácter también se asigna a la categoría general y la subcategoría. Las categorías generales son: letra, marca, número, puntuación, símbolo, o control (es decir un formato o un carácter no gráfico).
Los bloques de carácteres se asignan según los varios planos del . La mayoría de los carácteres se asignan actual al primer plano: el plano multilingüe básico del . Éste es ayudar a facilitar la transición para el software de la herencia puesto que el plano multilingüe básico es direccionable con apenas dos octetos del octeto . Los carácteres fuera del primer plano muy se han especializado generalmente o uso raro.
Los primeros 256 puntos de código corresponden con los de ISO 8859-1, la codificación de 8 bits más popular del carácter del mundo occidental . Consecuentemente, los primeros 128 carácteres son también idénticos al ASCII . Aunque Unicode refiere a éstos como bloque latino de la escritura, estos dos bloques contienen muchos carácteres que sean comúnmente exterior útil de la escritura latina.
Planos
considera también: El trazado del carácter de Unicode acepilla el
Carácteres gráficos
considera también: Trazado los caracteres gráficos de Unicode
Carácteres de la compatibilidad
considera también:
los carácteres de la compatibilidad de Unicode
En la discusión de Unicode y del UCS, muchos refieren a menudo a carácteres de la compatibilidad. Los carácteres de la compatibilidad son los carácteres gráficos que son desalentados por el consorcio de Unicode. Como el consorcio de Unicode dice:
carácter del
A que no habría sido codificado a excepción de compatibilidad y de convertibilidad ida-vuelta con otros estándares
Sin embargo, la definición es más complicada que el glosario revela. Una de las características dadas a los carácteres por el consorcio de Unicode es la descomposición de los carácteres o la descomposición de la compatibilidad del . La mayoría de los carácteres no tienen ninguÌn valor para esta característica, pero sobre 5 mil carácteres tener una descomposición de la compatibilidad que trazan ese carácter de la compatibilidad a uno o más otros carácteres. Fijando una característica de la descomposición de los carácteres, Unicode establece ese carácter como carácter de la compatibilidad. Las razones de estas designaciones de la compatibilidad se varían y se discuten en detalle adicional abajo. La descomposición del término puede confundir a veces porque una descomposición de los carácteres puede, en algunos casos, ser un singleton. En estos casos la descomposición de un carácter es simplemente otro equivalente o carácter aproximadamente equivalente.
La característica de la descomposición de la compatibilidad para los 5.402 carácteres de la compatibilidad de Unicode incluye
una palabra clave que divida los carácteres de la compatibilidad en 17 grupos lógicos. Ésos sin una palabra clave se llaman los carácteres descomponibles equivalentes o canónicos canónicos. Estos carácteres tienen la relación más cercana. Otras palabras claves incluyen: < initial>, < medial>, < final>, < isolated>, < wide>, < narrow>, < small>, < square>, < vertical>, < circle>, < noBreak>, < fraction>, < subscript>, < superscript>, y < compat>. Estas palabras claves proporcionan una cierta indicación de
la relación entre el carácter de la compatibilidad y su secuencia del carácter de la descomposición de la compatibilidad. Sin embargo, los carácteres de la compatibilidad - si es canónico o no - caer en tres categorías básicas: 1) carácteres que corresponden a las formas alternas múltiples del glyph y a los signos diacríticos precomposed a las puestas en práctica del software y de la fuente de ayuda que no incluyen capacidades completas de la disposición del texto de Unicode; 2) carácteres incluidos de otros juegos de caracteres o agregados de otra manera al UCS que constituyen el texto rico algo que las metas del
texto llano de Unicode; 3) algunos otros carácteres que son semántico distintos, pero visualmente similar. Porque estos carácteres semántico distintos se pueden exhibir con los glyphs similares a los glyphs de otros carácteres, el software del proceso de
texto debe intentar tratar la confusión posible por usuarios finales. Cuando el
comparar y las secuencias de texto (de clasificación) de compaginación, diversas formas y las variantes ricas del texto de carácteres no deben alterar los resultados del proceso de texto. Por ejemplo, los usuarios del software pueden ser confusos al realizar un hallazgo en una página para que un `capital I de la letra latina' y sus fall de la aplicación
informática encuentren el `visualmente similar romano del númeroⅠ'.
Bloques de la compatibilidad
Varios bloques de carácteres de Unicode incluyen enteramente o casi enteramente todos los carácteres de la compatibilidad. Estos bloques de la compatibilidad no contienen ningunos de los carácteres semántico distintos de la compatibilidad
y así que caen inequívoco en el sistema de carácteres desalientadores. Unicode recomienda a autores utiliza los equivalentes de la descomposición de la compatibilidad del texto
llano en lugar de otro y complementa esos carácteres con margen de beneficio rico del texto. Este acercamiento es mucho más flexible y ampliable que usar el
sistema finito de alfanuméicos circundados o incluidos para dar apenas un ejemplo.
Desafortunadamente, hay una pequeña cantidad de carácteres incluso dentro de los bloques que ellos mismos de la compatibilidad no son los carácteres de la compatibilidad y por lo tanto pueden no confundir a autores. “Incluyó letras de CJK y los meses” de bloque contienen un solo carácter de la no-compatibilidad: el símbolo estándar coreano del `' (㉿ U+327F). Este símbolo y 12 otros carácteres se han incluido en estos bloques por ningunas razones sabidas. “El bloque de los ideogramas de la compatibilidad de CJK” contiene estos ideogramas unificados no-compatibilidad de Han:
(U+FA0E):
del 﨎 (U+FA0F): del 﨏 (U+FA11): del 﨑 (U+FA13): del 﨓 (U+FA14): del 﨔 (U+FA1F): del 﨟 (U+FA21): del 﨡 (U+FA23): del 﨣 (U+FA24): del 﨤 (U+FA27): del 﨧 (U+FA28): del 﨨 (U+FA29): 﨩 Estos trece carácteres son ni carácteres de la compatibilidad ni es su uso desalientador de cualquier manera.
Varios otros carácteres en estos bloques no tienen ninguna compatibilidad que trazan sino se piensan claramente para la ayuda de la herencia:
La presentación alfabética forma (1) el Punto hebreo Varika Judeo-Español (U+FB1E): ﬞ. Ésta es una variante del glyph del punto hebreo Rafe (U+05BF): ֿ, aunque Unicode no proporciona ninguÌn trazado de la compatibilidad.
La presentación árabe forma (4) el “Paréntesis izquierdos adornados” (U+FD3E): ﴾. Una variante del glyph para
del `U+0029)' “Paréntesis correctos adornados” (U+FD3F): ﴿. Una variante del glyph para el `U+0028 (' “Ligadura Bismillah AR-Rahman AR-Raheem” (U+FDFD): ﷽. El Bismillah AR-Rahman AR-Raheem es una ligadura para el Marbuta (U+0629), fuga (U+0644), Meem (U+0645), considerado (U+0633), Beh (U+0628), el (بسملة) “Fragmento árabe de la cola” (U+FE73): ﹳ para los sistemas de texto favorables sin el glyph del contexto que dirige Formas de la compatibilidad de CJK (2 que son ambo relacionadas a CJK unificaron ideograma: del 丶 U+4E36) Punto del sésamo (U+FE45):
de ﹅ Punto blanco del sésamo (U+FE46): ﹆
incluido del de los alfanuméicos (21 variantes ricas del texto) 10 números circundados negativos (0 y 11 a 20) (U+24FF y U+24EB con U+24F4): ⓫ - - del ⓴ 11 números circundados dobles (0 a 10) (U+24F5 con U+24FE): ⓵ - ⓾
Carácteres y normalización de la compatibilidad
considera también:
la normalización de Unicode
La normalización es el proceso por el cual el software de conformación de Unicode primero realiza la descomposición de la compatibilidad antes de hacer comparaciones o de compaginar secuencias de texto. Esto es similar a otras operaciones necesarias cuando, por ejemplo, un usuario realiza un caso o una búsqueda insensible diacrítica dentro de un poco de texto. En tales casos el software debe comparar o no hace caso de carácteres que no compararía ni que no haría caso de otra manera. La normalización se realiza típicamente sin la alteración de los datos almacenados del texto que son la base (sin pérdidas). Sin embargo, un cierto software puede potencialmente realizar cambios permanentes al texto que elimina las diferencias canónicas o aún non-canonical de los carácteres de la compatibilidad del almacenaje del texto (lossy).
Carácteres no gráficos
considera también:
los caracteres de control de Unicode
Muchos carácteres se utilizan para controlar la interpretación o la exhibición del texto, pero estos carácteres ellos mismos no tienen ninguna representación visual o espacial. Por ejemplo, el carácter nulo (U+0000) se utiliza en ambientes de uso C-programados para indicar el extremo de una cadena de carácteres. De esta manera, estos programas requieren solamente una sola dirección de memoria que comienza para una secuencia. La secuencia termina una vez que el programa lee el carácter nulo.
Caracteres de control de la herencia
Los caracteres de control de la herencia vienen de juegos de caracteres del ASCII y de la ISO 8859-1 y se refieren a veces como C0 y C1 respectivamente. Muchos de estos carácteres no desempeñan ninguÌn papel explícito en el tratamiento de textos de Unicode, aunque todavía se utilizan en ambientes computacionales de la unidad central. Otros, como el carácter nulo y muchos carácteres del whitespace todavía se utilizan comúnmente en el proceso de texto. Otros caracteres de control comunes son tabulación o la lengüeta (U+0009), el avance de línea (U+000A), el retorno del carro (U+000D) y el newline (U+0085). Éstos son incluidos entre carácteres del whitespace porque, aunque no tienen ninguÌn glyph visual, insertan el espaciamiento vertical u horizontal entre la exhibición de carácteres.
Unicode introdujo los separadores
En un intento por simplificar los varios la nueva línea carácteres usados en texto de la herencia, UCS introduce su propia nueva línea carácteres para separar líneas o párrafos: la línea separador (U+2028) y carácteres del separador del párrafo (U+2029).
Etiquetas de lengua
Unicode incluye 128 carácteres como etiquetas de lengua. Los carácteres esencialmente reflejan los 128 carácteres de ASCII excepto, cuando están utilizados identifican el texto subsecuente como perteneciendo a una lengua particular según el BCP 47 . Por ejemplo, para indicar el texto subsecuente como la variante del inglés según lo escrito en los Estados Unidos, el carácter de iniciación de la etiqueta de lengua del `' (U+E0001) seguidos por letra e de la etiqueta del `de la secuencia la pequeña' (U+U+E0065), letra n de la etiqueta del `la pequeña' (U+E006E), la “etiqueta Guión-menos' (U+E002D), letra u de la etiqueta del `la pequeña' (U+E0075) y letra s de la etiqueta del `la pequeña' (U+E0073). Estos carácteres de la etiqueta de lengua no serían exhibidos. Sin embargo, proporcionarían la información para el proceso de texto o aún para la exhibición de otros carácteres. Por ejemplo la exhibición de los ideogramas de Unihan pudo substituir diversos glyphs si las etiquetas de lengua indicaron coreano que si las etiquetas indicaron japonés. Otro ejemplo, pudo influenciar la exhibición de los dígitos decimales 0 a 9 diferentemente dependiendo de la lengua que aparecieron adentro.
Anotación interlineal
Tres carácteres de formato proporcionan la ayuda para la anotación interlineal (U+FFF9, U+FFFA, U+FFFB). Esto se puede utilizar para proporcionar las notas que serían exhibidas típicamente entre las líneas del otro texto. Unicode considera tal anotación ser texto rico y la recomienda el usar de otros protocolos para tal anotación. La recomendación de rubíes del margen de beneficio de W3C es un ejemplo de un protocolo alterno que apoya una anotación interlineal más avanzada.
Control bidireccional del texto
Unicode apoya el texto bidireccional estándar sin ningunos carácteres especiales. Es decir el software de conformación de Unicode debe exhibir carácteres right-to-left tales como letras hebreas como right-to-left simplemente de las características de esos carácteres. Semejantemente, el Unicode maneja la mezcla de izquierdo-a-derecho-texto junto al texto right-to-left sin ningunos carácteres especiales. Por ejemplo, uno puede cotizar (“") la derecha árabe بسملة junto a inglés y las letras árabes fluirán de right-to-left y de las letras latinas de izquierda a derecha. Sin embargo, la ayuda para el texto bidireccional llega a ser más complicada cuando el texto que fluye en direcciones opuestas se encaja jerárquico. De modo que por ejemplo si uno cotiza una frase árabe que alternadamente cotice una frase inglesa. Otras situaciones pueden complicar esto cuando por ejemplo, un autor quiere los carácteres de izquierda a derecha principales de modo que fluyan de right-to-left. Mientras que estas situaciones son bastante raras, Unicode proporciona siete carácteres ((U+200E, U+200F, U+202A, U+202B, U+202C, U+202D, U+202E) ayudar a controlar estos el texto bidireccional encajado nivela hasta 61 niveles profundamente.
Mapa de muchos carácteres para alternar glyphs dependiendo del contexto. Por ejemplo los carácteres cursivos árabes y latinos substituyen diversos glyphs para conectar glyphs juntos dependiendo de si el carácter es el carácter inicial en una palabra, el carácter final, un carácter intermedio o un carácter aislado. Estos tipos de substitución del glyph son manejados fácilmente por el contexto del carácter sin la otra entrada que es autor implicada. Los autores pueden también utilizar carácteres especial tales como carpinteros y no-carpinteros para forzar una forma alterna de glyph donde no aparecería de otra manera. Las ligaduras son los casos similares donde los glyphs pueden ser substituidos simplemente dando vuelta a las ligaduras con. como cualidad rica del texto. Sin embargo, para la otra substitución del glyph, los autores atentos pueden necesitar ser codificado con el texto y no pueden ser determinados del contexto. Éste es el caso con el carácter/los glyphs designados el gaiji donde diversos glyphs se utilizan para el mismo carácter históricamente o para los ideogramas para los apellidos. Éste es una de las áreas grises en la distinción entre un glyph y un carácter. ¿Si un apellido diferencia levemente del carácter del ideograma que deriva de, después es ese un glyph simple variante o una variante del carácter? En fecha Unicode 3.0, el juego de caracteres ahora incluye 256 selectores de la variación de modo que estos carácteres de la marca que combinan puedan seleccionar a partir de 256 variaciones posibles del carácter/del glyph para el carácter precedente. Unicode no proporciona hasta ahora ninguÌn registro para estas variaciones, así que la aplicación el registro interoperable de la variación se deja a otros partidos.
Otros carácteres especial
Caída de varios carácteres entre los carácteres no gráficos del control y de formato y los carácteres gráficos hechos y derechos.
Carpintero de la palabra (U+2060), carpintero (U+200D), no-carpintero (U+200C), espacio de la Cero-anchura (U+200B) de la Cero-anchura de la Cero-anchura, combinando al carpintero del grafema (U+034F).
Separador invisible
Sobre todo para las matemáticas, el separador invisible (U+2063) proporciona un separador entre los carácteres donde la puntuación o el espacio se puede omitir por ejemplo adentro un índice de dos dimensiones como i j.
Épocas y uso invisibles de la función
Los tiempos invisibles (U+2062) y el uso de la función (U+2061) son útiles en el texto de las matemáticas donde la multiplicación de términos o del uso de una función se implica sin ninguÌn glyph que indica la operación.
Espacios
El carácter de espacio (U+0020) entró típicamente por la barra de espacio en servicios de un teclado semántico como separador de palabra en muchas idiomas. Por razones de la herencia, el UCS también incluye los espacios de los tamaños diversos que son equivalentes de la compatibilidad para el carácter de espacio. Estos espacios incluyen: del espacio del (U+0020)
del patio del En (U+2000) del patio del Em (U+2001) del espacio de En (U+2002) del espacio de Em (U+2003) del espacio Tres-Por-Em (U+2004) del espacio Cuatro-Por-Em (U+2005) del espacio Seis-Por-Em (U+2006) Figura del espacio (U+2007) del espacio de la puntuación (U+2008) del espacio fino (U+2009) del espacio del pelo (U+200A) Espacio matemático (U+205F) Aparte del espacio original del ASCII, los otros espacios son todos los carácteres de la compatibilidad. En este contexto esto significa que no agregan con eficacia ninguÌn contenido semántico al texto, sino que por el contrario proporciona labrar control. Dentro de Unicode, este control labrador no-semántico se refiere como texto rico y es a menudo exterior el empuje de las metas de Unicode. Algo que usar diversos espacios en diversos contextos, esto que labraba se podía en lugar de otro dirigir a través de software inteligente de la disposición del texto.
Línea-romper los caracteres de control
Varios carácteres se diseñan para ayudar a controlar línea-se rompen desalentándolos (los carácteres no-break) o sugiriendo la línea roturas tales como el guión suave o tímido (U+00AD). Tales carácteres, aunque diseñados para labrar, son probablemente imprescindibles para los tipos intrincados línea-que se rompen de ellos hacen posible. tímido del guión del (U+00AD)
Non-breaking del guión (U+2011) No-break del espacio (U+00A0) No-break estrecho del espacio (U+202F) espacio de la Cero-anchura (U+200B)
Carácteres de Whitespace
Los carácteres de Whitespace no son un grupo separado de carácteres, sino que por el contrario Unicode proporciona una lista de carácteres que juzga los carácteres del whitespace para la ayuda de la interoperabilidad. Las puestas en práctica del software y otros estándares pueden utilizar el término para denotar un sistema levemente diverso de carácteres. Los carácteres de Whitespace son carácteres señalados típicamente para los ambientes de programación. No tienen ninguÌn significado sintáctico en tales ambientes de programación y son no hechos caso a menudo por los intérpretes de la máquina. Unicode señala los caracteres de control de la herencia U+0009 con U+000D y U+0085 como carácteres de espacio blancos tan bien como la línea introducida Unicode separador y el separador del párrafo. También el carácter de espacio de la base (U+0020) se señala como un carácter del whitespace, pero ninguno de los otros espacios labradores.
Carácteres privados del uso
El UCS incluye sobre 100.000 puntos de código para el uso privado. Esto significa que estos puntos de código se pueden asignar carácteres con las características específicas por los individuos, las organizaciones y los proveedores de software fuera de la ISO y del consorcio de Unicode. Un área privada (PUA) del uso del es una de varias gamas que sean reservadas para el uso privado. Para esta gama, el estándar de Unicode no especifica ninguna carácteres.
El plano multilingüe básico incluye un PUA en la gama de U+E000 a U+F8FF (57344– 63743). El plano quince (U+F0000 del a U+FFFFD), y el plano dieciséis (U+100000 del a U+10FFFD) son totalmente reservados para el uso privado también.
El uso del PUA era un concepto heredado de ciertos sistemas asiáticos de la codificación. Estos sistemas tenían áreas privadas del uso para codificar el japonés Gaiji (carácteres conocidos personales raros) de maneras específicas a la aplicación. El registro de Unicode del recluta (oficioso y no relacionado al consorcio de Unicode) apunta semejantemente coordinar el trazado de las escrituras no todavía codificadas adentro o rechazadas por Unicode en el PUAs. La iniciativa medieval de la fuente de Unicode utiliza el PUA para codificar las varios ligaduras, carácteres de Precomposed y símbolos encontrados en textos medievales.
Un ejemplo del uso del área privada del uso es uso de s de Apple 'del U+F8FF para el la insignia de Apple.
En Microsoft Windows, este el carácter se puede crear usar el redactor privado, un redactor de fuente limitado del carácter que venga con Windows.
Puntos de código especiales
En el nivel más simple, cada carácter en el UCS representa un punto de código y una función semántica particular: Para los carácteres gráficos, la función semántica es implicada por su nombre, y la escritura o la bloquea a menudo es incluida dentro. Un carácter gráfico puede también tener un glyph recomendado que las ayudas definan el significado del carácter. Los carácteres de Han, usados en China, Japón, Corea, Vietnam y su diáspora respectiva, incluyen muchas otras características ricas que participen en la definición del papel semántico de un carácter.
Sin embargo, el UCS y el Unicode señalan otros puntos de código para otros propósitos. Esos puntos de código pueden tener no o pocas características del carácter asociadas a ellas.
Sustitutos
Los 2.048 sustitutos no son carácteres, sino son reservados para el uso en el UTF-16 de especificar puntos de código fuera del plano multilingüe básico. Los dividen en " alto surrogates" (D800-DBFF) y " surrogates" bajo; (DC00-DFFF). En UTF-16, deben aparecer siempre en pares, como alto sustituto seguido por un sustituto bajo, así usar 32 pedacitos para denotar un punto de código. Un par sustituto denota el del punto de código 1000016 + (el H - D80016) × 40016 + (el L - DC0016) donde están los valores el H y el L numéricos del cielo y tierra sustituye respectivamente.
Desde altos valores sustitutos en la gama DB80 de DBFF a los valores del producto siempre en los planos privados del uso, la alta gama sustituta se puede dividir más a fondo en los altos sustitutos (normales) (D800-DB7F) y " alto surrogates" privado del uso; (DB80-DBFF).
Noncharacters
Unicode reserva varios puntos de código como noncharacters. Estos puntos de código se garantizan nunca para tener un carácter asignado a ellos. Las puestas en práctica del software están por lo tanto libres de utilizar estos puntos de código para el uso interno. Sin embargo, estos noncharacters se deben nunca incluir en intercambio del texto entre las puestas en práctica. Un ejemplo intrínsecamente útil de un noncharacter es el punto de código U+FFFE. Este punto de código tiene la secuencia binaria reversa de la marca (U+FEFF) de la orden del octeto. Si una corriente del texto contiene este noncharacter, esto es una buena indicación que el texto se ha interpretado con el incorrecto Endianness .
Tabla sumaria de asignaciones de los carácteres del UCS
considera también: Resumen las asignaciones del carácter de Unicode
Ver también
juego de caracteres universal
Unicode
Tablas
.
ZenithicSAFF Championship 2008