En el de informática, el Unicode es un estándar industrial permitiendo que las computadoras representen y manipulen constantemente el texto expresado en la mayor parte de los sistemas de escritura del mundo . Convertido con universal juego de caracteres estándar y publicado en libro forma como Unicode estándar, Unicode consiste en repertorio de cerca de 100.000 carácter, sistema de código carta para visual referencia, codificación metodología y sistema de estándar carácter codificación enumeración de carácter característica por ejemplo superior y bajo caso, sistema de referencia dato fichero informático y un número relacionado artículo, por ejemplo carácter característica, regla para texto normalización, descomposición, colación, la exhibición bidireccional de la representación y ordena (para la exhibición correcta del texto que contiene ambas escrituras right-to-left, tales como hebreo árabe de o, y escrituras de izquierda a derecha).
El consorcio, la organización no lucrativa de Unicode que coordina el desarrollo de Unicode, tiene la meta ambiciosa eventual de substituir esquemas existentes de la codificación del carácter por Unicode y sus esquemas estándar del formato de la transformación (UTF) de Unicode, tanta de los esquemas existentes se limitan de tamaño y alcance y son incompatible con los ambientes multilingües .
El éxito de Unicode en los juegos de caracteres unifying ha llevado a su uso extenso y predominante en la internacionalización y la localización de los programas informáticos . El estándar se ha ejecutado en muchas tecnologías recientes, incluyendo el XML, el lenguaje de programación de Java y los sistemas operativos moderno
Unicode tiene la puntería explícita de superar las limitaciones de las codificaciones tradicionales del carácter tal como los definidas por el estándar de la ISO 8859 que encuentren uso amplio en varios países del mundo pero sigue siendo en gran parte incompatible con uno a. Muchas codificaciones tradicionales del carácter comparten un problema común en que permiten el tratamiento por ordenador bilingüe (generalmente usar los carácteres romanos y la lengua local) solamente el tratamiento por ordenador no multilingüe (el tratamiento por ordenador de las idiomas arbitrarias mezcladas con uno a).
Unicode, en intento, codifica los carácteres subyacentes - grafemas y grafema-como unidades - algo que los Glyphs variables (representaciones) para tales carácteres. En el caso de los carácteres chinos esto lleva a veces a las controversias sobre la distinción del carácter subyacente de sus glyphs variables (véase la unificación de Han).
En el proceso de texto, Unicode toma el papel de proporcionar un punto de código único del - un número, no un glyph - para cada carácter. Es decir Unicode representa un carácter de una manera abstracta y deja la representación visual (tamaño, forma, fuente o estilo) al otro software, tal como un web browser o procesador de textos . Esta puntería simple llega a ser complicada, sin embargo, por las concesiones hechas por los diseñadores de Unicode en la esperanza de animar una adopción más rápida de Unicode.
Los primeros 256 puntos de código fueron hechos idénticos al contenido de ISO 8859-1 para hacerlo trivial para convertir el texto occidental existente. Muchos carácteres esencialmente idénticos fueron codificados las épocas múltiples en diversos puntos de código de preservar las distinciones usadas por codificaciones de la herencia y por lo tanto para permitir la conversión de esas codificaciones a Unicode (y traseras) sin perder ninguna información. Por ejemplo, el " Quot de ancho total de las formas ; la sección de los puntos de código abarca un alfabeto latino completo que esté a parte de la sección latina principal del alfabeto. En chino, (el CJK ) las fuentes japonesas y coreanas, estos carácteres se rinden en la misma anchura que los ideogramas de CJK algo que en la mitad de la anchura. Para otros ejemplos, ver los carácteres duplicados en Unicode .
¡
When la escritura sobre un carácter de Unicode, él es normal escribir el " U+" seguido por un número hexadecimal que indica el punto de código de carácter. Para los puntos de código en el plano multilingüe básico (BMP), se utilizan cuatro dígitos; para los puntos de código fuera del BMP, se utilizan cinco o seis dígitos, como sea necesario. Más viejas versiones de las notaciones similares usadas estándar, pero con reglas levemente diversas. Por ejemplo, " usado de Unicode 3.0; U-" seguido por ocho dígitos, y " permitido; U+" para ser utilizado solamente con exactamente cuatro dígitos para indicar una unidad de código, no un código point.
El consorcio de Unicode, basado en el California, desarrolla el estándar de Unicode. Cualquier compañía o querer individual de pagar las deudas de calidad de miembro puede ensamblar esta organización. Los miembros incluyen virtualmente todas las compañías principales de programas informáticos y del soporte físico con cualquier interés en estándares del proceso de textos, tales como Adobe Systems, Apple, HP, IBM, Microsoft, Xerox y muchos otros.
El primero publicado del consorcio el Unicode estándar (ISBN 0-321-18578-1) en 1991, y continúa desarrollando los estándares basados en ese trabajo original. Unicode se desarrolla conjuntamente con el International Organization for Standardization y comparte el repertorio de carácter con el ISO/IEC 10646 : el juego de caracteres universal. La función de Unicode y de ISO/IEC 10646 equivalente como codificaciones del carácter, pero el Unicode estándar contiene mucho más información para los ejecutores, cubriendo - profundizado - asuntos tales como bitwise codificación, la colación y la representación. El estándar de Unicode enumera una multiplicidad de características del carácter, incluyendo ésos necesarios para apoyar el texto bidireccional . Los dos estándares utilizan terminología levemente diversa.
En 2005, el 100,000o carácter que se entrará en la tubería para la estandardización era el MALAYALAM PRASLESHAM. Fue codificado basó en la contribución por el Rachana Akshara Vedi .
Revisiones de Unicode hasta el momento:
Unicode 1.0: Octubre de 1991
Unicode 1.1: Junio de 1992
Unicode 1.1: Junio de 1993
Unicode 2.0: Julio de 1996
Unicode 2.1: Mayo de 1998
Unicode 2.2: Mayo de 1998
Unicode 3.0: Septiembre de 1999. Plano multilingüe básico cubierto de 16 bits del UCS de ISO 10646-1: 2000. Planos suplementarios agregados de ISO 10646-2, proporcionando carácteres suplementarios
Unicode 3.2: Marzo de 2002
Unicode 4.0: Abril de 2003
Unicode 4.1: Marzo de 2004
Unicode 4.1: Marzo de 2005
Unicode 5.0: Julio de 2006
Unicode 5.1: principios de o mediados de 2008 previsto
Aunque más de 30 sistemas de escritura (alfabetos, silabarios, y otros) se incluyan en Unicode, sigue siendo mucho más todavía que aguarda la codificación. Otras adiciones de carácteres a las escrituras ya-codificadas, tan bien como símbolos, particularmente para las matemáticas y la música (bajo la forma de notas y símbolos rítmicos), también ocurren. El Michael Everson, Rick McGowan, y marmota de Ken mantiene la lista de tales escrituras y de sus asignaciones tentativas del bloque del código en el Web site del consorcio de Unicode, en el mapa itinerario de Unicode. Para algunas escrituras en el mapa itinerario, las ofertas de codificación se han hecho y están trabajando su manera con el proceso de aprobación. Para otros, ninguna oferta puede ser hecha hasta que las comunidades de estudiante implicadas puedan estar de acuerdo con el repertorio de carácter y otros detalles.
Entre las escrituras que aguardan la codificación ser los Hieroglyphics egipcios, babilónico y otros cuneiforms, el fenicio, y el maya, junto con las escrituras menos conocidas de Asia, de Europa, de África, y de las Américas. Muchas de ellas no se entienden, por ejemplo el Rongorongo de la isla de pascua, A linear Crete, y Meroitic superior el Nilo .
Las escrituras inventadas, más cuyo no calificar para la inclusión en Unicode debido a la carencia del uso del mundo real, se enumeran en el registro de Unicode del recluta, junto con asignaciones de código privadas del área del uso oficioso pero ampliamente utilizado. Semejantemente, muchas variantes de la letra y ligaduras medievales no en Unicode se codifican en la iniciativa medieval de la fuente de Unicode. En el 1997 Michael Everson hizo una oferta para codificar los carácteres de la lengua artificial de Klingon en el plano 1 ISO/IEC 10646-2 . El consorcio de Unicode rechazó esta oferta en 2001 como " inadecuado para el encoding" - no debido a cualquie insuficiencia técnica, pero porque los usuarios de Klingon leídos normalmente, los datos escriben y de intercambio en la transcripción latina . Las ofertas sugirieron la inclusión mágico Tengwar de las escrituras y Cirth del ajuste ficticio de la Medio-tierra del J. Tolkien en el plano 1 de 1993. El consorcio retiró el bosquejo para incorporar los cambios sugeridos por el Tolkienists, y en fecha 2005 sigue siendo considerado. Klingon y las escrituras de Tolkien tienen asignaciones en el registro alistado de Unicode.
Varios mecanismos se han especificado para ejecutar Unicode; cuál los ejecutores eligen depende de espacio de almacenaje, de compatibilidad del código fuente, y de interoperabilidad disponibles con otros sistemas.
Unicode define dos métodos de trazado: las codificaciones del formato (UTF) de la transformación de Unicode, y las codificaciones del juego de caracteres universal (UCS). Una codificación traza (posiblemente un subconjunto de) la gama de los puntos de código del de Unicode a las secuencias de valores en una cierta gama de tamaño fijo, llamadas los valores de código del . Los números en los nombres de las codificaciones indican el número de pedacitos en un valor de código (para las codificaciones de UTF) o el número de octetos por codificaciones del valor de código (para el UCS). UTF-8 y UTF-16 son probablemente las codificaciones más de uso general. UCS-2 es un subconjunto obsoleto de UTF-16; UCS-4 y UTF-32 son funcionalmente equivalentes.
Las codificaciones de UTF incluyen:
UTF-7 - una codificación relativamente impopular del
7 pedacitos, a menudo considerada obsoleta (no parte de el Unicode estándar pero algo un RFC)
UTF-8 - un de 8 bits, codificación de la variable-anchura, que maximiza compatibilidad con el ASCII .
UTF-EBCDIC - una codificación de 8 bits de la variable-anchura, que maximiza compatibilidad con EBCDIC . (no parte de el Unicode estándar)
UTF-16 - un de 16 bits, codificación de la variable-anchura
UTF-32 - un de 32 bits, codificación de la fijo-anchura
UTF-8 utiliza un a cuatro octetos por punto de código y, siendo compacto para las escrituras latinas y ASCII-compatible, proporciona la codificación estándar de hecho del para el intercambio del texto de Unicode. También es utilizado por la mayoría de las distribuciones recientes del linux como reemplazo directo para las codificaciones de la herencia en el tratamiento de textos general.
Las codificaciones UCS-2 y UTF-16 especifican la marca (BOM) de la orden del octeto de Unicode para el uso a los principios de los archivos de texto, que se pueden utilizar para la detección de la clasificación de octetos (o la detección del endianness del octeto). Algunos analistas de programas informáticos lo han adoptado para otras codificaciones, incluyendo UTF-8, que no necesita una indicación de la orden del octeto. En este caso intenta marcar el archivo como contener el texto de Unicode. El BOM, punto de código U+FEFF hace que la característica importante de la no ambiguedad en octeto reordene, sin importar la codificación de Unicode usada; U+FFFE (el resultado de octeto-intercambiar U+FEFF) no compara a un carácter legal, y a U+FEFF en otros lugares, con excepción del principio del texto, transporta el espacio no-break de la cero-anchura (un carácter sin aspecto y ninguÌn efecto con excepción de prevenir la formación de las ligaduras . También, las unidades En UTF-32 y UCS-4, servicios de 32 bits de un valor de código como representación bastante directa de cualquier punto de código de carácter (aunque el endianness, que varía a través de diversas plataformas, afecta a cómo el valor de código manifiesta realmente como secuencia del octeto). En los otros casos, cada punto de código se puede representar por un número variable de valores de código. UTF-32 es ampliamente utilizado como representación interna del texto en programas (en comparación con el texto almacenado o transmitido), puesto que cada sistema operativo de Unix que utilice los recopiladores del GCC para generar aplicaciones del software él como el " estándar; character" ancho; codificación. Las versiones recientes del lenguaje de programación del pitón (principio con 2.2) se pueden también configurar para utilizar UTF-32 como la representación para las secuencias del unicode, diseminando con eficacia tal codificación en software cifrado de alto nivel. El Punycode, otra forma de la codificación, permite la codificación de las secuencias de Unicode en el juego de caracteres limitado apoyado por el ASCII - Domain Name System basado . La codificación se utiliza como parte IDNA, que es un sistema permitiendo el uso de los Domain Name internacionalizados en todas las idiomas que sean apoyadas por Unicode. El GB18030 es otra forma de la codificación para Unicode, de la administración de la estandardización de China . Es el juego de caracteres oficial República Popular de China (PRC). El RFC del día de tontos de abril de 2005 especificó dos codificaciones del parodiar UTF, UTF-9 y UTF-18 . Unicode incluye un mecanismo para la forma y tan grandemente extender de carácter de modificación el repertorio apoyado del glyph. Esto cubre el uso que combina las marcas diacríticas que consiguen insertadas después del carácter principal (uno puede apilar varios signos diacríticos que combinan sobre el mismo carácter). Unicode también contiene versiones precomposed de la mayoría de la letra/de las combinaciones diacríticas en uso normal. Éstos hacen la conversión a y desde codificaciones de la herencia más simple y permiten que los usos utilicen Unicode como formato de texto interno sin tener que ejecutar combinar carácteres. Por ejemplo el é del se puede representar en Unicode como (la pequeña letra latina e) siguió por U+0301 (el combinar agudo) pero puede también ser representada como el carácter precomposed U+00E9 (pequeña letra latina e con agudo). Tan en muchos casos, los usuarios tienen muchas maneras de codificar el mismo carácter. Para tratar de esto, Unicode proporciona el mecanismo de la equivalencia canónica . Un ejemplo de esto se presenta con el Hangul, el alfabeto coreano. Unicode provee del mecanismo para componer las sílabas de Hangul sus subcomponentes individuales, conocido como Hangul Jamo . Sin embargo, también proporciona las 11.172 combinaciones de sílabas precomposed de Hangul. Los ideogramas CJK tienen actual códigos solamente para su forma precomposed. No obstante, la mayor parte de esos ideogramas abarcan elementos más simples (a menudo llamados los radicales en inglés), tan en principio Unicode habrían podido descomponerlo apenas pues ha sucedido con el Hangul . Esto habría reducido grandemente el número de puntos de código required, mientras que permitía la exhibición de virtualmente cada ideograma concebible (que pudo eliminar algunos de los problemas causados por la unificación de Han). Una idea similar cubre algunos métodos de entrada tal como Cangjie y Wubi . Sin embargo, las tentativas de hacer esto para la codificación del carácter han tropezado con el hecho de que los ideogramas no se descomponen realmente tan simplemente o como parece deben tan regularmente. Un sistema de los radicales fue proporcionado en Unicode 3.0 (los radicales de CJK entre U+2E80 y U+2EFF, los radicales de KangXi en U+2F00 a U+2FDF, y los carácteres ideográficos de la descripción de U+2FF0 a U+2FFB), solamente el estándar de Unicode (ch.1) advierte contra usar secuencias ideográficas de la descripción como representación alterna para los carácteres previamente codificados: Este proceso es diferente de una codificación formal de un ideograma. No hay descripción canónica de ideogramas unencoded; no hay semántico asignado a los ideogramas descritos; no hay equivalencia definida para los ideogramas descritos. Conceptual, las descripciones del ideograma son más relacionadas con la frase inglesa, “un `e' con un acento agudo en él,” que con el < de la secuencia del carácter; U+006E, U+0301> el “e” debe ser U+0065 . Muchas escrituras, incluyendo el árabe y el Devanagari, tienen reglas orthográficas especiales que requieran que ciertas combinaciones de letterforms estén combinadas en las formas especiales de la ligadura. Las reglas que gobiernan la formación de la ligadura pueden ser absolutamente complejo, requiriendo tecnologías escritura-que forman especiales tales como AS (motor caligráfico árabe de DecoType en los años 80 y usado para generar todos los ejemplos árabes en las ediciones impresas del estándar de Unicode) que se convirtió en la prueba del concepto para el OpenType (por Adobe y Microsoft), el grafito (por SIL internacional), o el AAT (por Apple). Las instrucciones también se encajan en fuentes de decir el sistema operativo cómo hacer salir correctamente diversas secuencias del carácter. Una solución simple a la colocación de combinar marcas o signos diacríticos está asignando a marcas una anchura de cero y está poniendo el glyph sí mismo el al izquierdo o derecho izquierdo Sidebearing (dependiendo de la dirección de la escritura se piensan para ser utilizados con). Una marca manejó esta manera aparecerá sobre cualquier carácter la precede, pero no ajustará su posición concerniente a la anchura o a la altura del glyph bajo; puede ser visualmente torpe y puede traslapar algunos glyphs. El amontonamiento verdadero es imposible, pero se puede aproximar en casos limitados (por ejemplo, las vocales y las marcas tailandesas del tono tapa-que combinan pueden apenas estar en diversas alturas a comenzar con). Este acercamiento es solamente eficaz en monospaced fonts pero se puede generalmente también utilizar como método de la representación del retraso cuando métodos más complejos fallan. El en fecha 2004, la mayoría del software todavía no puede manejar confiablemente muchas características no apoyadas por más viejos formatos de la fuente, así que combinar carácteres no trabajará generalmente correctamente. Por ejemplo, ḗ (e precomposed con el macron y antedicho agudo) y ē ́ (e seguida por el macron que combina arriba y combinando antedicho agudo) debe ser rendido idénticamente, apareciendo como E con un Macron y el acento agudo, pero en la práctica, su aspecto puede variar grandemente a través de las aplicaciones informáticas. Semejantemente, los underdots según lo necesitado en el Romanization del indicador, serán puestos a menudo incorrectamente. Como solución alternativa, los carácteres de Unicode que trazan a los glyphs precomposed se pueden utilizar para muchos tales carácteres. La necesidad de tales alternativas hereda de las limitaciones de fuentes y de la tecnología de la representación, no debilidades de Unicode sí mismo. Varios subconjuntos de Unicode se estandardizan: Microsoft Windows puesto que Windows NT 4.0 apoya el WGL-4 con 652 carácteres, que se considera apoyar todas las idiomas europeas contemporáneas usar la escritura del latín, griega o cirílica. Otros subconjuntos estandardizados de Unicode incluyen los subconjuntos europeos multilingües: MES-1 (escrituras latinas solamente, 335 carácteres), MES-2 (carácteres del latín, griegos y del cirílico 1062) y MES-3A y MES-3B (dos subconjuntos más grandes, no demostrados aquí). Observar que MES-2 incluye cada carácter en MES-1, que alternadamente incluye todo el WGL-4. Unicode se ha convertido en el esquema dominante para el proceso y a veces el almacenaje internos (aunque mucho texto todavía se almacena en codificaciones de la herencia) del texto. Los adoptantes tempranos tendieron a utilizar UCS-2 y se trasladaron más adelante a UTF-16 (pues ésta era la menos manera quebrantadora de agregar la ayuda para los carácteres no-BMP). El más conocido tal sistema es Windows NT (y sus descendientes, Windows 2000 y Windows Xp ), que utiliza Unicode como la única codificación interna del carácter. El Java y los ambientes del bytecode .NET, el OS X del mac, y el KDE también lo utilizan para la representación interna. UTF-8 (desarrollado original para el plan 9 ) se ha convertido en la codificación del almacenaje principal en la mayoría Unix-como sistemas operativos de (otros también son utilizados sin embargo por algunas bibliotecas) porque es un reemplazo relativamente fácil para los juegos de caracteres extendidos tradicional del ASCII . Los motores multilingües de la texto-representación que utilizan Unicode incluyen el Uniscribe para Microsoft Windows, el ATSUI para OS X del mac y el Pango, un motor del software libre usado por GTK+ (y por lo tanto la mesa del GNOMO ). la ISO 14755 estandardiza los métodos para incorporar los carácteres de Unicode de sus codepoints; la cláusula 5.1 describe un método básico del por el que una secuencia del principio del sea seguida por la representación hexadecimal del codepoint y de la secuencia de conclusión del ; un ejemplo de un sistema conformant de la ISO 14755 es el GNOMO, donde está CTRL+SHIFT+U la secuencia del principio y la secuencia de conclusión es nula. En varios sistemas operativos, los códigos del Alt se pueden utilizar para entrar los puntos de Unicode; donde el punto de código del carácter deseado se sabe, es posible crear los carácteres de Unicode del presionando el Cierto software support el método de entrada siguiente: primero introducir el código hexadecimal del carácter, después presionar inmediatamente el La ISO 14755 también describe un método de la entrada de la pantalla-selección del ; en el Microsoft Windows (desde el Windows 2000), el " Carácter Map" el programa proporciona el acceso a todos los carácteres de la Tabla I en el BMP, por la selección de una tabla drop-down, cuando una fuente con suficiente cobertura se selecciona. El OS X (versión 10.2 del mac y más nuevo), el KDE y el GNOMO tienen utilidades similares (e. considera también: Unicode y l email el MIME define dos diversos mecanismos para los carácteres de la codificación no-ASCII en el email, dependiendo de si los carácteres están en jefes del email tales como el " Tema: " o en el cuerpo del texto del mensaje. En ambos casos, el juego de caracteres original se identifica así como una codificación de la transferencia. Para la transmisión del email de Unicode se recomiendan el juego de caracteres UTF-8 y la codificación de la transferencia Base64 . Los detalles de los dos diversos mecanismos se especifican en los estándares del MIME y se ocultan generalmente de usuarios del software del email. La adopción de Unicode en el email ha sido muy lenta. Un poco de texto East-Asian todavía se codifica en una codificación local tal como Cambia de puesto-JIS, y algunos dispositivos, tales como teléfonos celulares, todavía no pueden manejar los datos de Unicode correctamente. La ayuda ha estado mejorando sin embargo. considera también: Unicode y l HTML Todas las recomendaciones W3C han utilizado Unicode como su juego de caracteres de documento del desde los hojeadores del Web del HTML 4. que han apoyado Unicode, especialmente UTF-8, durante muchos años. Exhibir los problemas resultan sobre todo de ediciones relacionadas de la fuente . Particularmente el Internet Explorer no rinde muchos puntos de código a menos que se diga explícitamente para utilizar una fuente que los contenga. Aunque las reglas del sintaxis puedan afectar a la orden en la cual los carácteres se permiten aparecer, HTML 4 y el XML ( incluyendo XHTML ) los documentos, por definición, abarquen carácteres la mayor parte de los puntos de código de Unicode, a excepción de: la mayor parte de códigos del control C0 y C1 Estos carácteres manifiestan cualquiera directo como octetos según la codificación del documento, si la codificación los apoya, o los usuarios pueden escribirlos mientras que las referencias de carácter numérico con la Por ciento-codificación basada en el punto de código de Unicode del carácter. Por ejemplo, el Las fuentes libres y al por menor basadas en Unicode están comúnmente disponibles, puesto que el TrueType y el OpenType apoyan Unicode. Estos formatos de la fuente trazan puntos de código de Unicode a los glyphs. Los millares de las fuentes existen en el mercado, pero menos que las fuentes una docena - descritas a veces como " cacerola-Unicode" fuentes - tentativa de apoyar a la mayoría del repertorio de carácter de Unicode. En lugar, foco Unicode-basado de las fuentes típicamente en el apoyo solamente del ASCII básico y de las escrituras particulares o sistemas de carácteres o de símbolos. Varias razones justifican este acercamiento: los usos y los documentos necesitan raramente rendir carácteres de más de uno o dos sistemas de escritura; las fuentes tienden a exigir recursos en ambientes computacionales; y los sistemas operativos y los usos demuestran inteligencia cada vez mayor en vista de la obtención de la información del glyph de archivos de fuente separados según lo necesitado, es decir la substitución de la fuente. Además, el diseño de un sistema constante de las instrucciones de la representación para los diez de millares de glyphs constituye una tarea monumental; tal empresa pasa el punto de las vueltas de disminución para la mayoría de las tipografías. La unificación (la identificación de Han de formas en las tres idiomas asiáticas del este cuál puede tratar como variaciones estilísticas del mismo carácter histórico) tiene convertido de los aspectos más polémicos de Unicode, a pesar de la presencia de una mayoría de expertos de las tres regiones en el grupo ideográfico (IRG) del ponente, que aconseja el consorcio y la ISO en adiciones al repertorio y en la unificación de Han. Unicode tiene sido criticado para el fallar tener en cuenta viejo y alternativo forma de kanji que, los críticos discuten, complica el proceso de nombres japoneses japoneses e infrecuentes antiguos, aunque siga las recomendaciones de los eruditos de la lengua japonesa y del gobierno japonés y contenga todos los mismos carácteres que estándares ampliamente utilizados anteriores de la codificación. Ha habido varias tentativas de crear las codificaciones alternativas que preservan las diferencias de menor importancia, estilísticas entre los carácteres chinos, japoneses, y coreanos en la oposición a la política de Unicode de la unificación de Han. Entre ellos están el TRON (aunque no se adopta extensamente en Japón, hay algunos usuarios que necesitan manejar el texto japonés histórico y favorecerlo), y el UTF-2000 . Muchas más viejas formas no fueron incluidas en las versiones tempranas del estándar de Unicode, pero Unicode 4.0 contiene más de 70.000 carácteres y el trabajo de Han continúa en el adición de carácteres de la literatura temprana de China, de Corea, y de Japón. Algunos discuten, sin embargo, que esto no sea satisfactorio, precisando como un ejemplo la necesidad de crear los nuevos carácteres, representando redacta en los dialectos chinos del vario, más cuyo puede ser inventado en el futuro. A pesar de estos problemas, la codificación oficial de China, GB-18030, apoya la gama completa de carácteres en Unicode. Los mappings inyectivos se deben proporcionar entre los carácteres en juegos de caracteres existentes de la herencia y los carácteres en Unicode para facilitar la conversión a Unicode y para permitir interoperabilidad con software de la herencia. La carencia de la consistencia en varios mappings entre codificaciones japonesas anteriores tales como Cambia de puesto-JIS o el EUC-JP y Unicode llevados a las uniones mal hechas ida-vuelta de la conversión del formato, particularmente el trazado del carácter JIS X ROCIADA de la ONDA de U+301C DE ANCHO TOTAL del TILDE (en el Microsoft Windows ) o del “〜” de 201 “~” (1-33, ROCIADA de la ONDA), muy usado en datos de la base de datos de la herencia, U+FF5E del “~” (otros proveedores). Algunos informáticos japoneses se opusieron a Unicode porque él los requieren separar el uso del “\” SOLIDUS REVERSO de U+005C (barra) y la MUESTRA de YENES de U+00A5 del “¥”, que fue trazada a 0x5C en JIS X 0201, y hay mucho código de la herencia con este uso. (Esta codificación también substituye el tilde “~” 0x7E por el overline “¯”, ahora 0xAF.) La separación de estos carácteres existe en ISO 8859-1, mucho antes de que de Unicode. La ayuda tailandesa de la lengua se ha criticado para su ordenar ilógica de carácteres tailandeses. Las vocales เ, แ, โ, ใ, ไ que se escriban a la izquierda de la consonante precedente están en la orden visual en vez de la orden lógica, desemejante de las representaciones de Unicode del otro indicador scripts. Esta complicación es debido a Unicode que hereda el estándar industrial tailandés 620, que trabajó de la misma manera. Esta pedir problema complica el proceso de la colación de Unicode levemente, requiriendo operaciones de búsqueda de tabla reordenar los carácteres tailandeses para la colación. La codificación de ninguna nueva ligaduras en Unicode no sucederá, en parte porque el sistema de ligaduras es fuente-dependiente, y Unicode es una independiente de la codificación de las variaciones de la fuente. La misma clase de edición se presentó para la escritura tibetana (la organización estándar nacional china no podida para alcanzar un cambio similar). .
FE y FF nunca aparecen en el UTF-8 . El mismo carácter convertido a UTF-8 se convierte en el BB BF del EF de la secuencia del octeto. Confeccionado contra carácteres compuestos
Ligaduras
Subconjuntos estandardizados
Unicode funcionando
Sistemas operativos
Métodos de entrada
Porque las disposiciones de teclado no pueden tener combinaciones dominantes simples para todos los carácteres, varios sistemas operativos proporcionan los métodos de entrada alternativos que permiten el acceso al repertorio entero. Alt del + MÁS + #, donde # representa el punto de código hexadecimal; por ejemplo, el Alt + MÁS + F + 1 producirá el ñ carácter de Unicode. En algunos sistemas, esto se limita al BMP (carácteres hasta U+FFFF). Alt + x . Por ejemplo, el que entra f1 y después presionar la combinación producirá el ñ carácter. El código no se debe preceder por ninguÌn dígito o a-f de las letras pues serán tratados como parte del código que se convertirá. Email
Web
los puntos de código permanente-no asignados D800-DFFF
cualquie conclusión del punto de código en FFFE o FFFF & de las referencias; #916; , & #1049; , & #1511; , & #1605; , & #3671; , & #12354; , & #21494; , & #33865; , y & #45307; (o los mismos valores numéricos expresados en hexadecimal, con el & #x como la exhibición del prefijo) en los hojeadores como Δ, Й, ק, م, あ, 叶, 葉, y 냻. En peticiones del HTTP, los URL deben por ciento-ser codificados. Fuentes
Ediciones
Críticas filosóficas y de lo completo
Trazado a los juegos de caracteres de la herencia
Escrituras del indicador
Ver también
comparación las codificaciones de Unicode
Tipografías de Unicode del software libre
Lista de los carácteres de Unicode
Lista referencias de entidad del carácter de XML y del HTML Random links: George Cruikshank | Bacalao azul | cálculo del Detrás-de--sobre | Ciudad de la tracción | Charca del rocío