La colación es el montaje de la información escrita en una orden estándar. Esto comúnmente se llama la alfabetización, aunque la colación no se limita a las letras que ordenan del alfabeto . La compaginación de listas de palabras o de nombres en orden alfabético es la base de la mayoría de los sistemas de la limadura de la oficina, de los catálogos de biblioteca y de los libros de consulta

La colación diferencia de la clasificación del en esa clasificación se trata a arreglar la información en categorías lógicas, mientras que la colación se refiere a ordenar de esas categorías.

Las ventajas de listas clasificadas incluyen:
uno puede encontrar fácilmente los primeros elementos de n (e. los 5 países más pequeños) y los elementos pasados de n (e. los 3 países más grandes)
uno puede encontrar fácilmente los elementos en una gama dada (e. países con un área en medio. cuadrado kilómetros)
uno puede buscar fácilmente para un elemento, y concluye si él está en la lista, e. con el algoritmo de búsqueda binaria o la búsqueda de interpolación automáticamente, o, áspero y quizás inconsciente, manualmente.

Un algoritmo de la colación, e. el " " del algoritmo de la colación de Unicode;, diferencia de un algoritmo de clasificación : el primer es un proceso al define la orden, que corresponde al proceso apenas de comparar dos valores, mientras que un algoritmo de clasificación es un procedimiento para poner una lista de artículos en esta orden.

La colación define a en el sistema de artículos posibles, típicamente definiendo una orden del total en el A. Nota sin embargo que en el caso e. de la clasificación numérica de las secuencias que representan números, las secuencias preordered solamente parcialmente, porque e.g 2e3 y 2000 tienen la misma graduación, y 2 y 2. Los números representados por las secuencias se piden total.

Sistemas de la colación

Clasificación numérica, clasificación de solos carácteres

Un sistema de la colación es el de clasificación numérico. Por ejemplo, la lista del 4 de los números · 17 · 3 · -5 compaginan al -5 · 3 · 4 · 17 .

Mientras que esto pudo aparecer trabajar solamente para los números, las computadoras pueden utilizar este método para cualquier información textual desde los juegos de caracteres del uso de las computadoras interno que asignan un punto de código numérico del a cada Glyph de la letra o. Por ejemplo, una computadora usar código ASCII (o cualquiera de sus sobreconjuntos tal como Unicode ) y la clasificación numérica compaginaría la lista del a de los carácteres · b · C · d · $ a $ · C · a · b · d .

Los valores numéricos que el ASCII utiliza son el $ = 36, = 97, el b = 98, el C = 67, y el d = 100, dando por resultado qué se llama " ".

Este estilo de la colación es de uso general, a menudo con el refinamiento de convertir letras mayúsculas a la minúscula antes de comparar valores del ASCII, puesto que la mayoría de la gente no espera que las palabras capitalizadas salten el jefe de la lista.

Orden alfabético

Un sistema de la colación para las palabras del múltiple-carácter es del orden alfabético del, basado en la pedido convencional de letras en un alfabeto o el Abjad (la mayoría cuyo tener una sola orden convencional). Cada letra del th del de n se compara con la letra del th del de n de otras palabras en la lista, comenzando en la primera letra de cada palabra y avanzando al segundo, tercero, cuarto, y así sucesivamente, hasta que se establezca la orden.

La orden del alfabeto latino es

A-B-C-D-E-F-G-H-I-J-K-L-M-N-O-P-Q-R-S-T-U-V-W-X-Y-Z

El principio detrás de ampliar orden alfabético a las palabras (orden lexicográfica ) es que todas las palabras en un principio de la lista con la misma letra se deben agrupar juntas; dentro de comenzar que agrupa con una sola letra, todas las palabras que comienzan con las mismas dos letras serán agrupadas juntas; y así sucesivamente, maximizando el número de letras comunes entre las palabras adyacentes. El principio que ordena es aplicado en el punto donde diferencian las letras. Por ejemplo, en la secuencia:

Astro l' abe Astro' n' omy Astro' p' hysics

La orden de las palabras se da según la primera letra de las palabras que es diferente de las otras (demostrado en en negrilla). Puesto que el n sigue el l en el alfabeto, pero precede el p, la astronomía del viene después del astrolabio del, pero antes de la astrofísica del .

Ha habido históricamente una cierta variación en el uso de estas reglas. Por ejemplo, el Mc de los prefijos y el M en apellidos irlandeses y escoceses fueron tomados para ser abreviaturas para el mac del, y alfabetizados como si fueran explicados como mac del adentro por completo. Así uno pudo encontrar en un catálogo la secuencia:

McKinley Mackintosh

con el precedente Mackintosh de McKinley del, como si hubiera sido " deletreado; MacKinley". Desde el advenimiento de listas computadora-clasificadas, este tipo de alfabetización se encuentra menos con frecuencia, aunque todavía se utiliza en listines de teléfonos británicos. Una variación en principios alfabéticos se aplica a los nombres que consisten en dos palabras. En algunos casos, los nombres con primeras palabras idénticas todos se alfabetizan juntos bajo primera palabra, e., agrupando juntos todos los nombres que comienzan con el San, todo el ésos principio con el Santa, y ésos principio con el Santo :

San San Cristobal San Juan San Teodoro San Tomas Santa Barbara Santa Cruz Santa Clara Santo Domingo

Pero en otro sistema, los nombres se alfabetizan como si no tuvieran ningún espacio, e. como sigue:

San San Cristobal San Juan Santa Barbara Santa Cruz Santa Clara San Teodoro Santo Domingo San Tomas

La diferencia entre la clasificación numérica del computadora-estilo y verdad la clasificación alfabética llega a ser obvia en idiomas usar un alfabeto latino extendido. Por ejemplo, el alfabeto de la treinta-letra español trata el ñ del como letra básica después del n, y el antes tratado ch y el ll del como letras básicas después del c, l, respectivamente. El Ch y el ll del todavía se consideran las letras, pero se alfabetizan como combinaciones two-letter. (La nueva regla de la alfabetización fue publicada por la academia española real en 1994.) Por una parte, el rr de la letra sigue el rqu del según lo esperado, con y sin la regla 1994 de la alfabetización. Una clase numérica puede pedir el ñ del que sigue incorrectamente el z y tratar el ch como c + h, también incorrecto al usar la alfabetización pre-1994.

Las diferencias similares entre la clasificación numérica de la computadora y la clasificación alfabética ocurren en el danés y el noruego (el aa se pide en el final del alfabeto cuando es pronunciado como el å, y al principio del alfabeto cuando es pronunciado como al ), alemán (el ß del se pide como s + s ; el ä del, ö, ü se pide como a + e, o + e, u + e en listines de teléfonos, sino como el o a otra parte, y detrás del o en Austria), el islandés (el ð sigue el d ), holandés del (el ij del se pide a veces como y ; ver el #Collation IJ (dígrafo)), inglés (el æ del se pide como a + e ), y muchas otras idiomas.

Generalmente se no hacen caso los espacios o los guiones entre las palabras.

Las idiomas que utilizaron un silabario o el Abugida en vez de un alfabeto (por ejemplo, cherokee) pueden utilizar aproximadamente el mismo sistema si hay un sistema que pide para los símbolos.

clasificación del Radical-y-movimiento

Otra forma de colación es radical-y-movimiento del que clasifica, usado para los sistemas de escritura no alfabéticos tales como kanji japonés chino Hanzi y, cuyos millares de símbolos desafían ordenar de la convención. En este sistema, los componentes comunes de carácteres se identifican; éstos se llaman los radicales en los sistemas chinos y logográficos derivados de chino. Los carácteres después son agrupados por su radical primario, después pedidos por el número de movimientos de la pluma dentro de radicales. Cuando no hay radical obvio o más que uno radical, la convención gobierna que se utiliza para la colación. Por ejemplo, el carácter chino para el " mother" (媽) se clasifica como carácter del trece-movimiento debajo del radical primario del tres-movimiento (女).

El sistema del radical-y-movimiento es incómodo comparado a un sistema alfabético en el cual haya algunos carácteres, todo inequívoco. La opción cuyo los componentes de un logograph abarcan radicales separados y que el radical es primario no es neta. Consecuentemente, las idiomas logográficas complementan a menudo el radical-y-movimiento que ordena con la clasificación alfabética de una conversión fonética de los logographs. Por ejemplo, de Tōkyō del de la palabra del kanji el '(東京), el nombre japonés Tokio puede ser clasificado como si fuera deletreado hacia fuera en los carácteres japoneses del silabario de los Hiragana como " to-u-ki-yo-u" (とうきょう), usar la pedido de clasificación convencional para estos carácteres.

Sin embargo, el sistema del radical-y-movimiento es el único método práctico para construir los diccionarios que alguien puede utilizar para mirar para arriba un logograph cuya pronunciación sea desconocida.

Además, en mayor China, el movimiento del apellido que pide es una convención en algunas documentaciones oficiales donde están mencionados los nombres de la gente sin jerarquía.

El ordenar multilingüe

Cuando las listas de nombres o de palabras necesitan ser pedidas, pero el contexto no define un monolingu!e o un alfabeto particular, el algoritmo de la colación de Unicode proporciona una manera de ponerlos en orden.

Complicaciones

Convenciones en tipografía y en la clasificación de sistemas

En tipografía y en la escritura de los artículos científicos etc, de las cosas tales como jefes, de las secciones, de las listas, de las páginas etc. pudo utilizar la enumeración alfabética en vez de la enumeración numérica. Sin embargo, esto no significa siempre que el alfabeto completo de una lengua particular está utilizado. A menudo alfabético enumeración-o enumeración-solamente utiliza un subconjunto del alfabeto completo. el alfabeto ruso tiene 33 letras, pero típicamente solamente 28 se utilizan en características similares de la enumeración tipográfica (y de las demostraciones cirílicas por ejemplo del ucraniano, bielorrusas y búlgaras de la enumeración). Dos letras, Ъ y rusos Ь, se utilizan solamente para modificar las consonantes precedentes - caen naturalmente. Los tres pasados se habrían podido utilizar, pero no están sobre todo: El Ы nunca comienza una palabra rusa, el Й casi nunca comienza una palabra cualquiera, y es quizás demasiado semejante el И - y también relativamente un nuevo carácter. El Ё es también relativamente nuevo y mucho discutido-a veces en letras apropiadas de la clasificación alfabética en Ё es mencionado bajo Е . (Este " rules" por supuesto se moderan, otra vez, e. en los catálogos del teléfono, donde los nombres (no-Rusos) extranjeros pueden comenzar con frecuencia con Й o Ы.) Esto refiere a un simple hecho: los alfabetos son no sólo herramientas para la escritura. Y las letras se mantienen a menudo un alfabeto de cierta lengua aunque no se utilizan en la escritura, especialmente porque se utilizan en la enumeración alfabética. Por ejemplo, el X, W, Z no se utiliza en la escritura de la lengua noruega, excepto en loanwords. Todavía se mantienen el alfabeto noruego, y se utilizan en listas alfabéticas. Asimismo, versiones anteriores del alfabeto ruso contuvieron las letras que tenían solamente dos propósitos: eran buenas para las palabras griegas de la escritura y para usar el sistema de cuenta griego en su forma cirílica.

Palabras compuestas y carácteres especiales

Una complicación en la clasificación alfabética puede presentarse debido a los desacuerdos sobre cómo los grupos de palabras ( separado de las palabras compuestas nombra los títulos etc. del ) deben ser pedidos. Una regla es quitar espacios con objeto de ordenar, otra es considerar un espacio como carácter que se pida antes de números y de letras (este método es constante con ordenar por el ASCII o el codepoint de Unicode), y un tercero es pedir un espacio después de números y de letras. Dado las secuencias siguientes para alfabetizar el — " catch", " cattle", " food" del gato; — la primera regla produce el " catch" " food" del gato; " cattle", el segundo " food" del gato; " catch" " cattle", y el tercer " catch" " cattle" " food" del gato;. La primera regla se utiliza en diccionarios, el segundo de la mayoría (pero no todo el) en las guías de telefonos (de modo que Wilson, Jim K aparezca con la otra gente nombrada Wilson, Jim y no después de Wilson, de Jimbo). La tercera regla se utiliza raramente.

Una complicación similar se presenta cuando los carácteres especiales tales como guiones o apóstrofes aparecen en palabras o nombres. Un de los las mismas reglas que arriba puede ser utilizado en este caso también; sin embargo, el ASCII terminante que clasifica corresponde no más exactamente a las reglas unas de los.

El ordenar del nombre/del apellido

El ejemplo de la guía de telefonos vierte la luz en otra complicación. En las culturas donde se escriben los apellidos después de que el los nombres dados él generalmente todavía sea deseado para clasificar por apellido primero. En este caso, los nombres necesitan ser reordenados para ser clasificado correctamente. Por ejemplo, Juan Hernandes y Brian O'Leary deben ser clasificados como Hernandes, Juan y O'Leary, Brian incluso si les no escriben esta manera. La captura de esta regla en un algoritmo de la colación de la computadora es difícil, y las tentativas simples fallarán necesario. Por ejemplo, a menos que el algoritmo tenga en su disposición una lista extensa de apellidos, no hay manera de decidir a si " Gillian Lucille van der Waal" es el " van der Waal, Gillian Lucille", " Waal, Gillian Lucille van der", o aún " Lucille van der Waal, Gillian".

En las guías de telefonos en países de habla inglesa, los apellidos que comienzan con Mc se clasifican como si comiencen con el mac y se ponen a veces entre el " Mabxxx" y " Madxxx". ¿En directorios australianos ( y posiblemente otros? se tratan ), los apellidos que comienzan con el St como si santo deletreado. Bajo estas reglas, la orden de la guía de telefonos de los nombres siguientes estaría: de Maam, de McAllan, de Macbeth, de MacCarthy, de McDonald, de Macy, de Mboko y Sainsbury, santo, St Clair, Salerno.

Abreviaturas y palabras comunes

Cuando se utilizan las abreviaturas, se desea a veces para ampliar las abreviaturas para clasificar. En este caso, " St. Paul" viene antes de " Shanghai". Obviamente, capturar este comportamiento en un algoritmo de la colación, necesitamos una lista de abreviaturas. Puede ser más práctica en algunos casos almacenar dos sistemas de secuencias, uno para clasificar y una exhibición. Un problema similar se presenta cuando las letras son substituidas por números o símbolos especiales de una manera irregular, por ejemplo 1337 para el Leet o el Se7en del de la película. En este caso, la clasificación apropiada hace necesario la custodia de dos sistemas de secuencias.

En ciertos contextos, palabras muy comunes (tales como artículos al principio de una secuencia de palabras no se consideran para ordenar, ni se mueven al extremo. Tan " el " brillante de ; se considera " Shining" o " Brillo, The" cuando la alfabetización y por lo tanto se pide antes de " Verano del " de Sam ;. Esta regla es bastante fácil de capturar en un algoritmo, pero muchos programas confían en lugar de otro en ordenar lexicográfica simple. Una excepción bastante pintoresca a esta regla es el vuelo de la bandera el Republic Of Macedonia yugoslavo anterior en el Naciones Unidas entre los Tailandia y Timor Oriental .

Clasificación de números

El orden creciente de números diferencia de orden alfabético, e. 11 viene alfabéticamente antes de 2. Esto se puede fijar con ceros principales que 02 viene alfabéticamente antes de 11.

También -13 viene alfabéticamente después de -12 aunque sea menos. Con números negativos, hacer que el orden creciente corresponde con la clasificación alfabética, medidas más drásticas son necesarias por ejemplo el adición de un constante a todos los números para hacerlos todo positivos.

Clasificación numérica de secuencias

A veces, se desea para pedir el texto con números encajados usar orden numérica apropiada. Por ejemplo, " Figura 7b" va antes de " Figura 11a", aunque “7” viene después de “1” en Unicode. Esto se puede ampliar al romano este comportamiento de los números no es particularmente difícil de producir mientras solamente los números enteros deban ser clasificados, aunque pueda retrasar la clasificación perceptiblemente. Por ejemplo, el Windows Xp hace esto al clasificar el archivo nombra

La clasificación de decimales es correctamente un poco más difícil, debido al hecho de que diversas escenas utilizan diversos símbolos para una coma, y a veces al mismo carácter usado que una coma también se utiliza como separador, por ejemplo " Sección 3. No hay respuesta universal para que cómo clasifique tales secuencias; cualquier regla es dependiente de la aplicación.

Ver también

Alfabeto
Alfabeto latino
Orden lexicográfica
Algoritmo de la colación de Unicode

.

  • Zenithic
  • Jimmy Manzie
    Random links:Condado de Lewis, Missouri | Área natural de la bahía de la unión | Personalia de la danza | Tango N Vectif | Hup (álbum)

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">