La colación es el montaje de la información escrita en una orden estándar. Esto comúnmente se llama la alfabetización, aunque la colación no se limita a las letras que ordenan del alfabeto . La compaginación de listas de palabras o de nombres en orden alfabético es la base de la mayoría de los sistemas de la limadura de la oficina, de los catálogos de biblioteca y de los libros de consulta
La colación diferencia de la clasificación del en esa clasificación se trata a arreglar la información en categorías lógicas, mientras que la colación se refiere a ordenar de esas categorías.
Las ventajas de listas clasificadas incluyen:
uno puede encontrar fácilmente los primeros elementos de n (e. los 5 países más pequeños) y los elementos pasados de n (e. los 3 países más grandes)
uno puede encontrar fácilmente los elementos en una gama dada (e. países con un área en medio. cuadrado kilómetros)
uno puede buscar fácilmente para un elemento, y concluye si él está en la lista, e. con el algoritmo de búsqueda binaria o la búsqueda de interpolación automáticamente, o, áspero y quizás inconsciente, manualmente.
Un algoritmo de la colación, e. el " " del algoritmo de la colación de Unicode;, diferencia de un algoritmo de clasificación : el primer es un proceso al define la orden, que corresponde al proceso apenas de comparar dos valores, mientras que un algoritmo de clasificación es un procedimiento para poner una lista de artículos en esta orden.
La colación define a en el sistema de artículos posibles, típicamente definiendo una orden del total en el A. Nota sin embargo que en el caso e. de la clasificación numérica de las secuencias que representan números, las secuencias preordered solamente parcialmente, porque e.g 2e3 y 2000 tienen la misma graduación, y 2 y 2. Los números representados por las secuencias se piden total.
Mientras que esto pudo aparecer trabajar solamente para los números, las computadoras pueden utilizar este método para cualquier información textual desde los juegos de caracteres del uso de las computadoras interno que asignan un punto de código numérico del a cada Glyph de la letra o. Por ejemplo, una computadora usar código ASCII (o cualquiera de sus sobreconjuntos tal como Unicode ) y la clasificación numérica compaginaría la lista del a de los carácteres · b · C · d · $ a $ · C · a · b · d .
Los valores numéricos que el ASCII utiliza son el $ = 36, = 97, el b = 98, el C = 67, y el d = 100, dando por resultado qué se llama " ".
Este estilo de la colación es de uso general, a menudo con el refinamiento de convertir letras mayúsculas a la minúscula antes de comparar valores del ASCII, puesto que la mayoría de la gente no espera que las palabras capitalizadas salten el jefe de la lista.
La orden del alfabeto latino es
El principio detrás de ampliar orden alfabético a las palabras (orden lexicográfica ) es que todas las palabras en un principio de la lista con la misma letra se deben agrupar juntas; dentro de comenzar que agrupa con una sola letra, todas las palabras que comienzan con las mismas dos letras serán agrupadas juntas; y así sucesivamente, maximizando el número de letras comunes entre las palabras adyacentes. El principio que ordena es aplicado en el punto donde diferencian las letras. Por ejemplo, en la secuencia:
Astro l' abe Astro' n' omy Astro' p' hysics
La orden de las palabras se da según la primera letra de las palabras que es diferente de las otras (demostrado en en negrilla). Puesto que el n sigue el l en el alfabeto, pero precede el p, la astronomía del viene después del astrolabio del, pero antes de la astrofísica del .
Ha habido históricamente una cierta variación en el uso de estas reglas. Por ejemplo, el Mc de los prefijos y el M en apellidos irlandeses y escoceses fueron tomados para ser abreviaturas para el mac del, y alfabetizados como si fueran explicados como mac del adentro por completo. Así uno pudo encontrar en un catálogo la secuencia:
McKinley Mackintosh
con el precedente Mackintosh de McKinley del, como si hubiera sido " deletreado; MacKinley". Desde el advenimiento de listas computadora-clasificadas, este tipo de alfabetización se encuentra menos con frecuencia, aunque todavía se utiliza en listines de teléfonos británicos. Una variación en principios alfabéticos se aplica a los nombres que consisten en dos palabras. En algunos casos, los nombres con primeras palabras idénticas todos se alfabetizan juntos bajo primera palabra, e., agrupando juntos todos los nombres que comienzan con el San, todo el ésos principio con el Santa, y ésos principio con el Santo :
San San Cristobal San Juan San Teodoro San Tomas Santa Barbara Santa Cruz Santa Clara Santo Domingo
Pero en otro sistema, los nombres se alfabetizan como si no tuvieran ninguÌn espacio, e. como sigue:
San San Cristobal San Juan Santa Barbara Santa Cruz Santa Clara San Teodoro Santo Domingo San Tomas
La diferencia entre la clasificación numérica del computadora-estilo y verdad la clasificación alfabética llega a ser obvia en idiomas usar un alfabeto latino extendido. Por ejemplo, el alfabeto de la treinta-letra español trata el ñ del como letra básica después del n, y el antes tratado ch y el ll del como letras básicas después del c, l, respectivamente. El Ch y el ll del todavía se consideran las letras, pero se alfabetizan como combinaciones two-letter. (La nueva regla de la alfabetización fue publicada por la academia española real en 1994.) Por una parte, el rr de la letra sigue el rqu del según lo esperado, con y sin la regla 1994 de la alfabetización. Una clase numérica puede pedir el ñ del que sigue incorrectamente el z y tratar el ch como c + h, también incorrecto al usar la alfabetización pre-1994.
Las diferencias similares entre la clasificación numérica de la computadora y la clasificación alfabética ocurren en el danés y el noruego (el aa se pide en el final del alfabeto cuando es pronunciado como el å, y al principio del alfabeto cuando es pronunciado como al ), alemán (el ß del se pide como s + s ; el ä del, ö, ü se pide como a + e, o + e, u + e en listines de teléfonos, sino como el o a otra parte, y detrás del o en Austria), el islandés (el ð sigue el d ), holandés del (el ij del se pide a veces como y ; ver el #Collation IJ (dígrafo)), inglés (el æ del se pide como a + e ), y muchas otras idiomas.
Generalmente se no hacen caso los espacios o los guiones entre las palabras.
Las idiomas que utilizaron un silabario o el Abugida en vez de un alfabeto (por ejemplo, cherokee) pueden utilizar aproximadamente el mismo sistema si hay un sistema que pide para los símbolos.
Otra forma de colación es radical-y-movimiento del que clasifica, usado para los sistemas de escritura no alfabéticos tales como kanji japonés chino Hanzi y, cuyos millares de símbolos desafían ordenar de la convención. En este sistema, los componentes comunes de carácteres se identifican; éstos se llaman los radicales en los sistemas chinos y logográficos derivados de chino. Los carácteres después son agrupados por su radical primario, después pedidos por el número de movimientos de la pluma dentro de radicales. Cuando no hay radical obvio o más que uno radical, la convención gobierna que se utiliza para la colación. Por ejemplo, el carácter chino para el " mother" (媽) se clasifica como carácter del trece-movimiento debajo del radical primario del tres-movimiento (女).
El sistema del radical-y-movimiento es incómodo comparado a un sistema alfabético en el cual haya algunos carácteres, todo inequívoco. La opción cuyo los componentes de un logograph abarcan radicales separados y que el radical es primario no es neta. Consecuentemente, las idiomas logográficas complementan a menudo el radical-y-movimiento que ordena con la clasificación alfabética de una conversión fonética de los logographs. Por ejemplo, de Tōkyō del de la palabra del kanji el '(東京), el nombre japonés Tokio puede ser clasificado como si fuera deletreado hacia fuera en los carácteres japoneses del silabario de los Hiragana como " to-u-ki-yo-u" (とうきょう), usar la pedido de clasificación convencional para estos carácteres.
Sin embargo, el sistema del radical-y-movimiento es el único método práctico para construir los diccionarios que alguien puede utilizar para mirar para arriba un logograph cuya pronunciación sea desconocida.
Además, en mayor China, el movimiento del apellido que pide es una convención en algunas documentaciones oficiales donde están mencionados los nombres de la gente sin jerarquía.
Una complicación similar se presenta cuando los carácteres especiales tales como guiones o apóstrofes aparecen en palabras o nombres. Un de los las mismas reglas que arriba puede ser utilizado en este caso también; sin embargo, el ASCII terminante que clasifica corresponde no más exactamente a las reglas unas de los.
En las guías de telefonos en países de habla inglesa, los apellidos que comienzan con Mc se clasifican como si comiencen con el mac y se ponen a veces entre el " Mabxxx" y " Madxxx". ¿En directorios australianos ( y posiblemente otros? se tratan ), los apellidos que comienzan con el St como si santo deletreado. Bajo estas reglas, la orden de la guía de telefonos de los nombres siguientes estaría: de Maam, de McAllan, de Macbeth, de MacCarthy, de McDonald, de Macy, de Mboko y Sainsbury, santo, St Clair, Salerno.
En ciertos contextos, palabras muy comunes (tales como artículos al principio de una secuencia de palabras no se consideran para ordenar, ni se mueven al extremo. Tan " el " brillante de ; se considera " Shining" o " Brillo, The" cuando la alfabetización y por lo tanto se pide antes de " Verano del " de Sam ;. Esta regla es bastante fácil de capturar en un algoritmo, pero muchos programas confían en lugar de otro en ordenar lexicográfica simple. Una excepción bastante pintoresca a esta regla es el vuelo de la bandera el Republic Of Macedonia yugoslavo anterior en el Naciones Unidas entre los Tailandia y Timor Oriental .
También -13 viene alfabéticamente después de -12 aunque sea menos. Con números negativos, hacer que el orden creciente corresponde con la clasificación alfabética, medidas más drásticas son necesarias por ejemplo el adición de un constante a todos los números para hacerlos todo positivos.
La clasificación de decimales es correctamente un poco más difícil, debido al hecho de que diversas escenas utilizan diversos símbolos para una coma, y a veces al mismo carácter usado que una coma también se utiliza como separador, por ejemplo " Sección 3. No hay respuesta universal para que cómo clasifique tales secuencias; cualquier regla es dependiente de la aplicación.
.
| Random links: | Condado de Lewis, Missouri | Área natural de la bahía de la unión | Personalia de la danza | Tango N Vectif | Hup (álbum) |