Un archivo de texto del es una descripción genérica de una clase del fichero electrónico en un sistema del fichero electrónico. En este nivel genérico de descripción, hay dos clases de ficheros informáticos: 1) archivos de texto; y 2) archivos binarios. Esta distinción de dos niveles amplia se reconoce y se aplica extensamente en la computación, aunque puede ser engañoso, y conforme a la interpretación de diferenciación.
La base más común para distinguir archivos de texto de los archivos binarios depende de cómo la información almacenada subyacente es interpretada y procesada en última instancia por el sistema operativo y los programas asociados. Los archivos de texto se interpretan generalmente como consistiendo solamente en los carácteres de un juego de caracteres reconocido . Los juegos de caracteres bien conocidos incluyen el juego de caracteres ASCII y el juego de caracteres de Unicode .
considera también:
la codificación del carácter Generalmente, un archivo de texto contiene carácteres en un ASCII - codificación basada, o mucho menos comúnmente un EBCDIC - codificación basada, sin ninguna información encajada tal como información de la fuente, los enlaces hipertexto o los archivos de texto en línea de las imágenes se codifican a menudo en una extensión del ASCII; éstos incluyen ISO 8859, EUC, una codificación especial para el Windows, una codificación Mac-Romana especial para OS del mac, y esquemas de la codificación de Unicode (comunes en muchas plataformas) por ejemplo el UTF-8 o el UTF-16 .
Una desventaja grande de los archivos de texto llano es que no hay manera para que un programa determine confiablemente se utiliza qué codificación. Un editor de textos puede salvar su archivo de texto en UTF-8, pero un recopilador pudo esperar su entrar en ISO 8859. El intentar compilar el archivo de texto UTF-8 causaría la confusión y errores. Algunos formatos de texto (tales como XML ) tienen un mecanismo In-band para especificar la codificación del documento, pero la mayoría de archivos de texto no tienen ninguÌn tal mecanismo. Algunos programas hacen grandes esfuerzos al " guess" la codificación buscando patrones en el archivo de texto, pero este procedimiento que conjetura es muy difíciles de especificar correctamente para todos los casos (véase el AI-completo).
, presente en muchos paquetes de programas informáticos. Sin embargo, no hay diferencia entre un archivo de texto llano sin la extensión y un archivo de . El " del término; text" llano; se atribuye al contenido del archivo, mientras que el " del término; .txt" se atribuye a los meta datos (es decir la extensión) del archivo.
Variaciones del texto llano
Puesto que el texto llano no es un estándar formalmente definido, la definición del formato de un archivo de texto llano es algo floja. Las diferencias del principio están en los juegos de caracteres y las codificaciones del carácter y las convenciones sobre la semántica de los carácteres del formato. El juego de caracteres de ASCII es el formato más común para los archivos de texto de lengua inglesa, y se asume generalmente para ser el formato de archivo del defecto en muchas situaciones. Que los carácteres acentuados y otros no-ASCII, es necesario elijan una codificación del carácter. En muchos sistemas, esto se elige en base del ajuste de la escena del defecto en la computadora que se sigue leyendo. Las codificaciones comunes del carácter incluyen ISO 8859-1 para muchas idiomas europeas.
Porque muchas codificaciones tienen solamente un repertorio limitado de carácteres, son a menudo solamente usables representar el texto en un subconjunto limitado de idiomas humanas. El Unicode es una tentativa de crear un estándar común para representar todas las idiomas sabidas, y la mayoría de los juegos de caracteres sabidos son subconjuntos del juego de caracteres muy grande de Unicode. Aunque haya codificaciones múltiples del carácter disponibles para Unicode, el más común es el UTF-8, que tiene la ventaja de ser al revés-compatible con el ASCII: es decir, cada archivo de texto de ASCII es también un archivo de texto UTF-8 con el significado idéntico.
Carácteres de formato
Si uno está utilizando un viejo Macintosh, después el comando del Newline se asocia al carácter número 13 de ASCII. Si uno está utilizando Unix, después el carácter de ASCII es el número 10. Si, en lugar, la persona está utilizando una unidad central de IBM, después él o ella utilizara el formato del EBCDIC y la línea siguiente serían el número 15.
Archivos estándar de Windows .txt
El MS-DOS y Windows de Microsoft utilizan un formato de archivo común del texto, con cada línea de texto separada por una combinación de dos carácteres: CR y LF, que tienen códigos 13 y 10. Es común para la línea pasada del no del texto que se terminará con un marcador de CR-LF, y muchos editores de textos (libreta incluyendo) no insertan automáticamente uno en la línea pasada.
La mayoría de los archivos de texto de Windows utilizan una forma de ANSI, de OEM o de codificación de Unicode. Qué terminología de Windows llama el " Encodings" del ANSI; están generalmente las codificaciones del solo-octeto ISO-8859, a excepción en de las escenas tales como chinos, japoneses y coreano que requieran juegos de caracteres del doble-octeto. Las codificaciones del ANSI fueron utilizadas tradicionalmente como escenas de sistema del defecto dentro de Windows, antes de la transición a Unicode. Por el contrario, las codificaciones del OEM, también conocidas como páginas de código del MS-DOS, fueron definidas por IBM para el uso en el sistema de visualización original del modo de texto de la PC de IBM. Incluyen típicamente gráfico y los caracteres de trazado de líneas comunes en usos de plena pantalla del MS-DOS. Archivos de texto más nuevos de Windows pueden utilizar una codificación de Unicode tal como UTF-16LE o UTF-8.
Notas y referencias
Ver también
Lista de los formatos de archivo
Extensiones de archivo
ASCII
EBCDIC
Newline
Editor de textos
Unicode
Texto llano
Archivo binario .
Zenithic AlliedBartonRandom links: Galileo Galilei | Coopertown, Tennessee | Kingsport, Tennessee | Spring Hill, Nueva Escocia | Regicidio: El asesinato oficial de John F. Kennedy