La exclusión estándar de las robustezas del, también conocida como el protocolo de la exclusión de las robustezas del o protocolo de robots.txt del, es una convención para prevenir los Web spider de cooperación y otras robustezas del Web de todo o una parte de acceso de un Web site que sea, si no, público visible. Las robustezas son de uso frecuente por los motores de la búsqueda categorizar y los Web site del archivo, o por los webmasters para corregir código fuente. El estándar complementa el Sitemaps, una inclusión estándar de la robusteza del para los Web site.
Un archivo de robots.txt en un Web site funcionará como una petición que especificó las robustezas no haga caso de archivos especificados o de directorios en su búsqueda. Esto pudo estar, por ejemplo, fuera de una preferencia por aislamiento de resultados del Search Engine, o de la creencia que el contenido de los directorios seleccionados pudo ser engañoso o inaplicable a la clasificación del sitio en conjunto, o fuera de un deseo que un uso funciona solamente encendido ciertos datos.
Para los Web site con secundario-dominios múltiples, cada secundario-dominio debe tener su propio archivo de robots.com tuviera un archivo de robots.txt pero no lo hiciera a.com, las reglas que solicitarían example.com no se aplicarán a a.
El protocolo, sin embargo, es puramente consultivo. Confía en la cooperación de la robusteza del Web, de modo que el marcado de un área de un sitio fuera de los límites con robots.txt no garantice aislamiento. Algunos administradores del Web site han intentado utilizar el archivo de las robustezas para hacer piezas privadas de un Web site invisibles al resto del mundo, pero el archivo está necesario público - disponible y su contenido es comprobado fácilmente por cualquier persona con un web browser .
No hay RFC oficial del cuerpo o de estándares para el protocolo de robots. Fue creado por consenso en el junio de 1994 de los miembros de la lista de personas a quienes se mandan propaganda de las robustezas (robots-request@nexor. La información que especifica las piezas que no deben ser alcanzadas se especifica en un archivo llamado el robots.txt en el directorio a nivel superior del Web site. Los patrones de robots.txt son emparejados por comparaciones simples de la subsecuencia, así que el cuidado se debe tomar para cerciorarse de que los directorios de la adaptación de modelos tienen “/” del final carácter añadido, si no todos los archivos con los nombres que comienzan con esa subsecuencia emparejarán, algo que apenas ésos en el directorio previsto.0 (protocolo de acceso contento automatizado) una agregación posible para el estándar de la exclusión de las robustezas fue lanzada el el 30 de noviembre, 2007 .
De interés reciente está el porcentaje de las páginas del Web site que tienen archivos de robots.txt y que se den las robustezas específicas privilegien para arrastrarse los archivos específicos del Web site. Para ayudar a entender estas ediciones, el Search Engine disponible de a público - robots.txt, BotSeer, se ha desarrollado para buscar y para poner en un índice los archivos de robots.
Este ejemplo guarda el todas las robustezas hacia fuera : lang=" del
El siguiente es un ejemplo que dice a todas las correas eslabonadas no entrar en cuatro directorios de un Web site: lang=" del
Ejemplo que dice a una correa eslabonada específica no incorporar un directorio específico: lang=" del
Ejemplo que dice a todas las correas eslabonadas no entrar en un archivo específico: lang=" del
Observar que el resto de los archivos en el directorio especificado serán procesados.
Ejemplo que demuestra cómo los comentarios pueden ser utilizados: lang=" del
Para prevenir el acceso a todas las páginas por las robustezas, no utilizar
lang=" del
pues esto no es una extensión estándar estable.
En lugar: lang=" del
Sitemap es apoyado por las correas eslabonadas importantes (Google incluyendo, Yahoo, MSN, pide). El Sitemaps especifica la localización de la lista del sitio de URL. Este parámetro es independiente de parámetro de User-agent así que puede ser puesto dondequiera en el archivo. lang=" del
Una explicación de cómo de los archivos de SiteMap ser autor se puede encontrar en sitemaps.org
Crawl-delay, fijaron al número de segundos para esperar entre las peticiones sucesivas al mismo servidor: lang=" del
Algunas correas eslabonadas importantes apoyan un directorio de Allow que pueda contrariar un directorio anterior de Disallow.
Por ejemplo: lang=" del
Un estándar extendido para la exclusión de la robusteza se ha propuesto, que agrega varios nuevos directorios, tales como Visitar-tiempo y Pedir-tarifa . Por ejemplo:
lang=" del
La primera versión del estándar de la exclusión de la robusteza no menciona cualquier cosa sobre el " *" carácter en el Disallow: declaración de . Las correas eslabonadas modernas como Googlebot y Slurp reconocen las secuencias que contienen el " *", mientras que MSNbot y Teoma lo interpretan en maneras diferentes.
lang=" del
dentro de HEAD la sección de un documento del HTML dice los motores de la búsqueda tales como Google, Yahoo!, o MSN para excluir la página de su índice y para no seguir cuaesquiera acoplamientos en esta página para la indexación de direcciones posible adicional.
Si el autor del Web page no tiene acceso a la raíz del dominio, después crear un archivo de robots.txt no es una opción para excluir las robustezas de poner en un índice la página. En esta situación la etiqueta de la meta viene adentro como una alternativa práctica.
(Véase la guía del autor del HTML a la etiqueta de la META de las robustezas.
| Random links: | Fokker 100 | Perturbación singular | Sistema de radiodifusión del bastón | Igor Kostin | Faas Wilkes |