La exclusión estándar de las robustezas del, también conocida como el protocolo de la exclusión de las robustezas del o protocolo de robots.txt del, es una convención para prevenir los Web spider de cooperación y otras robustezas del Web de todo o una parte de acceso de un Web site que sea, si no, público visible. Las robustezas son de uso frecuente por los motores de la búsqueda categorizar y los Web site del archivo, o por los webmasters para corregir código fuente. El estándar complementa el Sitemaps, una inclusión estándar de la robusteza del para los Web site.

Un archivo de robots.txt en un Web site funcionará como una petición que especificó las robustezas no haga caso de archivos especificados o de directorios en su búsqueda. Esto pudo estar, por ejemplo, fuera de una preferencia por aislamiento de resultados del Search Engine, o de la creencia que el contenido de los directorios seleccionados pudo ser engañoso o inaplicable a la clasificación del sitio en conjunto, o fuera de un deseo que un uso funciona solamente encendido ciertos datos.

Para los Web site con secundario-dominios múltiples, cada secundario-dominio debe tener su propio archivo de robots.com tuviera un archivo de robots.txt pero no lo hiciera a.com, las reglas que solicitarían example.com no se aplicarán a a.

El protocolo, sin embargo, es puramente consultivo. Confía en la cooperación de la robusteza del Web, de modo que el marcado de un área de un sitio fuera de los límites con robots.txt no garantice aislamiento. Algunos administradores del Web site han intentado utilizar el archivo de las robustezas para hacer piezas privadas de un Web site invisibles al resto del mundo, pero el archivo está necesario público - disponible y su contenido es comprobado fácilmente por cualquier persona con un web browser .

No hay RFC oficial del cuerpo o de estándares para el protocolo de robots. Fue creado por consenso en el junio de 1994 de los miembros de la lista de personas a quienes se mandan propaganda de las robustezas (robots-request@nexor. La información que especifica las piezas que no deben ser alcanzadas se especifica en un archivo llamado el robots.txt en el directorio a nivel superior del Web site. Los patrones de robots.txt son emparejados por comparaciones simples de la subsecuencia, así que el cuidado se debe tomar para cerciorarse de que los directorios de la adaptación de modelos tienen “/” del final carácter añadido, si no todos los archivos con los nombres que comienzan con esa subsecuencia emparejarán, algo que apenas ésos en el directorio previsto.0 (protocolo de acceso contento automatizado) una agregación posible para el estándar de la exclusión de las robustezas fue lanzada el el 30 de noviembre, 2007 .

De interés reciente está el porcentaje de las páginas del Web site que tienen archivos de robots.txt y que se den las robustezas específicas privilegien para arrastrarse los archivos específicos del Web site. Para ayudar a entender estas ediciones, el Search Engine disponible de a público - robots.txt, BotSeer, se ha desarrollado para buscar y para poner en un índice los archivos de robots.

Ejemplos

Este del ejemplo permite que todas las robustezas visiten el todos los archivos porque el " del comodín; *" especifica todas las robustezas: lang=" del Usuario-agente: * Rechazar:

Este ejemplo guarda el todas las robustezas hacia fuera : lang=" del Usuario-agente: * Rechazar: /

El siguiente es un ejemplo que dice a todas las correas eslabonadas no entrar en cuatro directorios de un Web site: lang=" del Usuario-agente: * Rechazar: /cgi-bin/ Rechazar: /images/ Rechazar: /tmp/ Rechazar: /private/

Ejemplo que dice a una correa eslabonada específica no incorporar un directorio específico: lang=" del Usuario-agente: BadBot Rechazar: /private/

Ejemplo que dice a todas las correas eslabonadas no entrar en un archivo específico: lang=" del Usuario-agente: * Rechazar: /directory/file.html

Observar que el resto de los archivos en el directorio especificado serán procesados.

Ejemplo que demuestra cómo los comentarios pueden ser utilizados: lang=" del Los comentarios aparecen después del " #" símbolo al principio de una línea, o después de un directivo Usuario-agente: * # fósforo todos los bots Rechazar: /# guardarlos hacia fuera

Compatibilidad

Para prevenir el acceso a todas las páginas por las robustezas, no utilizar

lang=" del Rechazar: *

pues esto no es una extensión estándar estable.

En lugar: lang=" del Rechazar: / debe ser utilizado.

Extensiones no estándar

Auto-discovery de Sitemaps

El parámetro de Sitemap es apoyado por las correas eslabonadas importantes (Google incluyendo, Yahoo, MSN, pide). El Sitemaps especifica la localización de la lista del sitio de URL. Este parámetro es independiente de parámetro de User-agent así que puede ser puesto dondequiera en el archivo.

lang=" del Sitemap: http://www.gz

Una explicación de cómo de los archivos de SiteMap ser autor se puede encontrar en sitemaps.org

Arrastrar-retrasar el directorio

Varias correas eslabonadas importantes apoyan un parámetro de Crawl-delay, fijaron al número de segundos para esperar entre las peticiones sucesivas al mismo servidor:

lang=" del Usuario-agente: * Arrastrar-retrasar: 10

Permitir el directorio

Algunas correas eslabonadas importantes apoyan un directorio de Allow que pueda contrariar un directorio anterior de Disallow.

Por ejemplo: lang=" del Usuario-agente: Googlebot Rechazar: /folder1/ Permitir: /folder1/myfile.html

Estándar extendido

Un estándar extendido para la exclusión de la robusteza se ha propuesto, que agrega varios nuevos directorios, tales como Visitar-tiempo y Pedir-tarifa . Por ejemplo:

lang=" del Usuario-agente: * Rechazar: /downloads/ Pedir-tarifa: 1/5 # tarifa máxima es una página cada 5 segundos Visitar-tiempo: 0600-0845 # solamente visita entre el 6:00 y el 8:45 UT (GMT)

La primera versión del estándar de la exclusión de la robusteza no menciona cualquier cosa sobre el " *" carácter en el Disallow: declaración de . Las correas eslabonadas modernas como Googlebot y Slurp reconocen las secuencias que contienen el " *", mientras que MSNbot y Teoma lo interpretan en maneras diferentes.

Alternativas

Mientras que robots.txt es el más viejo y más extensamente aceptado método, hay otros (que se pueden utilizar junto con robots.txt) que permite mayor control, como la indexación de direcciones de incapacidad de imágenes solamente o archivar de incapacidad del contenido de la página.

Etiquetas de la meta del HTML para las robustezas

Las etiquetas de la meta del HTML se pueden utilizar para excluir las robustezas según el contenido de Web pages. Una vez más esto es puramente consultivo, y también confía en la cooperación de los programas de robusteza. Por ejemplo,

lang=" del name=" del

dentro de HEAD la sección de un documento del HTML dice los motores de la búsqueda tales como Google, Yahoo!, o MSN para excluir la página de su índice y para no seguir cuaesquiera acoplamientos en esta página para la indexación de direcciones posible adicional.

Si el autor del Web page no tiene acceso a la raíz del dominio, después crear un archivo de robots.txt no es una opción para excluir las robustezas de poner en un índice la página. En esta situación la etiqueta de la meta viene adentro como una alternativa práctica.

(Véase la guía del autor del HTML a la etiqueta de la META de las robustezas.

  • Zenithic
  • Dosage (album)
    Random links:Fokker 100 | Perturbación singular | Sistema de radiodifusión del bastón | Igor Kostin | Faas Wilkes

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">