robots.txt y meta robots, manual de uso - (X)HTML - Programación y Desarrollo web - Foro

Daniel - 26/06/2007 -- 12:03:16

26/06/2007 12:03:16

Daniel

Existen varias formas de indicar a los robots de los buscadores, como Google, que indexan las webs, qué queremos que vean y qué no.

La forma mas común es el archivo robots.txt, creado en el directório raíz. El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.

Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas. El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco.

Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo

El signo # señala que la linea que le sigue es un comentario, y no será leida.

Ejemplo simple:

# Para que excluye TODAS las busquedas a TODOS los robots:
User-agent: *    # aplicable a todos
Disallow: /      # impide la indexacion de todas las paginas

Ejemplo completo:

# Establecemos total libertad para webcrawler
# Ya que dejamos Disallow vacio
User-agent: webcrawler
Disallow:

# En cambio lycra y BadBot
# tiene prohibido integramente el acceso
User-agent: lycra
User-agent: BadBot
Disallow: /

# El resto de bots (señalado mediante *)
# tiene prohibido el acceso a los directorios
# /tmp y /log; libertad para el resto.

User-agent: *
Disallow: /tmp
Disallow: /logs

Puedes consultar una lista de los robots conocidos en robotstxt.org

Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.

Mediante las directivas "Disallow" especificamos los directorios o archivos concretos que deseamos excluir:

Disallow: /help  # afecta a /help.html y a  /help/index.html
Disallow: /help/ # afecta a /help/index.html  pero no a  /help.html.

Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene restricción ninguna.

Si no podemos crear un archivo robots.txt, o si queremos personalizar las instrucciones página por página, podemos utilizar las etiquetas META:

<meta name="ROBOTS" content="NOINDEX,NOFOLLOW" />

Este ejemplo indica al robot que no debe ni indexar el documento ni seguir sus links.

Las opciones a poner en content son:

ALL o INDEX,FOLLOW: Indexa y sigue los enlaces
NONE o NOINDEX,NOFOLLOW: Ni indexa ni sigue los enlaces
INDEX,NOFOLLOW: Indexa pero no sigue los enlaces
NOINDEX,FOLLOW: No indexa pero sigue los enlaces

Se están intentando añadir nuevas directivas que permitan controlar el tiempo en el que los robots indexan las páginas, pero en general no están implementadas:

# Permitir trabajar a los botsde  2 am a 7:45 am
# Las horas son siempre Greenwitch
Visit-time: 0200-0745

# Un documento CADA  30 minutos
Request-rate: 1/30m

# Combinado: 1 doc cada 10 minutos
# y solo de una  a 5 tarde
Request-rate: 1/10m 1300-1659

Fuentes:

http://www.ignside.net/man/servidores/robots.php
http://www.robotstxt.org/wc/meta-user.html

Editado por Daniel el 26/06/2007 a las 12:06:19h.