Por lo general, en el mundo del SEO destinamos muchos esfuerzos a que nuestra página sea totalmente indexable por los motores de búsqueda, pero a veces tenemos ciertos contenidos dentro del site que por una u otra razón no queremos que sean indexados, para este fin se han creado los llamados robots txt.
Resumen del Contenido
¿Qué es robots.txt?
Los archivos tipo robots txt son muy útiles para dar instrucciones a las arañas de los buscadores sobre la indexación de nuestro site, si hay una parte de la web con información confidencial por ejemplo, solo tenemos que poner un robots.txt a esa parte y no aparecerá en los motores de búsqueda. Además los robots.txt son muy útiles cuando hacemos cambios sustanciales en la web, por ejemplo cuando cambiamos el nombre de una URL, los pasos a seguir serían:
1- Quitar del sitemap el nombre de la antigua URL e introducir la nueva
2-Poner en un archivo de robots txt la antigua URL y subirlo a la raiz del FTP.
Por otro lado, en caso de tener contenido duplicado en nuestro site debemos poner robots txt para que Google no nos penalice, esto cobra especial importancia desde que Google indexa flash, porque hasta ahora había muchas webs en flash que estaban duplicadas en HTML para que los buscadores pudiesen indexarlas, pero como actualmente puede leer este lenguaje de programación es posible que considere que estas webs tienen gran cantidad de contenido duplicadas, por lo que debemos poner un robots txt en una de las dos partes (es recomendable ponerlo en la parte flash)
Ubicación
La ubicación de robots.txt es muy importante. Debe estar en el directorio principal, porque de lo contrario los motores de búsqueda no serán capaces de encontrarlo. Debe de ponerse en el directorio raiz del sitio, por ejemplo, http://tutorialmonsters.com/robots.txt. y si los búscares no lo encuentran allí, simplemente asumen que este sitio no tiene un archivo robots.txt
Estructura de un fichero robots.txt
La estructura de un archivo robots.txt es bastante simple, es una lista interminable de los agentes de usuario y los archivos y directorios no permitidos. Básicamente, la sintaxis es como sigue:
[highlight]User-agent:Dissallow:[/highlight]
«User-agent» son los rastreadores de motores de búsqueda y Disallow: muestra los archivos y directorios que deben excluirse de la indexación. Además de «user-agent» y «disallow» las entradas, puede incluir líneas de comentarios – sólo hay que poner el signo # al comienzo de la línea:
[highlight]# Todos los User-agent no están permitidas para ver el directorio / temp.User-agent: *
Disallow: / temp /[/highlight]
Ejemplos de ficheros robots.txt
Para ver ejemplos visita la web http://www.robotstxt.org/ donde encontraras informaciñon muy completa del funcionamiento.
Chequear fichero robots.txt
A veces puede ser necesario verificar el fichero robots.txt, desde esta herramienta puedes hacer esto online, y como siempre diga, comprobar, comprobar y volver a comprobar que todo funciona correctamente: