Ya hemos hablado que es el contenido huérfano y ahora vamos a concretar un poco mas indicando los pasos a seguir para encontrar contenido huérfano con la ayuda de Screaming Frog.
Tenemos que tener en cuenta que Screaming Frog considera como contenido huérfano cualquier URL en la que no se puede llegar desde el punto de inicio de un rastreo (generalmente la página de inicio). Además las páginas huérfanas pueden tener enlaces internos de otras páginas huérfanas.
Una pequeña cantidad de páginas huérfanas es muy común y, en general, no es un gran problema. Pero a gran escala pueden contribuir al aumento del índice y al desperdicio del presupuesto de rastreo.
En este tutorial vamos a utilizar Screaming Frog para encontrar páginas huérfanas de tres fuentes, Sitemaps, Google Analytics y Search Console. Para hacer esto es necesario tener la licencia de Screaming Frog, la versión gratuita no te permite hacer todo esto.
Una vez que estés preparado solamente tienes que seguir estos pasos: indicamos la URL de nuestro sitemap, conectamos con la API de Google Analytics y Search Console. Escaneamos nuestro sitios web y comprobamos los resultados. Comenzamos
Resumen del Contenido
1. Indicamos la ubicaciones de nuestro sitemap XML
Desde Configuration – > Spider -> Crawl -> XML Sitemap
Esto significa que se rastrearán todas las URL huérfanas nuevas que solo se puedan detectar a través del mapa del sitio XML.
2. Conectar API de Google Analytics
Al conectarte a la API de Google Analytics obtienes los datos para una cuenta, propiedad, vista y segmento específicos directamente durante un rastreo. Tienes que elegir el segmento de «Tráfico Orgánico» para encontrar páginas huérfanas de la búsqueda orgánica.
En la pestaña General de la imagen anterior marca la opción de: Crawl New URLs Discovered In Google Analytics
3. Conectar con la API de Google Search Console
Desde Configuration -> API Access – > Google Search Console.
Solamente tienes que elegir la propiedad correcta del caso de estudio y en la pestaña General marcar la opción de «Crawl New URLs Discovered In Google Search Console», como hicimos antes al conectar con Anlytics.
4 . Rastreamos el sitio web
Comenzamos el rastreo del sitio web y en unos minutos tendremos el resultado
Una vez que ha llegado al 100% las nuevas URL descubiertas a través del mapa del sitio XML, Google Analytics y Search Console se rastrearán posteriormente. Veamos como
5. Rastreo de las URL huérfanas que estamos buscando
Para ello hacemos Clic en Crawl Analysis -> Configuration para asegurarnos que todo es correcto y marcamos estas opciones
Aceptamos y ya podemos comenzar pulsando Crawl Analysis -> Star y tendremos el resultado
Ya tenemos los datos que necesitamos, ahora pasamos a la fase de estudio
6. Análisis de las páginas huérfanas
Desde Screamign Frog, en la pestaña de Sitemap filtramos por páginas huérfanas, como vemos en esta imagen
Estas no son todas páginas huérfanas que existen, son URL huérfanas que no están vinculadas internamente en el sitio web.
Desde la pestaña de Google Search Console, también podemos filtrar páginas con código respuesta 200, son correctas, pero que no tienen ningún enlace interno.
Podríamos hacer los mismo desde la pestaña de Analytics y ver las páginas huérfanas, creo que la captura de pantalla ya no es necesario, ¿no crees?
Ya tenemos todos los datos y solamente nos queda exportar todo, y esto es muy sencillo desde los informes:
Reports -> Orphan pages y podremos guardar en nuestro ordenador un listado en excel, ¡que maravilla!
Si abres el fichero verás el listado de páginas huérfanas y la fuente, sitemap, GSC o GA.
Como nota, puedes saber cuales son las paginas huérfanas comprobando la profundidad de rastreo, Crawl Depth, si esta está vacía es una página huérfana.