Bloquear URL dinámicas del robot de Google mediante su archivo Robots.txt

He estado intentando averiguar cómo bloquear algunas URL dinámicas del robot de Google. Los robots de búsqueda de Yahoo! Slurp y MSNBot usan la misma sintaxis o una muy similar para bloquear URL dinámicas. Como ejemplo, tengo esta línea en mi archivo htaccess que me permite usar páginas estáticas en lugar de páginas dinámicas, pero descubrí que a veces el robot de Google todavía rastrea mis páginas dinámicas. Esto puede llevar a contenido duplicado que no es tolerado por ninguno de los principales motores de búsqueda.

Estoy tratando de limpiar mi sitio personal, ya que actualmente se ubica bien en Yahoo, pero no en Google. Creo que MSN Live tiene algoritmos similares a los de Google, pero esto no está científicamente probado de ninguna manera. Solo digo esto por mi propia experiencia personal con SEO y los sitios de mis clientes. Creo que he encontrado algunas respuestas sobre cómo clasificar bien en Google, MSN y posiblemente Yahoo. Estoy en medio de pruebas en este momento. Me las arreglé para posicionarme bien en Google para el sitio de un cliente que ya tenía palabras clave relevantes. De todos modos, aquí se explica cómo bloquear las páginas dinámicas de Google utilizando su archivo robots.txt. El siguiente es un extracto de mi archivo htaccess:

RewriteRule personals-dating-(.*).html$ /index.php?page=view_profile&id=$1

Esta regla, en caso de que se lo pregunte, me permite crear páginas estáticas como personals-dating-4525.html desde el enlace dinámico index.php? Page = view_profile & id = 4525. Sin embargo, esto ha causado problemas, ya que ahora el robot de Google puede y me ha «cargado» con contenido duplicado. El contenido duplicado está mal visto y causa más trabajo en Googlebot porque ahora tiene que rastrear páginas adicionales y el algoritmo puede verlo como spam. La moraleja es contenido duplicado que debe evitarse a toda costa.

Lo que sigue es un extracto de mi archivo robots.txt:

User-agent: Googlebot

Disallow: /index.php?page=view_profile&id=*

Observe el signo «*» (asterisco) al final de la segunda línea. Esto solo le dice al robot de Google que ignore cualquier número de caracteres en el lugar del asterisco. Por ejemplo, Googlebot ignorará index.php? Page = view_profile & id = 4525 o cualquier otro número, conjunto o caracteres. En otras palabras, estas páginas dinámicas no se indexarán. Puede comprobar si las reglas de su archivo robots.txt funcionarán correctamente iniciando sesión en su cuenta del panel de control para webmasters de Google. Si no tiene una cuenta de Google, simplemente debe crear una desde Gmail, AdWords o AdSense y tendrá acceso a las herramientas y al panel de control de Google para webmasters. Si desea obtener clasificaciones más altas, debería tener una. Luego, todo lo que necesita hacer es iniciar sesión en sus cuentas de Gmail, Adwords o AdSense para tener una cuenta. Hacen que sea bastante sencillo configurar una cuenta y es gratis. Haga clic en la pestaña «Diagnóstico» y luego en el vínculo «Herramienta de análisis de robots.txt» en la sección Herramientas en la columna de la izquierda.

Por cierto, su archivo robots.txt debería estar en su carpeta webroot. El robot de Google comprueba el archivo robots.txt de su sitio una vez al día y se actualizará en el panel de control de webmasters de Google en la sección «herramienta de análisis de robots.txt».

Para probar su archivo robots.txt y validar si sus reglas funcionarán correctamente con Googlebot, simplemente escriba la URL que le gustaría probar en el campo «Probar URL con este archivo robots.txt». Agregué la siguiente línea a este campo:

http://www.personals1001.com/index.php?page=view_profile&id=4235

Luego hice clic en el botón «Verificar» en la parte inferior de la página. El robot de Google bloqueará esta URL dadas las condiciones. Creo que esta es una mejor forma de bloquear Googlebot en lugar de utilizar la herramienta «Eliminación de URL» que puede utilizar. La herramienta «Eliminación de URL» se encuentra en la columna izquierda del panel de control de webmasters de Google. He leído en algunos casos en los grupos de Google que las personas han tenido problemas con la herramienta «Eliminación de URL».

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)
Abrir chat