Eliminar una página de Google: solo con la etiqueta noindex

En el siguiente vídeo, Matt Cutts habla sobre dos intersantes cuestiones sobre el robots.txt:

  • Cómo hacer para que desaparezca una URL de Google
  • ¿Por qué aparece en Google una URL que he bloqueado en el robots.txt? ¿la ha incluido de todas formas?

Cómo hacer para que desaparezca una URL de Google

Solo con la etiqueta noindex, tal como se explica aquí: Cómo eliminar páginas de Google

¿Por qué aparece en Google una URL que he bloqueado en el robots.txt? ¿la ha incluido de todas formas?

Efectivamente, la ha incluido de todas formas. El formato suele ser una URL con más parámentros adicionaels de la URL excluída, por ejemplo, si excuimos ejemplo.com/go, en google aparece idexada ejemplo.com/go/12345, y sin snippet, solo la URL. Esto es porque no ha rastreado la URL, y la indexa de todas formas porque tiene muchos enlaces hacia esa url con el mismo texto a pesar de estar bloqueada a los buscadores.

A veces, aparece con descripción en el snippet, pero no proviene del rastreo sino del directorio Open Directory Proyect. De esta forma se asegura un resultado con descripción y sin violar la exclusión del robot.txt.

Moraleja: Si queires bloquear totalmente una url, bloquéala bien con noindex.

4 opiniones en “Eliminar una página de Google: solo con la etiqueta noindex”

  1. Ni por esas.
    Aun así nos indexó un dominio, porque ojo, la raiz del dominio no es ninguna página, así que esa la indexó. Sin description ni nada, pero la indexó. Lo mismo aplica a carpetas.

    ¿La solución?
    Excluirla con el Webmaster Tools.

    Sabiendo esto, lo mejor es crear una Google Alert sobre un contenido de la carpeta y, en cuanto la pille, entrar a Webmaster Tools y solitar la eliminación del índice de resultados.

    Oye, mano de santo.

  2. Miguel, yo lo he intentado por Webmaster Tools, y aveces da resultado y la elimina y otras veces viene denegada la solicitud de eliminación porque según ellos el acceso a la url no está restringido en el robot.txt, y una de dos, o que no estoy sabiendo manejar el robots.txt o es que se lo pasan por el forro.

  3. Perfecto, pero el problema persiste para todos aquellos tipos de archivos que no sean html, php, asp.
    Es decir: los swf, xml, zip, etc que hace más de un año intento eliminar, estará
    allí por siempre puesto que no puedo agregarles la etiqueta noindex.

  4. Y pasa algo más que no mencioné en mi comentario anterior: Yo tenía mi url con contenido estático del tipo pagina.html pero al cambiar a WordPress se generó una url /pagina/ por lo que para evitar la duplicidad cree una direccion 301 en .htaccess desde pagina.html hacia /pagina/, hasta ahí todo bien pero al checar en Google resultó que había indexado ambas pagina.html y /pagina/ con exactamente el mismo titulo y descripción por lo que solicité la eliminación de pagina.html en Webmasters Tools y restringí el acceso a la misma desde robots.txt

    Ahora, al ingresar a Webmasters Tools me encuentro con un mensaje que dice “Incidencia Grave: robots.txt está bloqueando el acceso a una página importante”, resulta que dicha página es pagina.html la cual es justamente la que deseo eliminar. Pero ahí no acaba todo: Lo peor es que mi sitio perdió posicionamiento.

    Para la palabra clave principal se encontraba en el lugar número uno o dos antes de la actualización de Google Pengüin, tras Google Pengüin se movió al lugar siete, pero hoy domingo 3 de junio ya no aparece entre las primeras 200 posiciones. Si tecleo site:www.misitio.com si aparecen todas las paginas indexadas, pero ya no aparece como respuesta a la palabra clave más importante y que más tráfico me generaba. ¿Tendrá algo que ver lo que mencioné sobre la supuesta incidencia con robots.txt?

Deja un comentario

Tu dirección de correo electrónico no será publicada.