Cuando eliminas una página de tu web, esta se mantiene en el índice de Google y, si no has realizado bien la redirección, muchos visitantes recibirán un bonito error 404 de bienvenida.
Esto tiene fácil solución: añadimos un 301 en .htaccess o utilizamos un plugin de WordPress para gestionar las redirecciones, y en Search Console desindexamos la página del índice y la caché.
Pero ¿que pasa si quieres cargarte miles de páginas a la vez? ir de una en una es un engorro, así que aquí te traemos un truquete muy interesante para automatizar el proceso con una extensión para Chrome.
Desindexar URL de Google
¿No sabes cómo desindexar una pagina de Google?
Pues el proceso para desindexar una URL de Google es el siguiente:
Accedemos a Search Console (antiguo Webmaster Tool) y vamos a Índice de Google > Eliminación de URL
Hacemos clic en «Ocultar temporalmente», introducimos la URL completa y seleccionamos el tipo de solicitud para desindexar la página:
Seleccionamos la primera opción y clicamos en «Enviar solicitud.»
Listo, en cuestión de minutos, horas o días (en función del rastreo que Google haga de tu web) la página dejará de aparecer en los resultados de búsqueda.
Desindexar miles de páginas a la vez
Para desindexar varias páginas a la vez en masa o por lotes hace falta una extensión de Chrome que añade esta funcionalidad en Search Console, y que permite subir un archivo de texto con todas las URL que quieras eliminar para que lo haga de forma automática.
¿Lo quieres?
Una vez instalado en Chrome (Más herramientas > Extensiones > Cargar extensión descomprimida) Search Console nos mostrará ahora un botón para cargar un archivo con todas las páginas que queramos eliminar.
Deberás escribir una url por línea y guardar el archivo con extensión .txt
En cuanto lo carguemos, la extensión empezará a enviar solicitudes automáticamente una a una, por lo que tan solo deberás dejar abierto el navegador hasta que termine.
De esta forma podrás eliminar URL en masa o por lotes siempre que lo necesites.
Evitar indexar URL con parámetros
Search Console también cuenta con una opción para evitar que Google indexe páginas con parámetros.
Esto es muy útil para evitar follones de contenido duplicado en las SERP con url del tipo /?page=
Para configurarlo, accedemos a Rastreo > Parámetros de URL.
Si Google ya ha indexado páginas de este tipo, te mostrará los parámetros que ha detectado:
Haz clic en editar y te saldrá un cuadro como este
Con la configuración que puedes ver en la captura, Google nos indica qué tipo de URL no serán indexadas. Guardamos los cambios y ya podremos estar tranquilos. Ninguna URL con esa estructura será indexada 😉
Imagen | Freepik
Excelente post, me ha servido de mucho y hasta lo he guardado en favoritos.
Gracias Keiner, un placer poder ayudar 😉
Hola Bruno, disculpa, tengo un gran problema, me puedes ayudar, tengo un sitio nuevo, en la consola de google ingrese las dos direcciones con ¨www¨ y sin ¨www¨, para ambas agregué el sitemap y el archivo robots, el mismo para las dos.
Ahora google me indexa las dos direcciones con y sin ¨www¨esto me va a penalizar por contenido duplicado.
Mi pregunta es cómo elimino esta indexación (la dirección sin ¨www¨) y que hago con el sitemap y el archivo robot que envié de esta dirección?
Gracias por tu ayuda.
Hola Jonathan.
Aquí lo importante es que la versión SIN www. redirija automáticamente a la versión CON www.
Esto lo puedes hacer configurando el archivo .htaccess en la raíz de tu dominio:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^tudominio.com
RewriteRule (.*) http://www.tudominio.com/$1 [R=301,L]
Luego, en Search Console elimina el sitemap de la versión SIN www. y cualquier otra configuración que hayas hecho, y en la versión CON www. debes establecer el dominio preferido (una vez seleccionado el dominio, haz clic en el icono del engranaje de arriba a al derecha > Configuración del sitio> marca «Mostrar URL como www.»)
Con esto habrás informado a Google de que la web buena es la versión con http://www., y cuando compruebe que la versión SIN www. redirecciona a esta, empezará a eliminar las páginas del índice y no te penalizará por contenido duplicado.
Un saludo!
Hola Bruno, gracias por publicar esta información. Tengo una pregunta, en Search Console aparece como «Ocultar Temporalmente», quiere decir que después de un tiempo Google lo volverá a listar en los SERPs? Si queremos eliminar completamente una url habría que incluirla también en el robots.txt?
Hola Luis, así es, Search Console solo elimina los resultados de forma temporal durante 90 días.
Durante ese tiempo sigue rastreando la página y actualiza su caché, pero no la muestra en los resultados de búsqueda hasta que hayan pasado los tres meses.
Si después de pasar los 90 días descubre que la página sigue existiendo, la volverá a mostrar en la SERP.
Para eliminar completamente una página, esta debe devolver un error 404 (página no existe) o 410 (no disponible); añádela también en robots.txt o incluye la metaetiqueta noindex en esa página específica; también puedes añadirle una contraseña de acceso para impedir el rastreo del robot.
De esta manera, cuando la vuelva a rastrear verá que no existe y la eliminará del índice de forma natural.
Por último, si esta página no va a volver a existir en el futuro, redirige su url hacia un contenido similar o la home para no perder las visitas, y asegúrate de que ya no se muestra en el sitemap.xml de tu web.
Tienes toda la información aquí > https://support.google.com/webmasters/answer/1663419?hl=es#make-permanent
Un saludo!
Hola Bruno, de nuevo a la carga :).
Espero me puedas aclarar esta rápida duda, ¿puede ser un problema que en las WMT tenga el mismo sitemap para cada url (http, https, http:/www, https://www), lo tengo así de hace mucho tiempo y creo que eso puede ser un problema para indexar correctamente los resultados.
Muchas gracias.
Buenas de nuevo Israel!
Pues es un detalle importante.
Solo deberías tener configurado el sitemap en la versión del dominio preferido, ya que si tienes todos, estarás forzando que Google rastree innecesariamente url que no existen, ya que en teoría el resto de versiones del dominio deben redirigir al dominio preferido.
En Search Console debes verificar que eres el propietario de todas ellas para poder elegir el dominio preferido (con http://www., sin www, con http o https). Puedes verlo aquí:
https://seoh1.com/wp-content/uploads/2016/10/dominio-preferido-search-console.png
Una vez hecho, sube el sitemap solo a la versión de la web que Google deba indexar, ya que las url del sitemap y del resto de la web cuelgan precisamente de la versión del dominio preferida, y elimina el sitemap del resto de versiones.
De esta manera optimizas la configuración y ayudas a Google a rastrear correctamente tu web sin perder tiempo (esto es muy importante).
Todas las webs tienen asignado un presupuesto de rastreo -crawl budget- que es la cantidad de url que Google visita y el tiempo que dedica a cada una de ellas.
Si tenemos bien configurado nuestro sitio en Search Console y enseñamos a Google el camino óptimo que debe seguir para rastrear nuestro contenido, mucho mejor, ya que gastará menos tiempo y podrá visitar el máximo de páginas posible.
Un saludo!
Mil gracias Bruno!, más claro el agua.
Gracias Bruno, se me había escapado lo de bloquear url con parámetros específicos. Me ha servido de mucho
Gracias por la info Bruno, he tenido que bloquear unas URLS para un proyecto y me ha venido genial! Saludos!
De nada Albert, un placer haber servido de ayuda 😉
Muy buenas Bruno:
En search console en «mejoras de HTML» me aparecían muchísimas urls con metatítulos duplicados y metadescripciones duplicadas y el listado que me mostraba eran todo urls con parámetros (order,price,dir,limit,cat,SID,p,q,mode) y el día 30 de noviembre lo que hice en search console en Parámetros de Url fue exactamente lo que tu indicas en tu artículo, en los 9 parámetros indiqué que no indexara ninguna url.
Pues a los 3 días todas las urls de mi sitio han desaparecido del indice de google y cuando hago un comando site de mi sitio me dice que google no tiene ninguna url indexada, con lo cual he desaparecido por completo del buscador
¿Cómo puedo revertir este problema?
Muchas gracias de antemano
Ostras Antonio, elimina el bloqueo de esos parámetros en Search Console para restablecer la situación.
El bloqueo de parámetros sirve para ejemplos como el que indico en el artículo, que son casos sencillos (page, comment, replytocom).
Pero en tiendas online hay que andarse con mucho ojo como has comprobado, porque en función del CMS que utilices, esos parámetros son fundamentales para generar las url de fichas de producto o categorías aunque generen títulos y descripciones duplicadas (esto se puede arreglar de otra forma).
De todas formas, me parece bastante extraño que se te hayan desindexado todas las páginas, porque ni tan si quiera aparece la home o las fichas de producto que no llevan parámetros.
Revisa también la sección de eliminación de URL por si hubieras solicitado la desindexación por error y cancela las peticiones que sean incorrectas.
Ya me cuentas y te sigo echando una mano, un saludo!
Hola Bruno,
Muy bueno el artículo, pero me ha surgido una duda.
Por ejemplo con todas las páginas que genera woocomerce, crea un montón de directorios tipo:
/shop/
/pa_binding/
con lo que se disparan las url que indexa google. Si quiero desindexar todo lo que hay en esos directorios, tengo que ir url por url o le meto el directorio y listo.
Una brazo,
david
En ese caso lo mejor es bloquear esos directorios/páginas con robots.txt y añadir noindex en la metaetiqueta robots.
Esto lo puedes hacer si usas Yoast SEO u otro plugin de SEO como All in One SEO: editas la página, y en las opciones del plugin especificas noindex para esa página.
De esta manera evitas desindexar páginas que no toque al hacerlo en bloque.
De todas formas, puedes extraer todas las páginas de ese tipo que haya indexado Google, generas el archivo txt y lo subes a Search Console.
Un saludo!
Gracias por tu rapidez!
Ya lo tengo bloqueado en el robots, configure mal el Yoast, y cuando me di cuenta ya era tarde 😉
Asi que cuando le meto un site: a mi web me aparecen un porrón de url que no quiero indexar.
Para sacar todas esas url, como lo hago? screamingfrog o algo así?
Sí, aunque si son pocas yo uso la extensión Link Grabber para Chrome:
Haces un site: de tu web (en opciones del buscador indica que quieres ver 100 resultados por página), clicas en el icono de Link Grabber y te sacará todas las url.
Las ordenas por dominio para tenerlas juntas y las copias en el txt, superfácil 😉
Listo, muchas gracias Bruno, eliminando 98 URLs 😉
Estupendo!
Cualquier cosa ya sabes, aquí me tienes, un abrazo!
Super útil tu articulo, gracias por la extensión Bruno
Hola bruno tu articulo era lo que buscaba pero tengo 2 preguntas , mira tengo un sitio web estilo directorio de dentistas que ya se a vuelto grande , y tiene cientos de url indexadas , como las de los dentistas que se registran en mi web.
pregunta 1 : deberia des indexar estas miles de url o dejarlas ? en semrush me muestra cientos de errores como contenido duplicado porque obvio es la misma plantilla que se duplica para cada usuario y
solo deberia indexar las url mas importantes?
Hola Elías!
Como bien dices, una solución sería desindexar las páginas de baja calidad y contenido duplicado, centrándote en posicionar las especialidades más importantes (categorías del directorio).
Sin embargo, con esa opción estarías limitando la visibilidad de los dentistas de tu directorio en Google, y entiendo que eso es un reclamo importante.
Entonces lo que yo haría sería animar a los dentistas a que completen su página de usuario con una presentación/descripción de 300 palabras, invitándoles a que se promocionen lo mejor posible de cara a conseguir clientes potenciales (ofréceles como incentivo un mes gratuito de la versión premium de tu web o cualquier otra cosa que les aporte valor).
De esta manera son los propios usuarios quienes elaboran el contenido, evitas marear a Google desindexando contenido y consigues contenido original para tratar de posicionar mejor esas páginas.
Un buen ejemplo de todo esto es doctoralia.es, que imagino que conocerás 😉
Espero haber podido ayudarte, cualquier cosa aquí me tienes.
Un saludo!
Gracias bruno tu idea es excelente porque ademas de crear contenido de calidad , me evitaria tener que des indexar miles de url muchas gracias por tu rapida respuesta, estare por aqui mas a menudo leyendo tus articulos saludo desde colombia.
Hola! Me gustaría saber si es posible que una web que está en desarrollo ( y la está realizando una empresa de desarrollo web)pueda ser indexada por razones fortuitas y atribuibles a un tercero (Google). Estas son las razones que me da la empresa al comprobar que aparecía en los resultados de búsqueda cuando todavía está en desarrollo y no he dado el consentimiento. Ya está desindexada pero he perdido por completo la confianza en esta empresa y además es que creo que se podría haber evitado.
La web es con estructura HTML5, hojas de estilo CSS3. Programación a medida en PHP5 con base de datos MySQL. Esta son las características de desarrollo de la web por si hicieran falta para la respuesta.
Buenas tardes María.
Es posible que ocurra si la empresa no toma las medidas adecuadas para evitar la indexación de la web en desarrollo.
Dos líneas de código en el archivo robots.txt habrían impedido que Google rastreara la web y la indexara en su índice.
Es un error muy habitual y se soluciona rápidamente, pero claro, entiendo tu enfado totalmente.
Un saludo!
Muy bueno el articulo, la verdad es que tenñia un grave problema con cientos de url’s antiguas. Gracias.
Muchas gracias por la respuesta Bruno!!
Un saludo,
Hola Bruno, comentas que luego de hacer una redirección se puede agregar la URL al robots.txt para evitar ser indexada. ¿Como se debe agregar? ¿Con qué parámetro incluido? Un saludo!
Hola Rodolfo!
Muy sencillo, simplemente debes añadir User-Agent: * Disallow: /URL-a-bloquear-por-robots/
Un saludo!
Hola Bruno
Es un buen articulo,
he tenido muchas paginas indexadas aparentemente por codigo malicioso, he podido resolver este problema.
Respecto a ello como puedo bloquear todas esas url en el archivo robots.txt?
Hola Carlos!
Si las URL siguen un patrón, bastaría con poner Disallow: /url-del-patron/, o indicando cada vez la URL que quieres bloquear en una nueva línea
En Search Console también puedes bloquear URL si estas llevan parámetros.
Saludos!
Muy buen artículo muchas gracias
¡Qué gran recurso! Me ha salvado la vida. Tenía mi web profesional algo atacada de contenido Spam que me inyectaron y así la voy limpiando…
Sólo matizar que Extensiones no está dentro de configuración, sino en «Más herramientas»
¡Gracias!
Estupendo Elisabet, gracias por el aviso, ya está cambiado 😉
Un saludo!
Gran tutorial, Bruno tengo una duda, si mi sitio web me genera paginas como por ejemplo all?page=1, all?page=2, all?page=3 con contenido duplicado, simplemente agrego el parámetro all en Search Console de Google para que ya no las indexe?.
Saludos
Gracias Israel!
Eso es, indicas el parámetro y listo 😉
De todas formas Google ha confirmado que no hay problema en tener errores de title y description por paginaciones.
La penalización por contenido duplicado viene de clonar páginas de otras webs.
Por eso ahora puedes indexar las paginaciones siempre que tengas bien implementadas las metas prev, next y canonical, para que cuando pase Google pueda ver todo el contenido paginado correctamente.
Saludos!
Perfecto, me ha sido de mucha ayuda tus datos, gracias desde ya!…
Excelente artículo Bruno! Llevo varios días buscando info sobre robots y este es genial.
En general, tengo un poco de lío entre los meta robots y robots.txt. De hecho, un gran fallo ha sido poner URLs en no index y no follow así que se han bloqueado pero siguen indexadas.
Dime si está bien la conclusión que he sacado de tu post para hacerlo bien y que primero se desindexe y luego se bloquee:
1º – Redirección
2º – Incluir esa URL en robots.txt –> Disallow: /URL-a-bloquear-por-robots/
3º – Eliminar URL
¿Correcto?
Ahora mis pregunta son:
– Algunas veces voy a redireccionar pero otras simplemente quiero que desaparezca porque son páginas de la web antigua. ¿Cómo lo harías?
– Quiero hacer desaparecer de las búsquedas muchas URLs y de forma lo más rápida posible. Con el yoast SEO hay que desindexar y esperar semanas para luego bloquear con robots.txt. ¿Con esos tres pasos que te digo se logra de forma más rápida?
Miles de gracias Bruno!
Buenos días Marta!
Lo suyo es hacer la redirección y esperar que Google la interprete. Si la antigua la bloqueas por robots, Google no accederá a ella y no verá que redirige, así que esto último solo cuando las SERP muestren el cambio.
La función de bloquear por robots es básicamente para que Google no pierda tiempo en URL que sí van a existir, pero que no hace falta que rastree.
En ambos casos la redirección elimina la URL antigua con el tiempo.
Para eliminar muchas URL, lo más fácil es marcarlas como no index en Yoast, y subir todas esas URL a Search Console con el plugin que explico en este post. Otra opción es crear un sitemap con esas URL y enviarlo a Search Console para que cuando Google lo procese, vea que son URL que debe desindexar, pero lo primero creo que es más rápido.
Saludos!
Perfecto, mil gracias Bruno!
He cambiado ya con Yoast las URLs para solicitar desindexación pero me encuentro un nuevo problema… La categoría «blog» la tengo desindexada con Yoast peeeeeero las paginaciones no están desindexadas así que:
midominio.com/blog/page/15/ continua apareciendo como index, ¿cómo lo corrijo?
Gracias de nuevo!
Como la categoría ya está marcada como noindex, la paginación también, así que solo debes desindexar esas URL desde «eliminar URL» en Search Console y listo 😉
De todas formas cuando Google las vuelva a rastrear de forma natural lo verá y las irá quitando, no te preocupes.
Saludos!
Hola! quería consultarte como hacer para que me vuelva a indexar unas 1500 urls en search console para que me actualice las metadescripciones.
Hola Analia, en ese caso basta con usar la opción «Explorar como Google» y marcar la opción de rastrear todo el contenido.
También puedes volver a subir el sitemap actualizado y el bot pasará cuanto antes.
Saludos!
Hola Bruno! gran artículo, me viene genial.
Te hago una pregunta:
Estoy haciendo una migración de Drupal a WordPress en donde hay mas de 2000 urls sin valor que queremos que desaparezcan. ¿Me recomiendas cargar el .htaccess con más de 2000 lineas de código con redirecciones 410? ¿O cómo lo harías?
Muchas gracias de antemano.
Gracias Pablo!
Igual es excesivo. Yo seleccionaría las más estratégicas y que posicionen algo para redirigirlas a URL relacionadas.
El resto un redirect a la home con una regla en htaccess o con un plugin como este: https://es.wordpress.org/plugins/all-404-redirect-to-homepage/
Otra idea es, en vez de redirigir a la home, crear una página especial que sirva de guía de navegación al usuario por los contenidos más relevantes de la web.
Así evitas saturar la home con redirecciones, que en caso de penalización algorítmica por ralladas de Google, solo afectaría a esta URL nueva 😉
Saludos!
¿¿y con la nueva versión de la herramienta???
Hola Marc!
En ese caso todavía hay que esperar a que eliminen la opción en el antiguo y ver qué implementan en la nueva versión de Search Console.
En cualquier caso, bastaría con configurar el robots de esas páginas como noindex, crear un sitemap con ellas y enviarlo, para que cuando las rastree el robot las desindexe con mayor rapidez.
Saludos!
Hola Bruno. En el artículo mencionas «evitar INDEXAR URL con parámetros» pero en Search Console y en la imagen de captura Google dice «ayuda a RASTREAR». Si no me equivoco, son acciones distintas.
Creo que no es bueno evitar por ejemplo que el robot de Google rastree la paginación de un post (artículo individual). Pero si se debería evitar la INDEXACIÓN de cada página del artículo con excepción de la primera.
Estoy teniendo problemas ya que se están indexando urls con estos parámetros y quiero impedirlo:
nombre-del-post/?nonamp=1
nombre-del-post/2/?nonamp=1 (en artículos individuales paginados)
Siguiendo tu tutorial, debería marcarlos como «Ninguna URL» y de esa forma evitar que los indexe o sólo me estoy arriesgando a que Google no descubra todo el contenido del sitio.
Por cierto para ese proyecto uso WordPress y plugins Amp para WP y Yoast SEO
Gracias y saludos
Hola Diego!
Claro, Search Console formula la frase de forma distinta, ya que esa herramienta permite optimizar el rastreo y, por tanto, la indexación en función de si habilitamos o no cada parámetro.
En mi caso evito la indexación, de ahí que el encabezado del post sea distinto.
En tu caso, es lo que dices, marcas esos parámetros como «Ninguna URL» y listo, luego en inspeccionar envías la URL original y la indexas.
Saludos!
Hola Bruno,
después de un hakeo en la web, hace ya unos meses, borramos las paginas fraudulentas y los directorios que se crearon, me aparecen mas de 444 mil paginas como excluidas en search console,
no se si este estado es el correcto o debería borrarlas de otra manera.
gracias por tu ayuda
Quim Rodríguez.
Buenas Bruno, se me indexo la web sin los «www» delante del dominio porque no lo puse así. al dia siguiente me di cuenta y cambie la url en wordpress para que empezara con «www» .
aunque lo pongas sin las «www» se redirige a «www.» por lo que creo que la redireccion es buena.
tambien con yoast seo, force la canonical con www.
ahora tengo en google las mismas url con y sin www duplicadas.
que puedo hacer?
google acabara desindexando sin www?
gracias, un saludo.
No te preocupes, si la redirección está bien hecha y has empezado a indexar la nueva versión, Google la irá cambiando poco a poco.
Saludos!
Genial! Gracias por la rápida respuesta!
Un saludo 🙂
Buenas Bruno,
Recientemente he empezado a aplicar mucho más SEO a mi web, sin embargo, tengo muchas categorías, archivos de medio y etiquetas indexadas en Google. A través de YOAST SEO ya he modificado los parámetros para que esto no ocurra. Mi pregunta es, ¿estas urls se desindexan de Google al tiempo sin yo hacer nada o tendría que hacer algo?
Muchas gracias por tu tiempo!!
Se desindexan a medida que Google las vuelve a visitar y detecta el noindex, pero si quieres acelerar el proceso, puedes eliminarlas tú a mano.
Como ya no existe la versión antigua de Search Console no podemos desindexar en bloque con la extensión de Chrome.
A ver si sale alguna solución similar para automatizar de nuevo este proceso.
Otro truco es generar un sitemap con las URL a desindexar (marcadas previamente con noindex) y subirlo a Search Console para que procese el cambio cuanto antes.
Saludos!