👎 UTF-8 BOM : Error fatal en tu archivo robots.txt

👎 UTF-8 BOM : Error fatal en tu archivo robots.txt
4.07 (81.47%) 68 votos

PIN, PAN , PIN, PAN……. hacemos todo de forma automática, sin pensar más allá de acabar lo antes posible, sin pensar en posibles problemas posteriores, sin pensar en que lo malo y rápido es doblemente malo, las prisas no sólo son malas consejeras, sino que también son un preludio de un mal acontecimiento.

cómo puedo solucionar error utf-8 en mi robots.txt

Así que si no quieres estar maldito durante los próximos tres meses,  ¡ LEE ESTE POST ! Bueno…. pensándolo bien tampoco es para tanto, pero entrando en nuestro terreno, el SEO , lo que vamos a ver a continuación es de suma importancia, ya que hacerlo mal puede desembocar en una perdida de posicionamiento más que importante, y es un fallo, que a pesar de ser algo básico, se comete en demasiadas ocasiones si no sabes de su existencia . ¡ Cosa que evitarás tras leer este post ! Razones no te faltan para leer hasta el final…….. 😉

En concreto vamos a hablar del archivo robots.txt, un archivo que parece que no tiene mucha complicación al tratarse de un simple txt con sencillas instrucciones, pero que incluso habiéndolo creado infinidades de veces y sabiéndote de memoria lo que escribes puede que lo estés haciendo mal.

1.¿ Por qué hay que tener mucho cuidado al escribir los comandos del robots.txt ?

¿ Por qué ? …. Un día como otro cualquiera, creas una nueva página web para un proyecto, creas tu archivo robots.txt en el que metes los comandos, comienzas con el User-agent, sigues con los Disallow e incluso metes la URL de tu sitemap al final, para a posteriori subirlo a la raiz de tu web. Igual de fácil que siempre, piensas que todo está a la perfección, pero al poco tiempo te encuentras con sorpresas, Google está rastreando continuamente URLs que no debería, perdiendo el tiempo en estas, desaprovechando el crawl budget con el que cuenta tu web, algo que puede ser fulminante a nivel SEO especialmente en webs muy grandes que contengan infinidad de URLs intrascendentes para Google.

2.¿ Cuál es la causa de este desastre SEO ?

Pues si te digo que este desastre en tu página web ha sido causado por un simple carácter de más…… ¿ te lo crees ?

Deberías, ya que esto es más que cierto, un carácter invisible presente en nuestro archivo robots.txt es causante de muchos desastres SEO. Recibe el nombre de UTF-8 BOM , y seguramente te encuentres este error durante muchas auditorías SEO o cuando estás ayudando a una empresa o particular con el posicionamiento de su página web. Es pequeño, invisible……. pero puede causar estragos, y esos sí que los vas a ver….. ¡ OJO !

Para entender todo a la perfección, vamos a ver que narices es el UTF-8 BOM, hasta que punto puede afectar a nuestro archivo robots.txt, como chequear nuestros robots y como solucionar el problema una vez detectado. Así que si has llegado aquí tras dar mil vueltas al por qué o si aún no conocías este error, estas en el sitio adecuado para solucionarlo o para evitarlo. ¡ A darle caña chavales !

3.¿ Qué es el UTF-8 BOM ?

BOM ( Byte Order Mark ) o marca de orden de bytes es un carácter unicode que es utilizado para indicar el orden de bytes para un fichero de texto. Un carácter invisible que se sitúa al comienzo del fichero y que como hemos dicho antes, puede ser muy dañino a nivel SEO.

Algunos programas añadirán el BOM al archivo de texto, el cual permanece invisible frente a la persona que lo está creando, desencadenando en una serie de problemas a nivel SEO cuando Google trate de leer el fichero.

En resumen UTF-8 BOM puede causar el desastre total en el SEO de tus proyectos, ¡ booomba vaaa ! =(

4.¿ Qué es lo que puede pasar con el archivo robots.txt cuando el UTF-8 BOM está presente ?

Google se perderá en nuestro archivo, ignorará nuestra primera linea, la cual será en la mayoría de ocasiones User-agent, y con ello el resto de lineas no tendrán sentido, ya que retornarán errores al no haber sido encontrado previamente el user-agent por Google, e igualmente serán ignoradas por Google.

Y como os he dicho antes en el caso de webs grandes en las que tengamos con Disallow varias secciones de nuestra web, esto puede ser fatal para nuestros resultados en los SERPS, y perjudicar seriamente nuestro SEO.

5.¿ Cómo comprobar si tengo el robots.txt mal y el UTF-8 BOM me está afectando ?

5.1Mediante el Probador de robots.txt de la Search Console

Pues va a ser tan fácil, como acudir a la Search Console de Google , a la sección Rastreo > Probador de robots.txt , también puedes accerder estando logueado en tu cuenta de gmail y dando click aquí si ya tienes tu web subida en la Consola de Google. 

Tras elegir la propiedad, si nos salen todas las lineas con error como en la siguiente imagen, tenemos que empezar a preocuparnos:

error utf8 en el robots.txt

Si tenemos el UTF-8 BOM en nuestro archivo, aparecerá una cruz roja a la izquierda de la primera linea, el resto de lineas de nuestro archivo robots.txt también devolverán error en la Search Console , ya que como hemos dicho antes este carácter “invisible” hace que Google ignore el user-agent y con ello el resto de lineas de nuestro archivo. Si nos ponemos sobre la cruz roja al lado de la primera linea de “User-agent”, nos pondrá “No se ha entendido la sintaxis“.

Todos los directorios que tengamos en Disallow, debido a este error, serán crawleados con la misma frecuencia que el resto, y muchos de ellos también serán indexados ( aunque incluir un directorio en un robots.txt no siempre asegura que no sea indexado 😉 , di adiós a este mito SEO ) .

5.2 Mediante el W3C Internalization Checker.

Esta herramienta nos permitirá subir nuestro archivo robots.txt y chequear si está presente el UTF-8 BOM para eliminarlo. Tras acceder a ella, simplemente tendremos que dar sobre ” Seleccionar archivo ” en la pestaña By File Upload para subir nuestro robots.txt, y tras esto hacer click sobre Check.

herramienta para comprobar utf8 bom

Tras esto la herramienta nos devuelve los resultados, incluyendo una linea sobre el UTF-8 BOM, si nos sale un resultado como el de la imagen de abajo, ya es seguro que tenemos este problema y debemos solucionarlo.

encontrar utf-8 bom

 

6.¿ Cómo arreglar el UTF-8 BOM en nuestro archivo robots.txt ?

Si te ha pasado este problema, es porque con tu editor de texto a la hora de guardar, te lo está hace incluyendo este carácter, por lo que la primera medida es utilizar otro editor como Textpad para crear tus archivos robots.txt. En editores de texto como Textpad puedes seleccionar o deseleccionar para que aparezca o desaparezca el UTF-8 BOM, así que simplemente deseleccionalo y asunto arreglado para siempre.

utf8 bom con textpad

Recomiendo que os instaléis Textpad u otro similar sobre todo los usuarios de Windows, porque en editores de texto como el Blog de Notas de, este error es muy usual cuando damos a “Guardar” con las prisas en vez de a “Guardar como” y no miramos la codificación, no tenemos la opción de seleccionar, deseleccionar “UNICODE BOM” de Textpad, y más vale prevenir que curar …..

solucionar problemas con utf8 bom

Para crear nuestro archivo robots.txt , u otros como el archivo .htaccess  o el xml sitemaps, es mejor usar un editor de texto puro que aplicaciones como Microsoft Word, ya que estas últimas suelen dar más problemas de este tipo.  A parte de Textpad ( editor para Windows ) tienes muchas otras que pueden ser de gran utilidad.

*Nota: Una vez has creado el robots.txt con un nuevo editor de texto puro, vuelve a chequearlo con la herramienta que vimos arriba, W3C Internatiolization tool, más vale prevenir que curar. 😉 

Una vez que nos hemos asegurado de que hemos resuelto el problema, volvemos al Search Console de Google y a su probador de robots.txt, y en esta herramienta vamos a poder mandar un aviso a google de que hemos actualizado y solucionado el error en el archivo robots.txt , simplemente tendremos que volver a a la sección Rastreo > Probador de robots.txt, indicar y subir nuestro nuevo robots.txt, y dar sobre el botón enviar, nos saldrá la siguiente ventana:

cómo solicitar a Google actualizar robots.txt

En el tercer punto de la imagen superior, tenemos lo que buscábamos, solicitar a Google la actualización, ¡ eureka ! , nuestros disallows comenzarán a funcionar correctamente.

Para acabar, simplemente recuerda que estos caracteres invisibles pueden estar presentes en otro tipo de archivos además del robots.txt, como el sitemap, el .htaccess o los disavow que mandamos a google. ASÍ QUE MUCHO OJO. 😉

¿ Has tenido en alguna ocasión este problema ? , ¿ has conseguido solucionarlo ?

Sobre mí:

Diego Díez Arnaiz Erase una vez un burgalés en continua búsqueda del optimismo, la honestidad, la creatividad, la calidad y la diferenciación. En este tortuoso camino que no tiene fin, de las redes sociales se ayudó, la tecnología de muchos apuros le sacó y el marketing online algún que otro capricho le permitió. Un día todo ello juntó y en este pequeño blog lo plasmó. Diego Díez Arnaiz

Comentarios

  1. says

    Hola Diego:

    ¡Muuuuy útil esta información! La mayoría de webs ignoran la importancia del ROBOTS.TXT y es lo primero que hay que revisar cuando empiezan los problemas. No he tenido experiencia con este error que mencionas en el artículo, pero agradezco mucho haberlo leído antes de que me aparezca en alguna web de un cliente.
    ¡Saludos desde Caracas!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *