Una forma divertida y cercana de comprender la tecnología


Novedades

Post Top Ad

Your Ad Spot

sábado, 7 de octubre de 2023

Como configurar el archivo Robots.txt de una manera simple


 

Uno de los problemas que nos podemos encontrar aquellas personas que tenemos un blog o una página web, sea del tipo que sea, es que el archivo robots.txt falle aunque ¡alto ahí! ¿que es robots.txt? Seguramente a algunas personas, y si digo algunas es porque estamos ante un apartado algo más técnico (por no decir un poco más bastante…), hayan recibido alguna vez el aviso del servicio Search Console que robots.txt a tenido algún fallo.


Para simplificar un poco todo esto y para ayudar a aquellas personas que nunca han tocado esta parte, decirles que robots.txt es un archivo que indica a los rastreadores que partes de tu web pueden ver ¿que quiere decir esto? Es la forma que hay de encontrar tu sitio a través de la web, así de simple. Cada web o servicio tiene sus rastreadores los cuales pueden acceder a tu web o lo que es lo mismo, encontrarla si alguien la busca con algún buscador.


Dicho así puede parecer que estamos exponiendo nuestra privacidad pero tranquilos, robots.txt solo revisa la web hasta donde tu decidas. Pero ¿es posible editar este archivo? Desde luego, esto nos puede ayudar para bloquear rastreadores de webs que, sea por la razón que sea, no queremos que rastreen nuestra web o blog.


Para saber que rastreadores tiene vuestra web o blog, tan solo deberéis añadir a la dirección de vuestro sito lo siguiente



/robots.txt



Así de simple, por lo general, y tomando como ejemplo este mismo lugar, os tendría que aparecer algo similar a esto:



User-agent: Mediapartners-Google 

Disallow:

 

User-agent: *

Disallow: /search  

Allow: /

 

Aquí vemos como le estamos dando permiso al buscador de Google para que aparezcamos en la red. Por defecto. los usuarios de blogger tienen que tener lo mismo a no ser que haya sido modificado.


Pero ¿es posible bloquear rastreadores de otros lugares? La respuesta es un si, y lo haremos de una manera simple para que, cualquier persona que no haya tocado nunca este tema, lo sepa hacer. Para ello nos vamos a ir a nuestro sitio web. Una vez allí, en la barra de direcciones, justo al final, escribiremos:


/robots.txt


Si, es lo mismo que acabamos de explicar, simple. Acto seguido se nos abrirá una pestaña con un texto, si, lo que acabamos de ver, lo copiamos (el vuestro…). A continuación creamos un archivo de texto en nuestro pc, lo abrimos y pegamos el texto copiado, lo guardamos como txt con el nombre de robots.txt y listo, ya tendríamos nuestro archivo creado. Pero si nos fijamos lo hemos creado con los valores que ya tiene, entonces ¿como bloquear rastreadores?


Para ello abriremos el archivo que acabamos de crear y le añadiremos:



User-agent: Nombre del rastreador

Disallow: /



Es importante añadir el nombre del rastreador algo que a continuación aprenderemos a encontrar en distintas webs. Una vez rellenado lo guardamos con el mismo nombre donde queramos (por lógica acordaos de donde lo hacéis). Acto seguido deberemos ir a la configuración de nuestro sitio y buscar la sección “Rastreadores e indexación”, en algunos sitios podremos cargar automáticamente nuestro archivo robots.txt que hemos creado, en blogger deberéis habilitar la casilla “Habilitar un archivo robots.txt personalizado”, cargamos y listos.


Con esto ya tendríamos nuestro archivo robots.txt personalizado. Aunque ¿como saber que rastreadores existen? Es tan simple como visitar cualquier página web y escribir al final de la barra de direcciones:



/robots.txt



Nos aparecerán los rastreadores que la web permite y los que no por lo que siempre podremos usarlos como referencia.


Con esto podremos tener más o menos controlado que rastreadores pueden tener acceso a nuestro sitio ¿más o menos? La ética y la moralidad ya no entran en los aspectos técnicos de la informática, y con eso lo decimos todo.


Como hemos visto, y siendo esto un breve tutorial que podría ampliarse pero lo único que haríamos sería asustar a aquellas personas que, sin tener conocimientos de editar el archivo robots.txt, y esto es algo que va en contra de nosotros, y ahí si que vamos a tener ética, al fin y al cabo somos seres de principios.


Y dicho esto...hasta mañana ^_^


No hay comentarios:

Publicar un comentario

Post Top Ad

Your Ad Spot

Páginas