Uno de los problemas que nos podemos encontrar aquellas personas que tenemos un blog o una página web, sea del tipo que sea, es que el archivo robots.txt falle aunque ¡alto ahĂ! Âżque es robots.txt? Seguramente a algunas personas, y si digo algunas es porque estamos ante un apartado algo más tĂ©cnico (por no decir un poco más bastante…), hayan recibido alguna vez el aviso del servicio Search Console que robots.txt a tenido algĂşn fallo.
Para simplificar un poco todo esto y para ayudar a aquellas personas que nunca han tocado esta parte, decirles que robots.txt es un archivo que indica a los rastreadores que partes de tu web pueden ver ¿que quiere decir esto? Es la forma que hay de encontrar tu sitio a través de la web, asà de simple. Cada web o servicio tiene sus rastreadores los cuales pueden acceder a tu web o lo que es lo mismo, encontrarla si alguien la busca con algún buscador.
Dicho asĂ puede parecer que estamos exponiendo nuestra privacidad pero tranquilos, robots.txt solo revisa la web hasta donde tu decidas. Pero Âżes posible editar este archivo? Desde luego, esto nos puede ayudar para bloquear rastreadores de webs que, sea por la razĂłn que sea, no queremos que rastreen nuestra web o blog.
Para saber que rastreadores tiene vuestra web o blog, tan solo deberéis añadir a la dirección de vuestro sito lo siguiente
/robots.txt
AsĂ de simple, por lo general, y tomando como ejemplo este mismo lugar, os tendrĂa que aparecer algo similar a esto:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
AquĂ vemos como le estamos dando permiso al buscador de Google para que aparezcamos en la red. Por defecto. los usuarios de blogger tienen que tener lo mismo a no ser que haya sido modificado.
Pero Âżes posible bloquear rastreadores de otros lugares? La respuesta es un si, y lo haremos de una manera simple para que, cualquier persona que no haya tocado nunca este tema, lo sepa hacer. Para ello nos vamos a ir a nuestro sitio web. Una vez allĂ, en la barra de direcciones, justo al final, escribiremos:
/robots.txt
Si, es lo mismo que acabamos de explicar, simple. Acto seguido se nos abrirá una pestaña con un texto, si, lo que acabamos de ver, lo copiamos (el vuestro…). A continuaciĂłn creamos un archivo de texto en nuestro pc, lo abrimos y pegamos el texto copiado, lo guardamos como txt con el nombre de robots.txt y listo, ya tendrĂamos nuestro archivo creado. Pero si nos fijamos lo hemos creado con los valores que ya tiene, entonces Âżcomo bloquear rastreadores?
Para ello abriremos el archivo que acabamos de crear y le añadiremos:
User-agent: Nombre del rastreador
Disallow: /
Es importante añadir el nombre del rastreador algo que a continuación aprenderemos a encontrar en distintas webs. Una vez rellenado lo guardamos con el mismo nombre donde queramos (por lógica acordaos de donde lo hacéis). Acto seguido deberemos ir a la configuración de nuestro sitio y buscar la sección “Rastreadores e indexación”, en algunos sitios podremos cargar automáticamente nuestro archivo robots.txt que hemos creado, en blogger deberéis habilitar la casilla “Habilitar un archivo robots.txt personalizado”, cargamos y listos.
Con esto ya tendrĂamos nuestro archivo robots.txt personalizado. Aunque Âżcomo saber que rastreadores existen? Es tan simple como visitar cualquier página web y escribir al final de la barra de direcciones:
/robots.txt
Nos aparecerán los rastreadores que la web permite y los que no por lo que siempre podremos usarlos como referencia.
Con esto podremos tener más o menos controlado que rastreadores pueden tener acceso a nuestro sitio ¿más o menos? La ética y la moralidad ya no entran en los aspectos técnicos de la informática, y con eso lo decimos todo.
Como hemos visto, y siendo esto un breve tutorial que podrĂa ampliarse pero lo Ăşnico que harĂamos serĂa asustar a aquellas personas que, sin tener conocimientos de editar el archivo robots.txt, y esto es algo que va en contra de nosotros, y ahĂ si que vamos a tener Ă©tica, al fin y al cabo somos seres de principios.
Y dicho esto...hasta mañana ^_^
No hay comentarios:
Publicar un comentario