Hace 15 años | Por lferna a kottke.org
Publicado hace 15 años por lferna a kottke.org

El archivo robots.txt, que determina qué información puede ser indexada por los buscadores, es más permisivo que el de la era Bush. Ese archivo era, durante la época de George W. Bush, muy restrictivo, y evitaba que Google funcionase como copia de seguridad de muchas de las páginas contenidas en WhiteHouse.gov. En esa versión de la página web presidencial el archivo ocupaba 2.400 líneas y era todo un ejemplo de como restringir la transparencia. El de la nueva web tiene sólo dos líneas y no oculta ningún secreto

Comentarios

AlphaFreak

Me pregunto quién habrá ordenado la revisión y el cambio. No me atrevo a pensar que Obama es tan geek como para revisar el robots.txt de la Casa Blanca! No puede ser!

AlphaFreak

#3 No se trata sólo de que se puedan ver. Si metes las páginas en robots.txt tampoco se cachean, ni se incorporan a la wayback machine. Eso significa que los contenidos pueden ser modificados, sin que quede rastro de su contenido anterior.

D

Ningún gobierno debería de censurar los medios de comunicación. Gran paso hacia delante Obama.

braulioaquino

"En esa versión de la página web presidencial el archivo ocupaba 2.400 líneas y era todo un ejemplo de como restringir la transparencia"
Si se quisiera restringir la transparencia mejor no hubiesen subido esas páginas ya que si se ven gracias al robots.txt

Un dato sacado de http://www.adseok.com/curiosidades/el-nuevo-robotstxt-de-obama/ :

"Kevin Fox, ex-empleado de Google y ahora en FriendFeed, comenta sobre este tema (vía Blogoscoped):
Ésto es un poco tonto, ya que el viejo robots.txt excluía las páginas los resultados de las búsquedas internas y las versiones redundantes de texto de las páginas html.
Para ésto es exactamente un archivo robots.txt, que es lo que dice la Guía para Webmasters de Google “Use robots.txt to prevent crawling of search results pages or other auto-generated pages that don’t add much value for users coming from search engines.”"

j

La mitad de las líneas del robots.txt que se pone como ejemplo pertenecen a direcciones que ya no existen, o a mi me devuelven 404.