Conecta con nosotros

Hola, ¿qué estás buscando?

Actualidad

Descarga webs completas con wget

Uno de los comandos más potentes (si es que no es el más potente) para poder realizar descargas en Internet desde la línea de comandos es el conocido wget. Muchos tutoriales de procesos desde la terminal incluyen a menudo el uso de este comando para la descarga de paquetes, pero la utilidad de wget va más allá.

wget_2

Lo demuestra el post de jamsubuntu en el que se describen algunas de sus opciones más destacables tanto para esos usos «simples» como para una opción aún más interesante: descargar un sitio web completo para, por ejemplo, poder mantener una copia offline de esas páginas web.

wget

Wget también está disponible en Windows, y hasta hay un GUI para esta utilidad

El proceso es sencillo, y tal y como indican en el post original -de nuevo adapto el contenido, pero todo el mérito es de jamsubuntu– basta con escribir el comando

99690ab5469b47b10ade8c9709b0110e008

El parámetro -p le indica a wget que incluya todo (imágenes también), de modo que todos los ficheros HTML se mostrarán en su versión offline del mismo modo que si estuviéramos viendo la página con conexión.

También podemos pasar del fichero robots.txt del sitio web que queremos extraer para obtener aún más información y páginas que no se obtienen con el comando normal. Para ello habrá que escribir:

99690ab5469b47b10ade8c9709b0110e009

Muchos sitios web no dejaran que te descargues todo lo que hay en ellos, así que podremos engañarles haciéndoles pensar que somos un navegador convencional:

Advertencia, desplázate para continuar leyendo

99690ab5469b47b10ade8c9709b0110e010

Aún así hay administradores que han puesto un límite a este tipo de descargas y cuando ven que hay una transferencia masiva de archivos la limitan, pero para engañar de nuevo a este comportamiento simplemente podemos establecer ciertas pausas entre la descarga de información:

99690ab5469b47b10ade8c9709b0110e011

Como indican en jamsbuntu, existen otros parámetros útiles de wget, como por ejemplo «–limit-rate=20k», que limitará la tasa de descarga para que este proceso no se coma todo nuestro ancho de banda. El parámetro «-b» continuará con la descarga incluso si nos salimos de la sesión (útil para realizar ese proceso a través de máquinas remotas), y por último la opción «-o $HOME/wget_log.txt» permitirá mantener un registro de las transferencias para comprobar posibles errrores.

Fantástico.

36 Comentarios
Advertencia
Advertencia

Te recomendamos

Actualidad

Cumpliendo con fidelidad la hoja de ruta marcada aquí llega Ubuntu 22.04.4 LTS, cuarta actualización de mantenimiento de la versión de de soporte extendido...

Prácticos

Con el lanzamiento de Firefox 122, Mozilla puso a disposición un repositorio APT que permite instalar la rama estable del navegador en distribuciones basadas...

Actualidad

El jueves 25 de abril, dentro de poco más de un par de meses se lanzará Ubuntu 24.04 LTS, la nueva versión de largo recorrido...

Actualidad

Para sorpresa de nadie, Canonical continúa con la ‘snapización’ de Ubuntu y ya preparan la llegada de un nuevo paquete «de base» como es...