Blog del Podcast
podcast      GitHub      Twitter   Telegram

html2txt. Convirtiendo una web a texto plano con w3m

Tiempo estimado de lectura: 2 minutos. 221 palabras. w3m

Ya hemos aprendido a utilizar w3m en Emacs y desde la terminal. Ahora vamos a convertir cualquier web o archivo .html a texto plano.

Convertir a txt

Tan sencillo como escribir en la terminal:

w3m URL > archivo.txt

w3m, es un navegador interactivo. La opción -dump, hace que la página se vea de un modo no interactivo, en texto plano. El ancho del documento por defecto, es de 80 letras.

w3m -dump URL > archivo.txt

También podemos convertir un archivo .html que tengamos en nuestro disco duro.

w3m -dump archivo.html > archivo.txt

Cambiar ancho

Con la opción -cols, podemos personalizar el ancho del documento al número de letras que deseemos.

En este ejemplo, voy a utilizar 100 letras

w3m -dump -cols=100 URL > archivo.txt

UTF-8

Si el texto de la url está en otro idioma, para que todas las letras salgan con sus acentos correctamente, etc… utilizaremos el formato UTF-8.

w3m -dump -o display_charset=UTF-8 URL > archivo.txt

Conclusión

Ahora podemos automatizar con scripts o desde nuestra terminal, la conversión de una web a texto plano. Con ello podremos tomar notas de aquellas web que nos interese.


Publicado por Angel el Monday 13 January del 2020



También te puede interesar:




Powered by org-bash-blog

Written in OrgMode with Emacs and converted to HTML with Pandoc

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.