Blog del Podcast
podcast      GitHub      Twitter   Telegram

html2txt. Convirtiendo una web a texto plano con w3m

Lectura: 1 min. 195 palabras. w3m

Ya hemos aprendido a utilizar w3m en Emacs y desde la terminal. Ahora vamos a convertir cualquier web o archivo .html a texto plano.

Convertir a txt

Tan sencillo como escribir en la terminal:


w3m URL > archivo.txt

w3m, es un navegador interactivo. La opción -dump, hace que la página se vea de un modo no interactivo, en texto plano. El ancho del documento por defecto, es de 80 letras.


w3m -dump URL > archivo.txt

También podemos convertir un archivo .html que tengamos en nuestro disco duro.


w3m -dump archivo.html > archivo.txt

Cambiar ancho

Con la opción -cols, podemos personalizar el ancho del documento al número de letras que deseemos.

En este ejemplo, voy a utilizar 100 letras


w3m -dump -cols=100 URL > archivo.txt

UTF-8

Si el texto de la url está en otro idioma, para que todas las letras salgan con sus acentos correctamente, etc... utilizaremos el formato UTF-8.


w3m -dump -o display_charset=UTF-8 URL > archivo.txt

Conclusión

Ahora podemos automatizar con scripts o desde nuestra terminal, la conversión de una web a texto plano. Con ello podremos tomar notas de aquellas web que nos interese.


Publicado el lunes, 13 de enero de 2020






Powered by wdblog

Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.