Ya hemos aprendido a utilizar w3m en Emacs y desde la terminal. Ahora vamos a convertir cualquier web o archivo .html a texto plano.

Tan sencillo como escribir en la terminal:
w3m URL > archivo.txt
w3m, es un navegador interactivo. La opción -dump, hace que la página se vea de un modo no interactivo, en texto plano. El ancho del documento por defecto, es de 80 letras.
w3m -dump URL > archivo.txt
También podemos convertir un archivo .html que tengamos en nuestro disco duro.
w3m -dump archivo.html > archivo.txt
Con la opción -cols, podemos personalizar el ancho del documento al número de letras que deseemos.
En este ejemplo, voy a utilizar 100 letras
w3m -dump -cols=100 URL > archivo.txt
Si el texto de la url está en otro idioma, para que todas las letras salgan con sus acentos correctamente, etc... utilizaremos el formato UTF-8.
w3m -dump -o display_charset=UTF-8 URL > archivo.txt
Ahora podemos automatizar con scripts o desde nuestra terminal, la conversión de una web a texto plano. Con ello podremos tomar notas de aquellas web que nos interese.
Publicado el lunes, 13 de enero de 2020
Powered by wdblog

Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.