Ya hemos aprendido a utilizar w3m en Emacs y desde la terminal. Ahora vamos a convertir cualquier web o archivo .html a texto plano.
Tan sencillo como escribir en la terminal:
w3m URL > archivo.txt
w3m, es un navegador interactivo. La opción -dump, hace que la página se vea de un modo no interactivo, en texto plano. El ancho del documento por defecto, es de 80 letras.
w3m -dump URL > archivo.txt
También podemos convertir un archivo .html que tengamos en nuestro disco duro.
w3m -dump archivo.html > archivo.txt
Con la opción -cols, podemos personalizar el ancho del documento al número de letras que deseemos.
En este ejemplo, voy a utilizar 100 letras
w3m -dump -cols=100 URL > archivo.txt
Si el texto de la url está en otro idioma, para que todas las letras salgan con sus acentos correctamente, etc… utilizaremos el formato UTF-8.
w3m -dump -o display_charset=UTF-8 URL > archivo.txt
Ahora podemos automatizar con scripts o desde nuestra terminal, la conversión de una web a texto plano. Con ello podremos tomar notas de aquellas web que nos interese.
Publicado por Angel el Monday 13 January del 2020
También te puede interesar:
Powered by org-bash-blog
Written in OrgMode with Emacs and converted to HTML with Pandoc
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.