por: @ElPamplina@masto.es
API de Mastodon para Python:
Objeto del bot: Poesías completas de Antonio Machado
Poesías completas | Biblioteca Virtual Miguel de Cervantes
virtualenv env-machadobot . ./env-machadobot/bin/activate pip install Mastodon.py
Instalar librería de ayuda.
pip install html2text
Bajar el texto HTML y convertirlo
curl -o "poesias.html" https://www.cervantesvirtual.com/obra-visor/poesias-completas-1158024/html/613eab1d-2c06-4d6f-bb4f-453605cb6d5c_2.html html2text --ignore-links --ignore-images --ignore-emphasis --ignore-tables --unicode-snob poesias.html utf-8 >poesias.v1.txt
(Ojo, cuidadín, si no pones la opción --unicode-snob, el conversor te elimina todas las tildes).
Eliminar líneas en blanco, cabeceras (líneas con todo mayúsculas) y líneas de marcadores (las que empiezan por asteriscos, barras y paréntesis).
grep -v '^\s*