trafilaturaUn outil Python pour l'extraction et le crawling de contenu web. Extrait le texte principal, les métadonnées et les commentaires des pages web. Plus d'informations : https://trafilatura.readthedocs.io/en/latest/usage-cli.html#further-information.
trafilatura {{[-u|--URL]}} {{url}}
trafilatura {{[-u|--URL]}} {{url}} {{[-o|--output-dir]}} {{chemin/vers/fichier.txt}}
trafilatura {{[-u|--URL]}} {{url}} --json
trafilatura {{[-i|--input-file]}} {{chemin/vers/liste_urls.txt}}
trafilatura --sitemap {{url_vers_sitemap.xml}}
trafilatura {{[-u|--URL]}} {{url}} --formatting
trafilatura {{[-u|--URL]}} {{url}} --with-comments
trafilatura {{[-h|--help]}}