đŸ Archived View for lord.re âș fast-posts âș 76-bloquer-les-gaveurs-dia âș index.gmi captured on 2024-08-18 at 17:20:37. Gemini links have been rewritten to link to archived content
âŹ ïž Previous capture (2024-05-10)
-=-=-=-=-=-=-
-------------------------------------------------
[15/04/2024] - ~2mins - #meta #web #scraping #nginx
-------------------------------------------------
Vous avez un joli site ouaib avec vorte ptit contenu Ă©crit main.
C'est votre blog, votre espace de rĂ©flexion, votre zone de crĂ©ation, votre espace rien qu'Ă vous partagĂ© au monde, votre rejetonâŠ
C'est super chouette mais bon maintenant en 2024, ça veut dire que vous nourissez les IA.
Pour qu'une IA paraisse performante et naturelle, il faut lui faire ingérer le plus de textes possibles.
Et vous pensez bien que le web étant par nature majoritairement du texte et ouvert, toutes les entreprises du secteur en profitent pour scraper (parcourir, lire et intégrer) le web constamment histoire de parfaire leurs outils.
Bon, bha je vous cache pas que ça m'emmerde pas mal.
Je suis plutÎt contre ces machines pour diverses raisons (écologiques, éthiques, politique) et du coup, à mon ptit niveau, je vais faire en sorte de ne pas contribuer à ces béhémoths.
Et par chance je ne suis pas seul et certaines personnes sont dans la mĂȘme mouvance et ont prĂ©mĂąchĂ© tout le boulot.
Le site Dark Visitors [1] répertorie les scrapers des IA avec à chaque fois une ptite explication.
C'est joli et efficace avec mĂȘmes quelques stats (qu'ils sortent d'oĂč ?!).
Mais bon c'est pas 100% dĂ©sintĂ©ressĂ© (et ouai il faut toujours tout tenter de monĂ©tiser en ce bas monde âŠ).
Et ce week-end, je suis tombĂ© sur un repo github qui rĂ©pertorie la mĂȘme chose.
Et en plus ils fournissent ça dans des formats directement exploitables.
Et encore en plus (et oui !!) ils fournissent des bouts de conf pour **nginx** et **apache** !
Et oui, c'est la classe.
Bref voilĂ le repo de nos rĂȘves [2].
Bon, bien entendu, le **robots.txt** c'est au bon vouloir de chacun de le respecter.
Vous pensez bien que les entreprises qui violent le copyright en pompant absolument tout ce qu'elles ne trouvent n'en ont pas grand-chose Ă foutre de votre robots.txtâŠ
Perso j'ai mis direct le bout de conf dans nginx.
Mais ça encore, ça ne marche que tant que les dit-scrapers jouent encore le jeu d'afficher leur user-agent légitime.
VoilĂ voilĂ .
[1] Dark Visitors (https://darkvisitors.com/)
[2] voilĂ le repo de nos rĂȘves (https://github.com/ai-robots-txt/ai.robots.txt)
------------------------------------
------------------------------------
[15/04/2024] - #meta #web #scraping #nginx
------------------------------------