đŸ’Ÿ Archived View for lord.re â€ș fast-posts â€ș 76-bloquer-les-gaveurs-dia â€ș index.gmi captured on 2024-08-18 at 17:20:37. Gemini links have been rewritten to link to archived content

View Raw

More Information

âŹ…ïž Previous capture (2024-05-10)

🚧 View Differences

-=-=-=-=-=-=-

Bloquer les gaveurs d'IA

-------------------------------------------------

[15/04/2024] - ~2mins - #meta #web #scraping #nginx

-------------------------------------------------

Vous avez un joli site ouaib avec vorte ptit contenu Ă©crit main.

C'est votre blog, votre espace de réflexion, votre zone de création, votre espace rien qu'à vous partagé au monde, votre rejeton


C'est super chouette mais bon maintenant en 2024, ça veut dire que vous nourissez les IA.

Pour qu'une IA paraisse performante et naturelle, il faut lui faire ingérer le plus de textes possibles.

Et vous pensez bien que le web étant par nature majoritairement du texte et ouvert, toutes les entreprises du secteur en profitent pour scraper (parcourir, lire et intégrer) le web constamment histoire de parfaire leurs outils.

Bon, bha je vous cache pas que ça m'emmerde pas mal.

Je suis plutÎt contre ces machines pour diverses raisons (écologiques, éthiques, politique) et du coup, à mon ptit niveau, je vais faire en sorte de ne pas contribuer à ces béhémoths.

Et par chance je ne suis pas seul et certaines personnes sont dans la mĂȘme mouvance et ont prĂ©mĂąchĂ© tout le boulot.

Dark Visitors

Le site Dark Visitors [1] répertorie les scrapers des IA avec à chaque fois une ptite explication.

C'est joli et efficace avec mĂȘmes quelques stats (qu'ils sortent d'oĂč ?!).

Mais bon c'est pas 100% désintéressé (et ouai il faut toujours tout tenter de monétiser en ce bas monde 
).

ai.robots.txt

Et ce week-end, je suis tombĂ© sur un repo github qui rĂ©pertorie la mĂȘme chose.

Et en plus ils fournissent ça dans des formats directement exploitables.

Et encore en plus (et oui !!) ils fournissent des bouts de conf pour **nginx** et **apache** !

Et oui, c'est la classe.

Bref voilĂ  le repo de nos rĂȘves [2].

Limites

Bon, bien entendu, le **robots.txt** c'est au bon vouloir de chacun de le respecter.

Vous pensez bien que les entreprises qui violent le copyright en pompant absolument tout ce qu'elles ne trouvent n'en ont pas grand-chose à foutre de votre robots.txt


Perso j'ai mis direct le bout de conf dans nginx.

Mais ça encore, ça ne marche que tant que les dit-scrapers jouent encore le jeu d'afficher leur user-agent légitime.

VoilĂ  voilĂ .

Liens

[1] Dark Visitors (https://darkvisitors.com/)

[2] voilĂ  le repo de nos rĂȘves (https://github.com/ai-robots-txt/ai.robots.txt)

------------------------------------

🏠 Retour à la home

------------------------------------

[15/04/2024] - #meta #web #scraping #nginx

------------------------------------

[>> Suivant >>] ⏭ Winnie the Pooh - Blood and Honey

[<< PrĂ©cĂ©dent <<] ⏼ The Omen