Mojeek : un moteur de recherche indépendant respectueux de la vie privée

-------------------------------------------------

[03/02/2021] - ~11mins - #web #monopole

-------------------------------------------------

On parle beaucoup du web qui devient de plus en plus pourri.

Que ce soit à cause de ses technos de plus en plus folles, changeant constamment et complexifiant de plus en plus la création de page web.

Et ça c'est sans parler du fait que ce soit de plus en plus hostile pour l'utilisateur.

Surfer sans bloqueur de pub, sans faire gaffe aux cookies, avec le javascript activé sur des sites mainstreams (ouai la presse surtout, ce sont les pires) c'est pire que d'aller choper des cracks dans les années 2000.

Vous allez être espionné, siphoné ptet même miner un peu de bitcoin et marqué.

Mais bon tout ça on en a déjà pas mal parlé même si j'ai pas trop abordé le sujet (tout a déjà été dit, non ?) vu que j'imagine que mon lectorat (haha, quelle importance ça me donne !) est je pense déjà pas mal sensibilisé à ces problématiques.

Here Comes Google

Et pour tout ça, je pense que Google a une énorme part de responsabilité.

Il y a bien longtemps j'étais un fanboy google.

Je me suis démené pour avoir un compte Gmail quand ça s'est créé et j'ai paradé comme un coq lorsque j'ai récup une invitation pour accéder au graal.

Mais depuis j'ai radicalement changé (d'avis).

Je me suis dégooglisé il y a fort longtemps (il me reste quelques ptites bribes comme par exemple youtube qui n'a pas trop d'alternative possible (effet réseau, c'est là où se trouve le contenu) ou bien android qui est un de mes outils de travail).

J'ai même ouvert et presque abandonné un site à charge contre google [1].

Bref, *Google est devenu à mes yeux hostile envers le web*.

Que ce soit pour ses logiciels (chrome qui a tué la concurrence, pousse des standards constamment pour rendre la création d'une alternative à chaque fois plus complexe,…) mais aussi ses services.

L'illusion du choix

Dans certains pays Google n'a pas une aussi forte part de marché mais en France c'est ça ou rien.

Même **Bing** ne parvient pas à lui grignoter de sa popularité.

Pourtant on a déjà eu **Exalead** qui a tenté de devenir une alternative crédible il y a maintenant fort longtemps sans parvenir à quoi que ce soit.

Et toujours dans le franco-français, on a eu les opportunistes de **Qwant** avec leurs méthodes douteuses (aussi bien techniquement qu'humainement visiblement et une gestion de projet toute fofolle,…) qui visiblement battent de l'aile mais ne meurent pas pour autant.

Il y a également tout un tas de services alternatifs pour la recherche comme **StartPage** ou bien **Ecosia**, **Lycos** (hahaha), **Ask** et même **DuckDuckGo**.

Mais tous ces services ne sont pas exactement des moteurs de recherche mais plus des proxy : ils ne créent pas leur index et s'appuient donc généralement sur ceux de **Bing** ou **Google**.

Ce sont en gros des interfaces apportant diverses fonctionnalités mais c'est tout.

Ils ont assez peu de valeur ajoutée et ne permettent pas d'aller à l'encontre de Google et Microsoft.

Si vous voulez voir une ptite liste de moteur de recherche et de qui ils dépendent vous avez cette petite carte interactive [2].

Mon petit doigt me dit qu'un coup de pouce majeur serait d'avoir un bon index

La force d'un moteur de recherche réside en partie dans son algorithme pour rechercher/classer les résultats/comprendre l'intention du visiteur.

Mais surtout l'autre grande partie est incontestablement l'index.

Toutes les pages qu'il peut vous donner en résultat sont issues de son index.

Forcément, plus celui-ci est fourni et à jour meilleur c'est.

Et là, des services avec leur propre index il n'y en a pas des masses.

- **Google** : le principal

- **Bing** : le service de microsoft qui parvient à se maintenir à flot

- **Yandex** : c'est russe et donc relativement peu utilisé par chez nous, j'avoue ne pas m'y être penché dessus

- **Exalead** : moteur made in France par Dassault Systems et franchement j'avais une once d'espoir il y a quinze ans mais maintenant c'est manifestement de la bouse. En rentrant mon nom de domaine il ne me trouve pas… Ils ont même pas exalead.fr -__- Ils semblent pas vouloir être utilisé mais plus vendre leur technologie à d'autres boîtes.

- **ActiveSearchResults** : un moteur de recherche où les webmasters doivent s'inscrire et faire différentes tâches pour être mieux placés. o__O

- **Gigablast** : un moteur monté par une personne seule donc pour ça respect. Mais après l'UI est … vous verrez. Et puis pour ajouter une url faut un compte et payer 0.25$ pas cher mais payant…

- **Mojeek** : ha bha voilà où je voulais en venir ! Je ne vous spoile pas tout de suite.

Créer un index est probablement une des parties les plus ardues.

Il faut crawler le web constamment afin de trouver de nouvelles pages, retourner sur celles déjà existantes voir si elles ont changées, comprendre les pages pour tenter d'en extraire le sens…

Ça demande beaucoup de CPU, de stockage, de ram et de bande passante.

Et *vu la taille gargantuesque du web aujourd'hui c'est forcément très compliqué*.

Le monopole de Google

Quand Google décide de changer son algorithme pour favoriser un nouveau critère, une grosse masse de site va s'adapter afin de bien performer sur ce critère pour tenter de grapiller des places.

Après, bien entendu tout le web ne joue pas ce jeu, mais une grosse partie du web commercial en accepte parfaitement les règles et s'y plie.

Par chance, ce n'est pas le web que je fréquente le plus mais je ne peux pas non plus l'éviter à 100%.

Il y a quand même tout un web bien plus "calme" et respectueux de ses utilisateurs qui même s'il est bien moins visible est tout de même vaste et super intéressant.

Accoutumance

Quand on n'a connu que Google, passer à un autre moteur de recherche est déroutant.

C'est pas la même présentation ni la même interface mais surtout les résultats semblent à côté de la plaque avec des sites biens moins usuels.

Ils retaillent constamment leurs algos afin de mieux comprendre les requêtes des utilisateurs et au final leur recherche n'est donc pas neutre.

La première réaction de bon nombre de personne est “C'est de la merde, vite retournons dans nos pantoufles Google !”.

C'est en partie dû au fait que *Google réconforte ses utilisateurs en les plaçant dans une jolie bulle* qui permet de protéger ses habitudes en ne voyant que le contenu très populaire et surtout en accord avec ses précédentes recherches.

Pourtant en utilisant un moteur alternatif se basant quand même sur ce même index, on a la même impression déroutante de ne pas récupérer les résultats qu'on espère.

Comme quoi ce n'est pas l'index, mais l'algorithme de tri des résultats en fonction de l'utilisateur qui biaise les résultats pour un effet certe à priori plaisant mais au final très enfermant.

On devient dépendant de sa bulle et en sortir est tout tourneboulant.

\

Bon, j'espère que mon ptit exposé vous a plu.

L'intro désormais finie, je vous ai préparé pour vous présenter un peu plus **Mojeek** [3].

Koikoukess ?

Il s'agit d'*un moteur de recherche avec son propre index*.

Il a été créé en 2004 et grandit petit à petit depuis tout ce temps.

Et surtout, *dès 2006, le service a choisi de respecter ses utilisateurs en respectant leur vie privée*.

Et franchement s'y atteler dès 2006 c'est assez surprenant.

À l'époque ce type de discours n'était pas encore monnaie courante et encore moins une case à cocher dans la liste des arguments de vente (contrairement à aujourd'hui).

C'est une entreprise de Grands Bretons qui est spécialisée dans la recherche.

Ils ne s'appuient pas sur le cloud Amazon ou Google ou Azure…

Bref, ils font à peu près tout pour avoir leur indépendance.

Il s'agit d'une toute petit équipe de sept personnes.

Ils n'ont pas connu encore de vague de popularité leur permettant de grandir plus que de raison.

Du coup ils sont encore très concentrés.

En bref, **c'est le seul moteur de recherche ayant son propre index qui respecte la vie privée de ses utilisateurs**.

Techniquement ça donne quoi ?

J'ai fait quelques tests et apparemment les résultats sont les mêmes pour tout le monde (testés avec mon navigateur habituel et comparé avec une autre machine, avec une autre ip dans un autre AS avec un navigateur différent).

Et c'est tout con mais du coup tu peux dire à quelqu'un "c'est le troisième résultat pour la recherche flan anglais", ça sera le même troisième résultat pour lui aussi.

(Bon si vous modifiez vos préférences forcément ça pourra influencer sur l'ordre des résultats…)

Après, il est possible (via un cookie) de personnaliser un peu ses préférences et donc d'obtenir des résultats un peu différents.

Une option sympatique est le fait de pouvoir limiter le nombre de résultat provenant d'un même domaine.

Vous pouvez également afficher la taille de la page et la date de crawl (quand la page a été indexée pour la dernière fois).

Et enfin vous avez le désormais classique choix pour avoir un thême sombre.

À tout moment, vous pouvez vous rendre sur cette page [4] vous montrant le contenu du cookie Mojeek.

Vous verrez que ça ne contient que vos préférences.

Et vous pouvez aller vérifier dans les entrailles de votre navigateur également, pas obligé de faire aveuglément confiance.

Selon leurs dires, *ils ne gardent que quelques logs à des fins de statistiques sans conserver d'informations pouvant identifier les utilisateurs*.

Les adresses IP sont dégagées et remplacées uniquement par un identifiant pour indiquer le pays du visiteur.

Mais bon comme partout, ça on ne peut pas vraiment le vérifier.

Quoi qu'il en soit, ça reste une boite européenne (allez, revenez dans l'UE, on vous aime bien) qui *n'axe pas son business sur les métadonnées et la revente de vie privée*.

D'ailleurs *ils n'ont pas trop de business model pour le moment*.

Ils cherchent un peu des pistes mais se veulent rassurant sur le fait de toujours poursuivre leur engagement vis-à-vis des utilisateurs [5].

Leurs serveurs ne sont pas éparpillés partout dans le monde mais seulement au Royaume-Uni ce qui peut être un poil chiant pour les utilisateurs mais par chance pour nous petits français ça n'a pas d'impact sur la latence et la vitesse d'utilisation.

Mais ptet moins agréable si vous êtes éloigné.

Ouai mais les résultats ?

Je m'y suis mis par défaut depuis une semaine et il m'arrive de retourner à DuckDuckGo pour certaines recherches.

Mais bon je dirai que ça me convient pour au moins les deux tiers de mes recherches.

{{}}

Si chacun pouvait enlever 10% de ses recherches de Google vers Mojeek ce serait énormissime (ouai je suis rêveur).

Un ptit truc qui manque est de pouvoir n'afficher des résultats que dans certaines langues.

J'aimerais bien n'avoir que des résultats en anglais ET en français.

Des résultats en allemand ça me fait un peu une belle jambe.

Concernant la recherche d'images, ils ne le font pas eux-mêmes.

Ils ont délégué ça à deux entités : **pixabay** (qui ne fonctionne pas vraiment) et **bing** (qui fonctionne bien).

Ce compromis ne me gêne pas, on peut imaginer que le jour où ils auront plus de thunes ils s'y pencheront.

Cela dit, je ne me fais pas d'illusion face à la tâche titanesque que ça représente.

Ils ont quelques ptites astuces pour chercher un peu plus efficacement pour n'afficher que les résultats avant ou après une certaine date.

Ou bien ne limiter la recherche qu'à l'url ou bien uniquement dans un site précis.

Vous retrouverez ça dans cette page d'aide [6].

Un ptit truc que j'aime bien c'est de taper l'url d'un site ouaib dans leur recherche, ensuite ils vous mettront un ptit champs de recherche pour chercher que dans ce site précisément.

C'est un ptit détail tout con mais l'expérience utilisateur est pas pourrie.

Et mention spéciale : *leur site marche parfaitement sans JS*.

C'est recommandé ?

Si vous attendez à avoir les mêmes résultats que Google qui connait tout de vous.

Il faut être prêt à faire quelques concessions et prendre de nouvelles habitudes.

Mais que voulez-vous, combattre un mastodonte n'est pas de tout repos.

Je ne prétends pas que ce moteur peut remplacer tous les autres dès aujourd'hui mais il peut répondre à déjà pas mal de requêtes.

Liens

[1] site à charge contre google (https://googhell.fr)

[2] cette petite carte interactive (https://www.searchenginemap.com/)

[3] **Mojeek** (https://www.mojeek.com)

[4] cette page (https://www.mojeek.com/about/cookie)

[5] des pistes mais se veulent rassurant sur le fait de toujours poursuivre leur engagement vis-à-vis des utilisateurs (https://blog.mojeek.com/2020/12/frequently-asked-questions-about-mojeek-business-model-surveillance-privacy.html)

[6] dans cette page d'aide (https://www.mojeek.com/support/search-operators.html)

------------------------------------

🏠 Retour à la home

------------------------------------

[03/02/2021] - #web #monopole

------------------------------------

[>> Suivant >>] ⏭ Pleroma et les emojis

[<< Précédent <<] ⏮ Récap 18 : Janvier 2021