💾 Archived View for bogart.flounder.online › software › 2022-04-02-buscadores-internet.gmi captured on 2022-07-16 at 15:15:09. Gemini links have been rewritten to link to archived content

-=-=-=-=-=-=-

Sobre buscadores de internet

2022-04-02 | #internet #buscador #opinion #yacy

Combinar la privacidad con los buscadores es un tema peliagudo. Obviamente el rey del sector es Google, con su cuota de mercado prácticamente se ha convertido en el único faro de iluminación que nos da acceso a la información a la mayoría de nosotros. Eso a nivel de sociedad plantea un problema grave, cuando cerca el 90% del acceso a la información depende de una sola entidad que además es una empresa privada extranjera, es muy fácil que se abuse de esa posición de privilegio.

Desde hace años se "ha puesto de moda" la privacidad. Probablemente un punto de inflexión fueron los escándalos que descubrió Snowden que parece que nadie ha leído pero que se repite mucho, como un mantra. Snowden, Snowden, Snowden... Y digo que se ha puesto de moda, como se ha puesto de moda la "transparencia" en el ámbito político. Son palabras que se repiten mucho pero el impacto real de las acciones que deberían acompañar esas palabras me parece poco.

En fin, que me enrollo. Desde los últimos años han aparecido muchas plataformas, sistemas, herramientas que prometen privacidad y los buscadores no iban a ser menos. Apareció así DuckDuckGo, StartPage, Ecosia, Mojeek, , Lilo, Qwant... Estos son, al menos, los que yo he conocido.

Problemas de cada uno de ellos

En general todos estos buscadores se basan en la confianza, porque no hay nada detrás que te garantice realmente esa privacidad que uno desea. De todas formas, desde mi punto de vista, es mejor alimentar a un pez pequeño que al gran tiburón que es Google. Así que cualquier alternativa me parece mejor.

Todos estos buscadores tienen el mismo problema. Están centralizados y dependes completamente del proveedor del servicio. Te tienes que creer su palabra de que son niños buenos y te van a tratar bien (no van a manipular las búsquedas, no van a vender tus datos, etc.)

Diría que el más extendido y popular es DuckDuckGo. A nivel personal no confío demasiado, por la financiación que tienen, a quién han financiado y en general me parece "demasiado bueno". Que tengan tanto beneficio aún respetando la privacidad que les de como para hacer donaciones... hmmm, no sé. También cosas que he ido leyendo a lo largo de los años y no voy a rescatar para ester artículo me hacen dudar.

Ecosia me parece un lavado de cara. Las tecnológicas están obligadas a compensar sus emisiones de CO2. Ecosia utiliza Bing, así que siendo mal pensado, entiendo yo que Ecosia sirve a Microsoft a conseguir financiación para plantar árboles y compensar las emisiones de CO2 de Microsoft, algo que de todas formas estaban obligados a hacer.

Startpage es simplemente un intermediario entre tú y Google. Por lo que a nivel de privacidad si te fías de ellos te puede servir, pero es un soporte más para la centralización del poder de la información en Google.

Mojeek cuando lo probé daba resultados de búsqueda muy malos. Así que no he profundizado más.

Lilo. En realidad no se enfoca a la privacidad si no en socializar beneficios. Pero todo lo que no sea Google merece mi atención.

Metabuscadores

Ninguna de las soluciones anteriores me convencía. Y descubrí searx. Searx es un metabuscador de código libre autoalojable. Esto quiere decir que Searx lanza las búsquedas en múltiples buscadores y entre todos los resultados hace una mezcla que es lo que te presenta como resultado. Esto está bien porque ya no dependes de una sola fuente de información, aunque cada uno de estos oráculos saque lo que más le interese tú obtendrás una mezcla de todo.

Searx también hace de intermediario entre los motores de búsquedas, como hace Startpage con Google, por lo que no se pueden asociar las buśquedas a tu persona. Además, al lanzar las búsquedas en muchos motores no beneficia la posición de privilegio que tenga un buscador concreto (todos reciben la misma información). Searx también permite una gran personalización de parámetros al administrador de su instancia. Como he dicho antes, es autoalojable, así que te puedes montar tu propio Searx y configurar qué motores quieres usar, cómo, cómo quieres que se componga la lista de resultados finales, etc.

Así que empecé a usar Searx y los resultados de las búsquedas me parecen bastante buenos. No he echado en falta Google, aunque cómo es lógico alguna vez me ha pasado con una persona que usa Google que encontrábamos resultados distintos. Lo típico de "Busca tal cosa y es el primer resultado" Bueno, pues igual no es el primero...

Además por suerte para mí, he dado con una instancia en la que confío, conozco al admin personalmente y su instancia bloquea a Google. Así que win-win para mí.

El problema de manipulación de los resultados por los propios buscadores, no lo soluciona, aunque lo mitiga "pidiendo segundas opiniones".

YaCy: El buscador descentralizado p2p

YaCy es un buscador con el que puedes crear tu propio índice local y usarlo enteramente de forma local o puedes hacer búsquedas a través de la red p2p entre los distintos YaCys que forman la red. Esto tiene su parte buena y su parte mala.

Ventajas

Es incensurable, no se pueden manipular los resultados de las búsquedas ya que estos dependen de la red de nodos de YaCy que no son de una ideología u opinión concreta, si no cada cual puede participar de forma libre e independiente.

Si se ataca un nodo o se prende fuego, el resto de la red permanece inalterable.

No dependes de la buena voluntad de una sola entidad.

No cedes tus datos a nadie. Tus consultas son anónimas y si buscas en tu índice local tu búsqueda ni siquiera sale de tu máquina.

YaCy puede ser lo que entre todos nosotros queramos que sea, alimentando los índices de cada uno con unas webs u otras. Por ejemplo, si los usuarios de YaCy indexan como locos sitios pornográficos, pues se convertirá en un buscador de porno. Pero si se extiende lo suficiente será un buscador plural, democrático y de uso generalista.

¿Qué es eso de indexar?

Internet es una gran red. Imagina una telaraña prácticamente infinita. Indexar consiste en dejar tu arañita exploradora en una parte concreta de la red y que vaya "tirando del hilo", te va diciendo qué está conectado a ese sitio donde la has dejado y sobretodo todo lo que contiene ese sitio web concreto. Toda esa información de vínculos es el índice, se guarda en una base de datos.

Desventajas

Actualmente hay unos cuantos cientos de nodos YaCy compartiendo su índice. Eso comparado a la inmensidad de internet es una fracción muy pequeña. Por lo que al usarlo como buscador gran parte de internet permanecerá oculta y no encontrarás probablemente lo que esperas. Salvo que otro usuario de YaCy lo haya indexado previamente porque la parezca interesante.

Para que funcione requiere compromiso de sus usuarios. Requiere que utilices recursos, espacio en disco para almacenar el índice, abrir puertos para compartir tu índice, indexar webs, ancho de banda, etc.

Requiere cierto esfuerzo para administrar el índice, pensar qué webs quieres indexar, gestionar los recursos que le dedicas de tu máquina a YaCY, mantener al día el índice, etc.

Usos de YaCy

Ahora mismo creo que quién más se puede beneficiar son instituciones u organizaciones. Por ejemplo, un archivo municipal, bibliotecas académicas... Pueden crear su propio índice que van a usar internamente y no les costaría publicar ese índice para que el resto de la sociedad pudiera encontrar sus recursos.

A nivel personal, si eres un profesional de un campo específico. Por ejemplo, biólogo puedes indexar webs relaciones con el tema que suelas consultar. Así puedes tener un buscador específico para esa temática. Si esto se combina con el punto anterior e instituciones/organizaciones/asociaciones de tu ámbito publicaran su índice sin invertir muchos recursos tendrías una gran cantidad de datos disponible.

Uso particular. Puedes indexar webs locales, pequeñas para dar a conocer por ejemplo tu blog, la tienda online de un amigo, la web de una asociación vecinal o de temas que te interesen.

Actualmente, repito, como uso generalista de consulta YaCy es ciego completamente a la mayor parte de internet. Así que no esperes poder sustituir tu buscador habitual.

Por si no ha quedado claro, puedes utilizar YaCy exclusivamente como consulta sin tener que indexar nada ni abrir tus puertos. Serías lo que en las redes p2p se conoce como sanguijuela o "leecher", chuparías de los datos que aportan los nodos de YaCy sin dar a cambio.

Requisitos/Recursos

YaCy necesita unos 500MB de RAM cuando está compartiendo el índice. Yo le tengo limitado a 2GB de RAM y nunca ha subido de 900MB a pesar de estar indexando varios sitios a la vez.

En cuanto al uso de disco depende de lo que quieras aportar a la red. Ahora mismo yo tengo en mi índice aproximadamente 1.200.000 entradas y ocupan unos 15GB de espacio. Pero repito, es lo que tu quieras compartir.