💾 Archived View for psicobyte.com › blog › estadisticas_y_spam.gmi captured on 2023-05-24 at 18:45:38. Gemini links have been rewritten to link to archived content

View Raw

More Information

➡️ Next capture (2023-06-14)

-=-=-=-=-=-=-

Estadísticas y spam

2005-02-17

Estoy trabajando en un modulillo para extraer estadísticas de accesos a este blog, y ya está dando algunos resultados curiosos.

Primero, unas aclaraciones:

El log muestra solo las visitas a páginas del blog. No contabiliza descargas de imágenes, hojas de estilo, archivos ni nada similar. Tampoco cuenta acesos al RSS (esos van en un log aparte).

En esta tabla, "Visitas" se refeire, realmente, a "Visualizaciones". Por ejemplo, si alguien entra en la página principal, luego pasa a ver los comentarios de un post y escribe un comentario, eso cuenta como **tres** visitas (una de la página principal, otra de los comentarios, y otra despues de enviar el suyo). O sea, que las estadísticas están "hinchadas".

El protocolo HTTP, que es el que sostiene la Web, tiene una serie de campos que envía en la cabecera de las páginas (justo antes de enviar la página en sí) con información variada. Uno de estos campos es HTTP_REFERER, que indica de qué página viene un visitante cuando llega a la tuya.

El trucar la cabecera HTTP_REFERER es un método de los spamers para hacer creer a tu página que tienen enlaces apuntándote. Muchos blog tienen un listado de accesos desde otras páginas (Como, por ejemplo, el de Malglam[1]), y así el spamer consigue un enlace en tu página apuntándole a él, con lo que eso puede significar de vistas, pagerank, etc. (Son unos cabrones retorcidos, como puedes ver).

Yo no muestro en este blog las HTTP_REFERER pero, además de que consumen ancho de banda, si son muchas respecto a las visitas legítimas, pueden falsearme la estadística (cosa que me irrita sobremanera).

Y el hecho es que me la falsean.

Porque, efectivamente, recibo un montón de spam de esta clase. Básicamente casinos, sexo y medicamentos.

He escrito un pequeño filtro (benditas sean las **regexps**) que me separa el spam del resto de visitas, y esta es la tabla resultante para lo que llevamos de mes (hasta ayer):

FechaVisitas LegítimasSpam

01-02-2005 844 14

02-02-2005 842 62

03-02-2005 928 9

04-02-2005 736 43

05-02-2005 786 47

06-02-2005 901 20

07-02-2005 689 39

08-02-2005 914 37

09-02-2005 703 29

10-02-2005 721 63

11-02-2005 815 189

12-02-2005 585 40

13-02-2005 839 822

14-02-2005 836 1324

15-02-2005 869 111

16-02-2005 1140 12

En general, tengo por aquí una cantidad bastante apreciable de spam. Lo cual, unido a que no hay demasiados visitantes, hace que la la proporción sea notable.

Y luego, los casos extremos. El domingo 13 llegó aquí casi tanto spam como visitas legítimas. Pero al día siguiente, lunes 14, la cosa se disparó brutalmente: ¡Llegó mucho más spam que visitas reales!

Definitivamente, tengo que hacer algo. Me estoy planteando hacer un filtro similar al que he usado parqa las estadísticas, pero para los accesos al blog. De modo que si alguien viene aquí desde, pongamos por caso, "_culitos-calientes-pervertidos.com_" (es un ejemplo inventado, me niego a poner las URLs auténticas de estos tipos), el blog le envíe una respuesta 404 "Page not found".

Lo que pasa es que no me acaba de gustar eso de filtrar accesos. No sé, me da un cierto _mal rollo_.

¿Tú que opinas?

Links

[1] Malglam

Meta

Publicación orginal.

Índice de posts