💾 Archived View for r2aze.observer › archive › 2006-07-15-mir-kak-spam.gmi captured on 2022-06-03 at 23:43:10. Gemini links have been rewritten to link to archived content

-=-=-=-=-=-=-

Мир как спам

📅 2006-07-15

📑 Tech

🏷 #idea

Какая гениальная мысль, я это непременно реализую.

1. Берем какой-нибудь мега-фид. Например полный фид ЖЖ. На этом этапе проводим предварительное фильтрование _(например, выделяем все постинги, содержащие русский текст)_ и складываем все найденное в базу любого типа — лишь бы постинги хранились отдельно. Самый простой способ, на мой взгляд — переводим данные об источнике постинга в заголовок стандартного емыла, что позволит хранить их любым удобным для емыла способом, а главное, упростит следующие пункты обработки.

2. На этом этапе у нас есть Здоровый Массив Невесть Чего. Теперь мы вручную сортируем его на Интересное и Фигню, разбирая на два больших пакета.

3. Оба пакета скармливаем статистическому спам-фильтру, например [bogofilter]. Один как пакет содержащий заведомый спам, другой — как пакет, содержащий заведомый не-спам.

bogofilter

В результате мы получим фильтр, который потенциально может без четких ключевых слов и критериев отделить интересный нам постинг от неинтересного нам постинга, чисто эвристически. Этот фильтр может эволюционировать штатным порядком как такие фильтры эволюционируют в случае обработки собственно спама _(если он ошибся — показываем ему на ошибку пальцем)_ и перемолоть в поисках потенциально любопытных вещей гору сходно форматированой информации, т.е. любой другой мегафид отличающийся сходным языком и тематикой.

По сути, он будет показывать нам новости, которые мы не догадались поискать сами, потому что не знали что они есть.

*update**: Так, первоначальная версия для экспериментов есть, можно пробовать.

По логике, наверное проще всего сначала натравить ее на примеры заведомо интересных журналов, взяв их по фидам конкретно-адресно, а затем натравить на общий мегафид и всегда когда на выходе появится что-нибудь неинтересное, откладывать его в сторонку, чтобы учить базу на отрицательном примере.

Вообще с этим надо будет повозиться гораздо тщательнее, идея кажется очень перспективной.

✏️ View and leave comments

◀️ 2006-07-12: Явь / Undream

⬅️ Tech: Кринолин

➡️ Tech: Мир как спам: продолжение

▶️ 2006-07-27: Мир как спам: продолжение

↩ Home