💾 Archived View for r2aze.observer › archive › 2006-07-15-mir-kak-spam.gmi captured on 2022-06-03 at 23:43:10. Gemini links have been rewritten to link to archived content
-=-=-=-=-=-=-
Какая гениальная мысль, я это непременно реализую.
1. Берем какой-нибудь мега-фид. Например полный фид ЖЖ. На этом этапе проводим предварительное фильтрование _(например, выделяем все постинги, содержащие русский текст)_ и складываем все найденное в базу любого типа — лишь бы постинги хранились отдельно. Самый простой способ, на мой взгляд — переводим данные об источнике постинга в заголовок стандартного емыла, что позволит хранить их любым удобным для емыла способом, а главное, упростит следующие пункты обработки.
2. На этом этапе у нас есть Здоровый Массив Невесть Чего. Теперь мы вручную сортируем его на Интересное и Фигню, разбирая на два больших пакета.
3. Оба пакета скармливаем статистическому спам-фильтру, например [bogofilter]. Один как пакет содержащий заведомый спам, другой — как пакет, содержащий заведомый не-спам.
В результате мы получим фильтр, который потенциально может без четких ключевых слов и критериев отделить интересный нам постинг от неинтересного нам постинга, чисто эвристически. Этот фильтр может эволюционировать штатным порядком как такие фильтры эволюционируют в случае обработки собственно спама _(если он ошибся — показываем ему на ошибку пальцем)_ и перемолоть в поисках потенциально любопытных вещей гору сходно форматированой информации, т.е. любой другой мегафид отличающийся сходным языком и тематикой.
По сути, он будет показывать нам новости, которые мы не догадались поискать сами, потому что не знали что они есть.
По логике, наверное проще всего сначала натравить ее на примеры заведомо интересных журналов, взяв их по фидам конкретно-адресно, а затем натравить на общий мегафид и всегда когда на выходе появится что-нибудь неинтересное, откладывать его в сторонку, чтобы учить базу на отрицательном примере.
Вообще с этим надо будет повозиться гораздо тщательнее, идея кажется очень перспективной.
➡️ Tech: Мир как спам: продолжение
▶️ 2006-07-27: Мир как спам: продолжение
© 2001-2022 Eugene Medvedev. All rights reserved, not like that ever stopped anyone, or means anything when not backed up by a corporation.