Скачать BayesIt!
(184 Килобайт)
Язык интерфейса: английский Сайт программы Варианты приобретения программы: |
ВНИМАНИЕ! Это устаревший документ, актуальный лишь для версий плагина до 0.4gm включительно. Ввиду включения плагина BayesIt в дистрибутив последних версий The Bat!,
Работа BayesIt! основана на методе статистической фильтрации по теореме Байеса . Данный фильтр предназначен для работы только с почтовым клиентом TheBat! , и это является его единственным "недостатком". Более того, BayesIt! не работает самостоятельно, он встраивается в TheBat! как плагин (модуль расширения). Плюс этого подхода в том, что фильтр, не являясь внешним приложением, вызывается лишь по мере необходимости, при получении почты. Таким образом, он не работает постоянно, не "висит" в памяти и не отнимает ресурсы системы.
Установив BayesIt! на компьютер, пользователь добавляет его как модуль расширения TheBat! . Эта операция выполняется в разделе Модули расширения . После этого BayesIt! начинает процедуру "самообучения", ему ведь нужно получить первоначальную статистику для дальнейшей работы. Он просит пользователя указать папки, в которых лежит "чистая" почта ( Good mail ) и спам ( Junk mail ). Таким образом, перед использованием BayesIt! желательно собрать некую коллекцию спама, не удалять его, а складывать в отдельную папку. Впрочем, это делать необязательно: есть и другой метод обучения фильтра, его мы опишем чуть ниже.
Получив информацию о том, где лежит "плохая" и "хорошая" почта, фильтр просит указать язык, на котором пользователь ведет переписку. Если его корреспонденты пишут на русском языке, то необходимо указать: No, I receive mail in my native language (not English) . Это делается для того, чтобы фильтр мог обнаруживать в тексте подмену русских букв на латинские с тем же написанием ( Х , Т , о , а и так далее). Имея в распоряжении эти данные, BayesIt! начинает "самообучение". Он анализирует содержимое "плохой" и "хорошей" почты, и подсчитывает, сколько раз встречается то или иное слово в спаме и нормальной почте. В дальнейшем, основываясь на этих данных, фильтр будет выставлять каждому новому письму оценку "спамности" по шкале от 0 до 100.
Понятно, что чем больше собранная коллекция спама, тем богаче будет собранная статистика, тем эффективнее будет работать фильтр. В принципе, не имея собственной коллекции спамерских посланий, можно попросить друзей и знакомых переслать имеющиеся у них залежи этого "добра" и на его основе "поучить" фильтр. Но здесь необходимо особо отметить следующий нюанс: спам – понятие относительное, каждый понимает невостребованную почту по-своему. И если для кого-то письма с частым упоминанием слова мебель являются спамом, то для другого человека (например, владельца мебельного магазина) они могут оказаться вполне обычной и необходимой корреспонденцией.
Но в том-то и прелесть методов статистической фильтрации, что они работают на основе статистики переписки, характерной для каждого конкретного пользователя. Если BayesIt! обнаружит, что в "плохой" почте слово мебель встречается так же часто, как и в "хорошей", он просто выставит этому слову нейтральную оценку, и не будет принимать его в расчет, рассматривая каждое новое входящее послание.
После того, как фильтр прошел обучение, остается лишь указать ему, какие действия необходимо выполнять, основываясь на полученных знаниях. Как мы помним, каждому входящему письму BayesIt! будет присваивать рейтинг "спамности". В разделе Предупреждения > Защита от спама настроек TheBat! пользователь указывает значения рейтинга, при которых письмо будет перемещаться в специальную папку или попросту удаляться (при очень высокой оценке "спамности"). Это и есть результат работы фильтра – явно невостребованная почта будет удаляться, а сомнительная – складываться в отдельную папку, которую можно просматривать в свободное время, чтобы убедиться, что нужное письмо случайно не было причислено к спаму. Впрочем, ложных срабатываний у этого фильтра практически не бывает и очень скоро пользователь перестанет заглядывать в свою спам-папку и будет ее автоматически очищать при выходе из TheBat! .
Теперь поговорим об альтернативном (ручном) методе обучения фильтра. Получив спамерское послание, пользователь может в меню Специальное почтового клиента TheBat! выбрать пункт Пометить как спам . BayesIt! переместит письмо в спам-папку, а предварительно проанализирует его содержимое и добавит статистику в свою базу данных. Так, постепенно, шаг за шагом, фильтр будет проходить обучение, чтобы все лучше и лучше фильтровать входящую почту. Точно так же, кстати, можно помечать "чистую" почту как НЕ спам , ведь для нормальной работы фильтру необходимо как можно больше информации для сравнения.
Таким образом, BayesIt! постепенно (довольно быстро) сводит на нет необходимость ежедневной ручной сортировки почты.