The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Борьба со спамом в картинках при помощи OCR

04.05.2007 13:19

В материале представлено решение по фильтрации спама внутри прикрепленных к письму картинок через плагин FuzzyOCR для SpamAssassin. Распознавание русскоязычного текста выполняется через сервис Microsoft Office Document Imaging (MODI).

  1. Главная ссылка к новости (https://www.opennet.ru/base/sec...)
Лицензия: CC-BY
Тип: яз. русский / Практикум
Короткая ссылка: https://opennet.ru/10686-spam
Ключевые слова: spam, image, filter, spamassassin
Поддержать дальнейшую публикацию новостей на OpenNET.


Обсуждение (20) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, oleg (??), 13:47, 04/05/2007 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    осталось эту штуку прикрутить к wget-у и автоматизировать Рапидшару.
     
     
  • 2.6, Crazer (?), 17:08, 04/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    +1
     
  • 2.16, Andrey Mitrofanov (?), 13:03, 08/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    Добро пожаловать в прекрасный мир http://google.ru/search?q=captcha+ocr Интернет: спам и порнография для полного Вашего удовольствия!
     
     
  • 3.18, sheltutmimo (?), 01:01, 09/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    > Добро пожаловать в прекрасный мир http://google.ru/search?q=captcha+ocr Интернет: спам и порнография для полного Вашего удовольствия!

    вроде еще нет софта который асилит сложные капчи, вроде тех что на гугле например, или я ошибаюсь?

    PS уберите спам, порнотраф, ну и варезный траф из инета - провайдеры разорятся нах
    гыгыгы

     
  • 2.19, close (?), 16:53, 10/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    ssh -L YO.UR.IP.AD:PORT:rapidshare.de:80 YO.UR.IP.AD
    в бровсере: proxy/port YO.UR.IP.AD/PORT
    получаем бровсером ссылку, файло качаем вгетом.

    P.S. на рапиде не тестил. но тестил успешно на ифолдере.
    на рапиде, по-моему, с некоторого времени дают докачку раз в сутки. так что ссылку несложно выцарапать.

     

  • 1.2, SubGun (ok), 14:01, 04/05/2007 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Решение лишено всякого смысла в виду большой задержки при обработке одного письма.
     
     
  • 2.3, Oles (?), 14:11, 04/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    Так категорично? Лишено совсем всякого смысла?
     
     
  • 3.4, SubGun (ok), 14:13, 04/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    Пипец, как лишено :)
     
  • 2.5, enfogar (??), 14:52, 04/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    Да и то, можно размером играться. Остальные письма не обрабатываются OCR. Да и задержка небольшик картинок - небольшая.
     

  • 1.7, Квагга (?), 18:53, 04/05/2007 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А миль пардон!

    Что? Кто-то ждет деловых писем, состоящих из двух ГИФов? :)

     
     
  • 2.12, blackp (?), 14:09, 05/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    мусье видел корпоративные счета от мтс? там и три штуки не предел.
     

  • 1.8, Аноним (-), 19:24, 04/05/2007 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Писем с двумя гифами,к сожалению, много... Картинки используются в подписях к письмам.
    Из своего опыта использования FuzzyOCR могу сказать, что спама с картинками, который пробивается через обычные антиспам фильтры очень немного(на 4-5 тысяч спама в сутки, FuzzyOcr отсекает еще всего 2-3 письма,и то очень часто идущий на несуществующие адреса). А вот ошибается он очень часто,поэтому использовать его надо очень осторожно.
     
     
  • 2.9, Квагга (?), 20:03, 04/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    Картинки в подписях???
    Это круть!
    Я думал, ЭЦП...
     
     
  • 3.10, stimpack (?), 22:23, 04/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    Куча быдла в документооборотном (lotus, ms exchange и проч.) мыле ваяет монстроидальные подписи с телефонами, всеми остальными видами контактов, наилучшими пожеланиями в пяти случайных вариантах, прогнозами погоды на месяц и фотками своего любимого котёнка или ещё какой лабуды. Им невдомёк, что на фоне этого строчка из пары-тройки слов, на которые они горазды без использования технологии copy/paste выглядит комично и что такое письмецо загружает wan-трафик. Ещё более страшно это выглядит при цитировании и всяческих Re: и Fw:-вариантах исходного письма руками такого же быдла. Иногда мучительно хочется вытереть экран, получая подобную кучку мусора, особенно, если там мыслей на грош.
     
     
  • 4.14, 5trovi4 (??), 12:01, 07/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    +100 Не в бровь, а в глаз!
     
  • 4.17, _Andrey_ (??), 14:52, 08/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    Увы, таки "одаренных" очень много. Очень точно вы подметили.
     

  • 1.11, Basmach (?), 01:14, 05/05/2007 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >Куча быдла в документооборотном (lotus, ms exchange и проч.) мыле ваяет монстроидальные подписи с телефонами, всеми остальными видами контактов, наилучшими пожеланиями в пяти случайных вариантах, прогнозами погоды на месяц и фотками своего любимого котёнка или ещё какой лабуды. Им невдомёк, что на фоне этого строчка из пары-тройки слов, на которые они горазды без использования технологии copy/paste выглядит комично и что такое письмецо загружает wan-трафик. Ещё более страшно это выглядит при цитировании и всяческих Re: и Fw:-вариантах исходного письма руками такого же быдла. Иногда мучительно хочется вытереть экран, получая подобную кучку мусора, особенно, если там мыслей на грош.

    +1

    Как нам это знакомо! И как это уже достало... Эххх

     
     
  • 2.13, karpoff (?), 00:05, 07/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    Досталоо ещё как.. вот и ищу другие способы борьбы с этим.. похоже буду проводить конфиренции по поводу правильного использования почтовых ресурсов!
     
     
  • 3.15, SimSim (??), 21:45, 07/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    А резать картинки не судьба? Довольно быстро отрезвляет. Если хотят слать, то в архив.
     
  • 3.20, Andrey Mitrofanov (?), 15:54, 11/05/2007 [^] [^^] [^^^] [ответить]  
  • +/
    > вот и ищу другие способы борьбы с этим..

    """Здравствуйте! Пишет Вам Отдел Безопасности Почтовых Сообщений почтового сервера mmmm.aaa.iiiii.llll. Ваше письмо от $DATE, принятое сервером для передачи, рассмотрено Аффтоматом По Борьбе С Сетевым Безобразием и было признано содержащим подозрительные материалы: - .gif; - HTML formated; .... Письмо передано для рассмотрения в Отдел Великого Администратора для принятия окончательного решения о дальнейшей передаче Вашего письма. __Ждите__. Письмо будет рассмотрено Великим Администратором в течении... суток, месяца, года. Может быть двух.""

     
     Добавить комментарий
    Имя:
    E-Mail:
    Текст:
    При перепечатке указание ссылки на opennet.ru обязательно



    Спонсоры:
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2022 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру