The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Обзор и сравнительное тестирование систем распознавания текста для Linux

13.04.2011 22:04

В статье проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайн-сервисы.

Вывод: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

  1. Главная ссылка к новости (http://rus-linux.net/nlib.php?...)
Автор новости: В.Костромин
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/30240-ocr
Ключевые слова: ocr, text
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (34) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 23:41, 13/04/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +6 +/
    Виктор, спасибо большое за новость! Втянулся в Linux благодаря вашим публикациям.

    Вся надежда на Cuneiform.

     
     
  • 2.11, Zenittur (?), 05:35, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +1 +/
    На Википедии в статье о нём сказано, что он имеет проблемы с распознаванием текста из JPEG. В то время как FireReader их когда-то тоже имел, но избавился от них. Кроме того на LOR была ссылка, что разработка скорее всего прекращена, а последний релиз был насколько я помню в 2009-м.
     
     
  • 3.23, q4a (?), 15:37, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Последний коммит был 9 дней назад, так что пока живой)
    Пруф: https://code.launchpad.net/cuneiform-linux а далле на вкладку "Code"
     

  • 1.2, Аноним (-), 23:44, 13/04/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Так и не увидел ничего открытого и бесплатного, чем бы можно было нормально работать с pdf документами ... =/
     
     
  • 2.8, Просто проходил мимо (?), 02:16, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • –6 +/
    Мне кажется здесь происходит рассмотр программ оптического распознования текста, то есть рисунков, а не PDF. Возможно, наиболее оптимальный, для Вас вариант, будет распечатать PDFку и сосканировать ее, после чего скормить вышеперечисленным программам
     
     
  • 3.9, fewefwe (?), 02:34, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +8 +/
    > Возможно, наиболее оптимальный, для Вас вариант, будет распечатать PDFку и
    > сосканировать ее, после чего скормить вышеперечисленным программам

    А еще лучше сразу монитор прислонить к сканеру, чтобы убрать промежуточный носитель.

    ps: pdf2jpg, pdf2tiff, pdf2png и т.д. и т.п.

     
     
  • 4.13, darkside83 (?), 07:07, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Недавно нужно было распознать большой объем pdf файлов. Преобразовал их в tiff (он тоже умеет многостраничные файлы). Использовал для этого gslite (у меня он идет в комплекте с Bullzip Pdf Printer). Накидал батник следующего содержания:

    >dir /b *.pdf >> list
    >for /f "usebackq delims=" %%a in (list) do (
    >"c:\Program Files\Bullzip\PDF Printer\gs\gswin32c.exe" -q -dNOPAUSE -sDEVICE=tiffg4 ->sOutputFile="%%a.tif" "%%a" -c quit
    >) >> log.txt

    После чего натравил на эти файлы пакетное распознание из cuneiform.
    Качество распознания не очень хорошее, но свою задачу выполнил ))
    Нужно было найти несколько конкретных pdf-ок.

     
     
  • 5.30, AlexYeCu (?), 21:38, 15/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Распознать pdf?!
    Оно, вообще-то, вполне нормально как текст редактируется.
     
     
  • 6.33, darkside83 (?), 08:40, 16/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > Распознать pdf?!
    > Оно, вообще-то, вполне нормально как текст редактируется.

    В этих pdf-ках страница шла как изображение. Просто отсканенные многостраничные документы, сохранены как изображение.

     
  • 2.10, prapor (??), 05:14, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Если честно, то ни разу не понимаю потребности распознавания PDF. Особенно, с условием наличия импорта PDF в Open/Libre Office (да плывёт форматирование и т.д., только не говорите что распознавалки это устранят). Разве что речь идёт о пачке картинок, запакованных в PDF.
     
     
  • 3.14, darkside83 (?), 07:12, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > Если честно, то ни разу не понимаю потребности распознавания PDF. Особенно, с
    > условием наличия импорта PDF в Open/Libre Office (да плывёт форматирование и
    > т.д., только не говорите что распознавалки это устранят). Разве что речь
    > идёт о пачке картинок, запакованных в PDF.

    Недавно мне пришлось распознавать более 14000 pdf-ок, и в каждом была пачка картинок. ))
    Отсутствие поддержки pdf в cuneiform создало дополнительные трудности.

     
     
  • 4.15, haha (??), 11:16, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    >Недавно мне пришлось распознавать более 14000 pdf-ок, и в каждом была пачка картинок. ))

    Ну так и распозновал бы картинки. $convert *.pdf *.png

     
  • 2.16, gregg128 (ok), 12:19, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > Так и не увидел ничего открытого и бесплатного, чем бы можно было
    > нормально работать с pdf документами ... =/

    В gscan2pdf есть OCR (через внешние движки тессеракт\къюниформ).

    Если же вам нужно массовое распознавание пдф - это пишется скриптами.

     

  • 1.3, Anonus (?), 23:47, 13/04/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Нативного файнридера я так понял ждать не стоит. Так что да - вся надежда на Cuneiform. Вот только он мега-далек от совершенства, как по части распознавания, так и по части интерфейса... Онлайн сервис файнридера - это какой-то грабеж. Ребят, это катастрофа какая-то!
     
     
  • 2.12, Тот_Самый_Анонимус (?), 07:06, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Ты бы по ссылке сходил. Есть файнридер, только платный он.
     
     
  • 3.17, Аноним (-), 13:38, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Это все равно что его нету.
    Где исходники? раз они запускают свой софт на linux.
     
  • 3.19, Anonus (?), 14:29, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Говоришь есть файлридер под Linux? Вот такой?

    http://www.abbyy.ru/download/finereader_pro/

    С полным аналогичным виндовому GUY и всеми функциями?

     
     
  • 4.20, Anonus (?), 14:30, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Операционная система: Microsoft® Windows® 7, Microsoft Windows Vista, Microsoft Windows Server® 2008, Microsoft Windows Server 2003, Microsoft Windows XP.

    И где здесь Linux?

     
  • 3.21, Anonus (?), 14:34, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Вот это чтоли?

    ABBYY FineReader Engine 9.0 для Linux?

    Предлагаешь с консолью заниматься секосом? А например для новичков, которые постоянно переходят на Linux - консоль является проблемой. Нафига им файнридер без GUI? Вобщем-то это задротство еще то.

     
     
  • 4.25, Pel (?), 19:19, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    +1
    Консольный интерфейс есть большое зло для любого прикладного софта.
    А кто не согласен - смотреть http://gdemozg.ru/demotivators/w/id/642/trat_vremya_optimalno.html ;)
     

  • 1.4, z (??), 23:51, 13/04/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    OCRFeeder забыли упомянуть в статье.
     
  • 1.5, slavon (??), 00:00, 14/04/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    гугл фри OCR ввел веб - попробуйте
     
     
  • 2.24, lhoi (?), 17:20, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Ссылку можно на эту самую гугл фри OCR?
     

  • 1.6, no_downloader (?), 00:25, 14/04/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Хотел попробовать, но:

    Ссылка на файл
    http://ocr4linux.com/_media/abbyyocr-8.7002.42.tar.gz
    на странице
    http://ocr4linux.com/en:download
    не работает, скачивается файл размером 0 байт

    Кто скачал, БУДЬТЕ ДОБРЫ, перевыложите... на какой-нибудь файлообменник

     
     
  • 2.7, no_downloader (?), 01:03, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    http://www.ocr4linux.com/Linux_CLI_OCR_Download.html

    скачал только по этой ссылке. запросил триал... ФСЁ позже Выложу на торрент...

     

  • 1.18, Аноним (-), 13:46, 14/04/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Не работает: Service Temporarily Unavailable
     
     
  • 2.22, croster (ok), 14:42, 14/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Перезагрузите страницу.
     

  • 1.26, yantux (??), 22:06, 14/04/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    В контексте этой новсти интересне тендер ФСБ:
    http://www.cnews.ru/news/top/index.shtml?2011/04/12/436092
    Российская спецслужба выделяет 10 млн руб. на создание программы, которая позволит находить сходства на разных изображениях и видеозаписях.

    Особенно интересны требования к ПО!
    Как следует из конкурсного техзадания, ПО должно поддерживать поиск по файлам в форматах JPG, BMP, PNG, KMZ, AVI, VOB, MPG, MP4, ASF, WMV, MOV, 3GP, RM и FLV. Программа должна функционировать под управлением операционных систем Windows XP и Windows 7.
    ================================================================

    По моему за 10млн руб можно сделать и кр\оссплатворменное ПО, как в этой новости! Кроме того, сделать реальное время в MS Windows - абсурд! А поскольку тяжёлые математическое операции лучше переносить на специализированный процессор, например nVidia, то уж лучше тогда после отработки алгоритмов потребовать перенос маталгоритмов на язык vhdl/verilog. чтобы например напустить на xilinx, но блин как можно заказывать такое ПО и чёткео под MS Windows? Вот же пример корссплатформа в новости!!!!!!!!!!!!!!!

     
     
  • 2.29, anonymous vulgaris (?), 03:33, 15/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > Кроме того, сделать реальное время в MS Windows - абсурд!

    А как же вы в ней кино смотрите, музыку слушаете и по скайпу разговариваете?

     
     
  • 3.31, AlexYeCu (?), 21:43, 15/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    >> Кроме того, сделать реальное время в MS Windows - абсурд!
    > А как же вы в ней кино смотрите, музыку слушаете и по
    > скайпу разговариваете?

    А для этого уже нужен realtime?

     
     
  • 4.32, anonymous vulgaris (?), 04:18, 16/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    >>> Кроме того, сделать реальное время в MS Windows - абсурд!
    >> А как же вы в ней кино смотрите, музыку слушаете и по скайпу разговариваете?
    > А для этого уже нужен realtime?

    а, то есть вы по скайпу не в реалтайме умеете разговаривать? веб-камерой никогда не пользовались? в видеоконференции под виндой никогда не участвовали? постоянная скорость смены кадров в кино и синхронизация звука с видео вас не интересует? ну так научите как это все сделать без реального времени, вам спасибо скажут

     
     
  • 5.34, AlexYeCu (?), 17:21, 16/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    Рекомндую почитать что есть 'realtime', коль он упоминается в связи с операционными системами и ядрами.

    Всё, что вы перечислили, никакого отношения к предмету разговора не имеет.

     
     
  • 6.35, anonymous vulgaris (?), 03:59, 17/04/2011 [^] [^^] [^^^] [ответить]  
  • +/
    > Рекомндую почитать что есть 'realtime', коль он упоминается в связи с операционными
    > системами и ядрами.
    > Всё, что вы перечислили, никакого отношения к предмету разговора не имеет.

    вы хоть одно приложение для работы со звуком или аппаратурой какой под любую ось в жизни написали? или только читатель в связи?


     

  • 1.27, paulus (ok), 23:52, 14/04/2011 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    >высокое качество распознавания,

    не высокое, а нормальное. жить можно.
    >снижение разрешения с 300 до 200 dpi практически не влияет на результат.

    Cuneiform на 300dpi распознает хреновато, 600dpi значительно улучшает результат.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру