The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]



"Выпуск системы распознавания текста GNU Ocrad 0.27"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Выпуск системы распознавания текста GNU Ocrad 0.27"  +/
Сообщение от opennews (ok), 14-Янв-19, 12:14 
Подготовлен (https://www.mail-archive.com/info-gnu@gnu.org/msg02558....) релиз системы распознавания текста Ocrad (http://www.gnu.org/software/ocrad/ocrad.html) (Optical Character Recognition) 0.27, развиваемой под эгидой проекта GNU. Ocrad может применяться как в форме библиотеки для интеграции функций OCR в другие приложения, так и в форме обособленной утилиты, которая на основе переданного на вход изображения выдаёт текст в UTF-8 или 8-битных кодировках.  

Для оптического распознавания в Ocrad используется метод выделение признаков (feature extraction (http://en.wikipedia.org/wiki/Feature_extraction)). В состав входит анализатор макета страницы, позволяющий корректно разделять столбцы и блоки текста в печатных документах. Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует). Передаваемые для распознавания изображения должны быть в форматах pbm, pgm  или ppm.

При подготовке нового выпуска работа была сосредоточена на устранении известных проблем и ошибок. Устранены замечания компилятора, выводимые в режиме "-Werror=catch-value" для std::bad_alloc. Обеспечена проверка ошибок при закрытии входного файла. В скрипт configure добавлена поддержка добавления дополнительных опций к  ранее определённой переменной CXXFLAGS с использованием синтаксиса 'CXXFLAGS+=OPTIONS'.


URL: https://www.mail-archive.com/info-gnu@gnu.org/msg02558....
Новость: https://www.opennet.ru/opennews/art.shtml?num=49945

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от CHERTSemail (ok), 14-Янв-19, 12:14   +7 +/
>>Распознавание поддерживается только для символов из кодировок "ascii", "iso-8859-9" и "iso-8859-15" (поддержка кириллицы отсутствует).

Зачем это пoделие ? Почему в нем нельзя использовать тот де TesseractOCR ?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #2, #28, #29

2. Сообщение от Аноним (2), 14-Янв-19, 12:26   –6 +/
Ой, прости, тебя спросить забыли, когда проект начинали.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #3, #13

3. Сообщение от Тонкая (?), 14-Янв-19, 14:29   +5 +/
А ответить "слабо"? Или только тыкать способно?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

4. Сообщение от evkogan (?), 14-Янв-19, 15:40   +3 +/
Это поделие было когда teseract не было.
А вот зачем кто-то шевелит труп не знаю.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #21

5. Сообщение от Чювак (?), 14-Янв-19, 16:02   –1 +/
Это конечно интересно, но где кочать готовые .apk или .exe чтоб в 2 клика все работало.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #11

6. Сообщение от Аноним (6), 14-Янв-19, 16:36   +/
10 лет назад был худшим из распознавателей. Даже GOCR лучше. Не говоря уж о tesseract, cuneiform и коммерческих системах.

Зачем о нём вспомнили?

Ответить | Правка | Наверх | Cообщить модератору

7. Сообщение от Аноним (-), 14-Янв-19, 17:49   +/
Чем щас в Linux распознавать тексты? Есть аналог FineReader'а?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #9, #10, #14, #20

8. Сообщение от Аноним (8), 14-Янв-19, 17:59   +/
tesseract и гуи морда к нему
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #15

9. Сообщение от Аноним (6), 14-Янв-19, 18:12   +/
Был GUI к cuneiform. Без таблиц. Tesseract допилили, вроде, тоже без таблиц.

Несколько оффтопичных программ хорошо работали под Вайном, включая FineReader и ReadIris.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

10. Сообщение от KonstantinB (ok), 14-Янв-19, 20:02   +/
Есть Finereader Engine для linux, но цены там какие-то совсем неприличные.

Современный tesseract неплох, но под кириллицу требует тренировки (можно попробовать погуглить готовые модели).

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7 Ответы: #19

11. Сообщение от VINRARUS (ok), 14-Янв-19, 21:08   +1 +/
На торенте.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5

12. Сообщение от Аноним (12), 14-Янв-19, 21:11   +1 +/
> Передаваемые для распознавания изображения должны быть в форматах pbm, pgm или ppm.

Это шутка такая ?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #16

13. Сообщение от Анонзо (?), 14-Янв-19, 21:17   +/
Ой, не ты ли начинал то?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

14. Сообщение от Молчуныemail (?), 14-Янв-19, 21:28   +1 +/
YAGF — программа, предоставляющая графический интерфейс пользователя для систем оптического распознавания символов CuneiForm и Tesseract.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7 Ответы: #37

15. Сообщение от Enter Your Name (?), 14-Янв-19, 23:08   +4 +/
"В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей."

А чего в виде модулей, а не в базовой комплектации? И как понять развивается ли этот модуль или давно забили на него? Насколько хорошо распознается русские тексты и шрифты в Tesseract по сравнению с Finereader?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #25

16. Сообщение от Alexey (??), 14-Янв-19, 23:17   +3 +/
Ты чо, самые распространенные графформаты ... среди рептилоидов
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

17. Сообщение от Ponchik (?), 14-Янв-19, 23:19   +11 +/
Википедия показывает 5 основных СПО систем OCR:

1. CuneiForm

2. GOCR

3. Ocrad

4. OCRopus

5. Tesseract

Причем если 1 и 5 вроде как живые и шевелятся, то про 2 и 4 вообще непонятно, а 3 (тот что из новости) вроде ожившего мертвеца и распознает фигово.

Если кто-то может вкратце рассказать по каждой из 5 - был бы признателен (и не я один).


Так же есть 2 морды:

1. OCRFeeder (на GTK), последняя версия 2014 год

2. YAGF (на Qt), последняя версия 2015 год

Как видим, на GUI забили большой и толстый. Хороший GUI никому не нужен. Ну что могу сказать, с такой философией линукс на десктопе еще не скоро освоится. Не будет пользователь крaснoглaзить в консоли, хотя лично мне и консоль сойдет, лишь бы оно нормально распознавало. Но мало кто станет таким заниматься, это факт. Не жалуюсь, просто высказался по теме.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #18, #22, #30, #34

18. Сообщение от Виталий (??), 14-Янв-19, 23:29   +4 +/
> CuneiForm
> Последняя версия 1.1.0 (19 апреля 2011)

Настораживает. Из живых и активных я так понял только Tesseract от гугла. Небось уже зондов напихали или напихают, или сделают зависимым от онлайна/нейронки. :(

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

19. Сообщение от Аноним (19), 14-Янв-19, 23:32   +1 +/
Т.е. двигло за бабло они осилили, а морду нарисовать - нема? Уже вижу как домашний пользователь ковыряется с этим движком...
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10

20. Сообщение от Аноним (20), 15-Янв-19, 00:49   +/
Есть Wine.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

21. Сообщение от Аноним (-), 15-Янв-19, 03:02   +/
А как там Cuniform поживает? Есть в нем еще смсл, или Teserakt вобрал в себя все его наработки?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #24

22. Сообщение от AndrewR (?), 15-Янв-19, 06:40   +/
https://github.com/manisandro/gImageReader

"gImageReader is a simple Gtk/Qt front-end to tesseract-ocr." (gtk3/qt5)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

23. Сообщение от Адекват (ok), 15-Янв-19, 07:18   –8 +/
Мне кажется это как раз тот случай, который показывает почему софт бывает платным. Почему платный софт лучше бесплатного. Почему софт ДОЛЖЕН быть платным.
В целом, почему деньги "не зло" - деньги это эквивалент труда (в идеальной сферической вселенной), но и в нашем мире, чтобы сделать что-то действительно качественное и хорошее нужно затратить какое-то количество человеко-часов, которые должны быть ОПЛАЧЕНЫ, иначе все будет очень печально. Ну а хорошие платные вещи (в частности софт) будут стимулировать покупателей зарабатывать деньги - развиваться, становиться полезными обществу, расти как специалисты, становиться высокооплачиваемыми профи.
Если же рассмотреть противоположную ситуацию, доведенную  до абсурда - когда все  БЕСПЛАТНО, человек не будет развиваться, у него не будет просто причин, не будет мотивации, не будет желания расти как личность, и как специалист - все превратятся в апатичное, безвольное, безмозглое бухающее быдло. Все будут пить пиво, смотреть сериальчики, играть в компьютерные игры и тусить.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #26, #27, #33, #36

24. Сообщение от рпрп (?), 15-Янв-19, 08:16   +/
не развивается давно. Да тессеракт слабо юзабилен, т к нормальную оболочку к нему напиать забыли.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #21

25. Сообщение от рпрп (?), 15-Янв-19, 08:19   +/
распознает более менее, но на выходе plain text
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #15

26. Сообщение от рпрп (?), 15-Янв-19, 08:25   –1 +/
Если все будет бесплатно, то работать придется всем в 10 раз меньше, но пиво и сериальчики будут только твоего домашнего происхождения. Куда девать свободное время каждый решает по своему, кто-то будет делать софт, кто-то ничего не делать.
С бесплатным софтом есть хитрый нае**. Бесплатный софт общего назначения, его готов создавать каждый второй, но для решения спец задач сразу ценник космический (либо его нет под линь, что чаще сего бывает).
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23 Ответы: #35

27. Сообщение от mma (?), 15-Янв-19, 11:45   +/
>Мне кажется это как раз тот случай, который показывает почему софт бывает платным.

Это тот случай который показывает что бывает софт для эндюзера, а бы бывает для программистов которые интегрирую различный функционал в различные системы. Желание первых получить нахаляву замену платному софту понятно, но нежелание других делать это нахаляву для них еще понятнее.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23

28. Сообщение от Аноним (28), 15-Янв-19, 11:59   +/
когда какой-нибудь кениец запилит кириллицу в ocrad, начнет не хватать таблиц и старославянского, но ничего, индийский гуру-полиглот придёт на помощь
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

29. Сообщение от Аноним (29), 15-Янв-19, 11:59   +1 +/
>Зачем это пoделие ? Почему в нем нельзя использовать тот же ABBYY?

Исправил, не благодари.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

30. Сообщение от Аноним (6), 15-Янв-19, 15:04   +/
GOCR давно пригоден для распознавания английской капчи, но расширять его нереально, проще переписать с нуля. Вот на него и забили.

OCRopus -- исследовательский проект, который пилится каким-то профессором в свободное время. Для хорошего распознавания рекомендуется серый текст на серой бумаге.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

33. Сообщение от иисус (?), 16-Янв-19, 11:42   +/
Господи, вторая половина это прям про меня ;Ж))
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23

34. Сообщение от Gannetemail (ok), 16-Янв-19, 21:30   +/
>1. CuneiForm

Да, по степени говняности качества ПО, оно действительно на первом месте.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

35. Сообщение от Gannetemail (ok), 16-Янв-19, 21:34   +1 +/
А с платным софтом нет нет хитрого нае**? Докажи. На примере Шиндошs например. Нет никакого нае**, точно? Ты действительно в это веришь?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

36. Сообщение от Тот_Самый_Анонимус (?), 30-Мрт-19, 15:21   +/
>Адекват
>Почему платный софт лучше бесплатного.

Блендер смотрит на тебя, как на ГМО. К тому же, ник неправильно подобран.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23

37. Сообщение от Аноним (37), 05-Мрт-20, 18:24   +/
Падает, пока не сделана небольшая настройка.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2021 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру