Релиз системы распознавания текста Tesseract 4.0

31.10.2018 23:58

Опубликован релиз системы оптического распознавания текста Tesseract 4.0, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), PDF и TSV. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Система включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF.

Основные улучшения в Tesseract 4.0:

Новый движок распознавания, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Старый движок, распознающий текст на уровне шаблонов отдельных символов, продолжает поставляться в качестве опции. Альтернативный движок Cube удалён из кодовой базы;
Добавлены сопутствующие новому OCR-движку утилиты для тренировки модели машинного обучения. Готовые натренированные модели опубликованы для 123 языков;
Для нового движка распознавания подготовлены модули для оптимизации производительности при помощи OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1;
Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование", подразумевающей использование нотации X.Y.Z (вместо ранее используемой W.X.Y.Z), в которой X меняется при внесении изменений, нарушающих обратную совместимость, Y меняется при расширении функциональности и Z при исправлении ошибок.
Обновлена сборочная система. Для сборки теперь требуется компилятор с поддержкой C++ 11. Добавлены unit-тесты. Добавлен режим сборки без старого движка распознавания. Выполнена реорганизация дерева исходных текстов. Проведена чистка устаревшего кода;
Улучшена обработка многостраничных TIFF-изображений;
Улучшен экспорт в PDF.

исправить +35 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/49534-tesseract

Ключевые слова: tesseract, ocr

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (63)

1.5, Аноним (5), 02:32, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	–4 +/–
Версия для Windows есть?

2.9, Аноним (-), 03:03, 01/11/2018 [^] [^^] [^^^] [ответить]	+1 +/–
Внезапно, да -> https://github.com/UB-Mannheim/tesseract/wiki Мог бы и сам скомпилить, или не виндавз-вэй?

3.27, Аноним (27), 09:58, 01/11/2018 [^] [^^] [^^^] [ответить]	–3 +/–
Версия 4.0.0.20181030 на Windows XP установилась, но не работает. Справка не запускается. Пишет msvcrt.dll точка входа в процедуру не найдена. В версии 3.05.02-20180621 справка запустилась.

4.46, h31 (ok), 15:27, 01/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
Скорее всего собрано новыми версиями вижуал студии, где выбросили поддержку WinXP. У меня подобная ошибка повально встречалась на WinXP SP2, потому что в какой-то момент эту версию задепрекейтили в компиляторе. Но даже с SP3 сейчас очень много софта не будет запускаться.

4.49, Аноним (-), 15:53, 01/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
> msvcrt.dll Вангую, в системе отсутствует c++ redistributable runtime, скорее всего 2017. Скачать можно отсюда https://visualstudio.microsoft.com/downloads/ , но не факт, что на ХРю установится.

4.56, Аноним (56), 21:51, 01/11/2018 [^] [^^] [^^^] [ответить]	+4 +/–
>Версия 4.0.0.20181030 на Windows XP установилась, но не работает. Так бывает, когда используешь ОС 17-летней давности. Ты бы ещё на Red Hat Linux 7 (не путать с RHEL) попытался поставить.

5.59, Аноним (59), 08:03, 02/11/2018 [^] [^^] [^^^] [ответить]	–3 +/–
> Так бывает, когда используешь ОС 17-летней давности. Да так бывает. Но не совсем согласен с Вами. Windows XP без сервис паков и обновлений не поддерживала USB - это система как раз 17-летней давности. Но система развивалась и её поддержку прекратили 8 апреля 2014, так-что ей не 17 лет а меньше. Кроме того есть родственные версии Windows XP, которые поддерживаются до сих пор, например Windows Embedded. Windows XP попросту уничтожают. Я не отрицаю, что в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного, есть встроенная поддержка прозрачных тем.

6.60, lg (?), 08:42, 02/11/2018 [^] [^^] [^^^] [ответить]	+/–
>>есть встроенная поддержка прозрачных тем. уже нет =)

6.63, iPony (?), 11:20, 02/11/2018 [^] [^^] [^^^] [ответить]	–2 +/–
> Windows XP без сервис паков и обновлений не поддерживала USB Обман. Не поддерживала USB 2.0. А USB вполне. А так всё равно- 17 летняя ОС по архитектуре.

7.75, neit95 (ok), 18:48, 04/11/2018 [^] [^^] [^^^] [ответить]	+/–
По архитектуре она Windows NT, как и более современные Windows'ы.

6.64, Аноним (64), 11:38, 02/11/2018 [^] [^^] [^^^] [ответить]

+/–

>Windows XP попросту уничтожают

Да-да, это всё заговор!

>в более поздних версиях Windows нет ничего нового, хорошего, нужного, полезного, удобного

Улучшение безопасности, более-менее адекватный сэндбоксинг приложений, вынос многих драйверов в юзерспейс. Ничего полезного, да.

7.74, asdasd (?), 20:37, 03/11/2018 [^] [^^] [^^^] [ответить]	+/–
А заодно более убогие элеваторы процессов, I/O, неадекватный расход оперативки ни на что и неадекватное количество занимаемого места на винчестере.

8.78, scorry (ok), 12:46, 16/11/2018 [^] [^^] [^^^] [ответить]	+/–
Помню, как ко мне зашёл клиент и увидел на компе приглашение мс-дос 6 2 или 6 22... текст свёрнут, показать

6.65, Аноним (65), 13:47, 02/11/2018 [^] [^^] [^^^] [ответить]	+/–
USB винда поддерживает ещё с Windows 95 OSR2, для которой мелкомягкие специальную обнову выпустили. В Win98 и после неё - из коробки.

1.6, Аноним (5), 02:33, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
К новости не хватает скрееншотов.

2.38, Онаним (?), 12:52, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
Это чисто движок вроде, либа, интерфейс сделай сам.

1.7, Аноним (5), 02:43, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> Результат может сохраняться как открытым текстом, так и в форматах HTML, PDF и TSV. Недостаточно поддерживаемых форматов, ещё нужно хотя-бы .odt,, .rtf *.doc...

2.22, mikhailnov (ok), 08:10, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
От этого мало толку, т.к. нет нормального сохранения исходного форматирования текста.

3.50, Аноним (50), 16:31, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
А чем плох hOCR?

1.8, Аноним (5), 02:58, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
Tesseract 4.0 может распознавать текст на скрееншотах окошек программ, веб-страниц и т.п.?

2.11, Shevchuk (ok), 05:25, 01/11/2018 [^] [^^] [^^^] [ответить]	+7 +/–
https://i.imgur.com/uxab5b7.png

3.26, Аноним (26), 09:40, 01/11/2018 [^] [^^] [^^^] [ответить]	+1 +/–
Нормальный, конечно, результат, но такой чистый текст можно бы и получше распознавать. Бросаются в глаза на ровном месте съеденные пробелы, кривое определение совершенно нормальных букв. Возможно, на русском языке мало натренировали, но для сканов, например, я бы это пока не использовал.

4.34, Atterratio (ok), 11:32, 01/11/2018 [^] [^^] [^^^] [ответить]	+1 +/–
Я работал со старой версией программы, ей можно скармливать данные, и распознавание значительно улучшится.

4.47, h31 (ok), 15:30, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
Программы распознавания обычно затачивают под отсканированные изображения, где разрешение под 600 DPI. На обычном экране, где мало того, что всего лишь 96 DPI, да ещё и радуга из-за сглаживания, работать это будет плохо.

5.61, lg (?), 08:44, 02/11/2018 [^] [^^] [^^^] [ответить]	–2 +/–
с экрана боде тработать идеально, просто не адаптирована система. Символы пиксель в пиксель совпадают при одинаковом шрифте кегле и разрешении.

3.36, fske (?), 11:52, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
это у вас меню в заголовке окна?

4.44, Shevchuk (ok), 14:59, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
Да. Не то чтобы я большой любитель CSD, правда, скорее наоборот. Просто если уж оно впилено в приложение, результат принудительного отключения выглядит ещё хуже.

3.37, kknight (ok), 12:13, 01/11/2018 [^] [^^] [^^^] [ответить]	+1 +/–
у gImageReader есть нормальный Qt-интерфейс, вообще-то.

4.41, Shevchuk (ok), 14:52, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
О, спасибо, не знал. В репах Debian и Ubuntu только GTK, и пользуюсь я им настолько редко, что добавлять PPA ради этого, конечно, не буду : ) Обсуждение добавления Qt версии: https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=891414

3.42, Аноним (42), 14:53, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
А смесь русского и английского он умеет распознавать? Или "Немек Раскаага" неизбежен?

4.45, Shevchuk (ok), 15:17, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
Вообще да (и это было включено, см. кнопку "Распознать всё rus + eng" в заголовке окна), но в данном случае отработало оно на английских словах слабенько. Повторюсь, что запускаю я его крайне редко, и здесь никаких вообще приготовлений или настроек не делал: просто вставил скрин и распознал. Наверное, если её покормить данными, как выше пишет Atterratio, ситуация может улучшиться, но из коробки вот так.

5.66, Аноним (42), 16:54, 02/11/2018 [^] [^^] [^^^] [ответить]	+/–
FineReader 4 (с другими не работал почти) умел объединять языки в любых комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не риторический, серьёзно хочу понять, какие есть принципиальные отличия.) Раз уж речь об ФР, умеет ли Тессеракт руководствоваться при распознавании системами проверки орфографии и грамматики? То есть из нескольких вариантов выбирать слово, проходящее проверку Hunspell и LanguageTool?

6.68, Ю.Т. (?), 22:13, 02/11/2018 [^] [^^] [^^^] [ответить]

–1 +/–

> FineReader 4 (с другими не работал почти) умел объединять языки в любых
> комбинациях. И распознавало нормально. В чём проблема для Тессеракта? (Вопрос не
> риторический, серьёзно хочу понять, какие есть принципиальные отличия.)

Давно я очень работал с ФР, но помню, что и он путался в многоязычном тексте. Тессеракт умеет обрабатывать многоязычный, но сбивается в случаях слов, допускающих разл. толкования. Делу помогло бы наличие словарной проверки (о которой далее была речь) или, скажем, произвольного указания стат. весов для выбора в таких случаях, но этого то ли нет, то ли готового нет.

А вообще Тессеракт 4-й серии это приятнейшее открытие в СПО последних двух с лишним лет. Изрядно помогает в работе.

6.77, GenuZ (?), 15:56, 15/11/2018 [^] [^^] [^^^] [ответить]	+/–
Последние несколько файнридеров распознают на странице то, чего там нет. Находят дефекты бумаги, дырки от дыроколов, мелкую рукописную пометку, подчёркивание и прочее. И всё это пытается обратить в печатный текст. И хрен бы с ним, что получается плохо - он делает это в виде "надписей" (читай фрейма с текстом, поверх основного текста). Или они начинают пытаться повторять форматирование 1 в 1. Но получается половина текста в заголовке так, половина эдак. Текст нормально распознаёт, но начинает выдумывать форматирование. Это всё черррртовски сложно потом удаляется, форматируется, приводится в состояние plain-text (так как смешивается текст с мусором) и т.д. Так что я с нетерпением жду, когда тессеракт станет чуточку лучше в мелочах, ибо основной свой функционал он уже умеет достаточно неплохо. Проблема больше даже во внешних gui, которые пор юзабилити надо бы допилить немного.

4.71, Led (ok), 00:40, 03/11/2018 [^] [^^] [^^^] [ответить]	+4 +/–
> смесь русского и английского Это как - английский со скрепами?

5.76, Аноним (42), 13:37, 07/11/2018 [^] [^^] [^^^] [ответить]	–2 +/–
Это как на скриншоте выше по дереву: https://www.opennet.ru/openforum/vsluhforumID3/115708.html#11

2.18, Ю.Т. (?), 07:27, 01/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
Может, и не только. В целом серия 3 была ещё так себе, но серия 4 в бетах и предвыпусках, т.е. минимум с 2016, это вполне достойный инструмент. Из минусов: может сбиваться на обработке нетривиальной вёрстки полосы (две колонки текста, таблицы). Обучение (в частности новым буквам) документировано очень запутанно. Неудобный трекер (но сейчас-то гуглоплюс придётся сменить?..).

1.10, iPony (?), 04:16, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
А гуля то нет. Был YAGF, но Qt4

2.12, Shevchuk (ok), 05:26, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
gImageReader

3.14, Аноним (14), 06:49, 01/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
gImageReader не работает на macOS

4.15, ryoken (ok), 06:58, 01/11/2018 [^] [^^] [^^^] [ответить]	+6 +/–
МакОС ненужен

5.24, Qwerty (??), 09:25, 01/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
Вопрос не в ненужности, а в том, кросплатформенный ли софт, который называют кросплатформенным?

6.39, Клыкастый (ok), 12:55, 01/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
собери/напиши - будет. пока никому не нужно, получается

6.62, lg (?), 08:48, 02/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
кросплатформенный - это тот который работает на каких-то двух платформах, например на винде и на андроид =)

2.19, Аноним (19), 07:52, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-Б─⌠-3rdParty

2.21, mikhailnov (ok), 08:09, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
Gimagereader-Qt

1.16, ryoken (ok), 06:59, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Распознаётся ли набранное левой задней ногой после пьянки?

2.25, Аноним (25), 09:31, 01/11/2018 [^] [^^] [^^^] [ответить]	+4 +/–
Да, но распознан будет на основе нейронных сетей построенных на куриных мозгах и ответ будет написан "как курица лапой!" ;)

2.30, meequz (ok), 10:31, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
Зачем распознавать набранное?

2.33, Аноним (33), 10:58, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
Ох, ещё бы про член вспомнил.

1.28, Аноним (28), 10:07, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
>Осуществлён переход к нумерации версий в соответствии со спецификацией "Cемантическое версионирование", подразумевающей использование нотации X.Y.Z Ну наконец то хоть в одном проекте адекваты.

2.32, Аноним (33), 10:56, 01/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
И чё? Как-будто версии, например, ядра не в формате X.Y.Z : 4.14.78, 4.18.16 Или GCC : 7.3.0

1.29, Аноним (27), 10:13, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Это правильная команда для сохранения в текстовый файл? tesseract phototest.tif phototest txt

2.40, Клыкастый (ok), 12:58, 01/11/2018 [^] [^^] [^^^] [ответить]	+3 +/–
уже бы прочёл ман, выхлоп tesseract --help, запустил и точно бы знал.

1.43, Аноним (42), 14:55, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Что с распознаванием таблиц? Не собираются этим заниматься?

2.48, Shevchuk (ok), 15:34, 01/11/2018 [^] [^^] [^^^] [ответить]	+1 +/–
Есть Tabula (открытое ПО для извлечения данных из таблиц), они хотели бы, но сейчас ресурсов на это нет: https://github.com/tabulapdf/tabula/issues/409 — но там в обсуждении есть другие заинтересованнные в этом функционале лица и компании, в том числе готове финансировать разработку. Со стороны Tesseract тоже нужна поддержка: https://github.com/tesseract-ocr/tesseract/issues/1714 Ещё есть вот такое: https://github.com/UW-Deepdive-Infrastructure/table-extract

2.51, zeronet (ok), 18:53, 01/11/2018 [^] [^^] [^^^] [ответить]	+/–
Все таки не забросили проект ... Маст хев. Еще в 2000-х тысячных пытался пользоваться... Но с русским тогда не особо дружили разработчики

3.67, Кккк (?), 20:18, 02/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
С русским из коробки и сейчас не очень, чтобы получить хоть какой-Нить приемлемый результат в реальных документах нужно много поучить, да и резальщик не очень.

1.52, lol (??), 19:53, 01/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков.

2.54, Аноним (54), 20:03, 01/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
В прошлой версии был кошмар.

2.57, Ю.Т. (?), 21:57, 01/11/2018 [^] [^^] [^^^] [ответить]	–1 +/–
> Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые > и вёрстка без изысков. Серия 4 неплохо, справляется с различием "длинного с" и "f", хотя некоторые сканы приходится масштабировать и подкручивать гамму. Нормально проходит размер растра примерно 2500 на 3600 точек на лист А4.

2.79, t_cirkla (?), 00:51, 19/12/2018 [^] [^^] [^^^] [ответить]	+/–
> Как оно в сравнении с FineReader? При условии, что сканы хорошо читаемые и вёрстка без изысков. Как? Всё, что не FineReader, до сих пор не умеет сохранять форматирование отсканированного текста.

1.73, werter (??), 18:45, 03/11/2018 [ответить] [﹢﹢﹢] [ · · · ]	+/–
OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched https://github.com/jbarlow83/OCRmyPDF

игнорирование участников | лог модерирования

Добавить комментарий

Текст: