The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

WatchOCR - LiveCD для развертывания серверов распознавания отсканированных документов

23.07.2010 12:54

Началось бета-тестирование проекта WatchOCR, в рамках которого подготовлен основанный на Knoppix LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов. Контроль за прогрессом выполнения операций и настройка параметров дистрибутива осуществляется через web-интерфейс. Размер iso-образа 654 Мб.

Дистрибутив очень прост в настройке и позволяет с минимальными усилиями (достаточно просто загрузить диск и настроить сетевое соединение) создать сервер, преобразующий PDF с изображениями отсканированных страниц в PDF с данными в текстовом представлении, для которых можно выполнять операции поиска внутри документа. После загрузки в web-интерфейсе определяются две директории - одна для входящих и одна для преобразованных документов. Вместо локальных директорий поддерживается монтирование удаленных Windows ресурсов. Пользователю достаточно скопировать PDF или изображение во входящую директорию, после чего дистрибутив проведет распознавание и поместит документ с распознанным текстом во вторую директорию.

Для распознавания в дистрибутиве используется OCR Cuneiform, для разбора и формирования PDF - ExactImage, для навигации по сетевым SMB-разделам - xsmbrowser. Для совмещения OCR, инструментов для работы с PDF и общей организации процесса обработки задействован собственный набор скриптов, который, наряду с кодом web-интерфейса, распространяется в рамках лицензии GPL.

  1. Главная ссылка к новости (http://linux.slashdot.org/stor...)
  2. OpenNews: Первый стабильный релиз системы распознавания текстов Cuneiform 1.0
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/27399-ocr
Ключевые слова: ocr, pdf, text, convert, Cuneiform
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (15) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 13:28, 23/07/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    IMHO, именно тот пример когда создание нового дистрибутива на 100% оправдано. Давно искал такую самодостаточную штуку для сканирования.
     
     
  • 2.2, Аноним (-), 13:39, 23/07/2010 [^] [^^] [^^^] [ответить]  
  • –1 +/
    угу
    вот только для сканирования она сканировать не умеет
     

  • 1.3, Аноним (-), 13:53, 23/07/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    как там с кириллицей дела обстоят?
     
     
  • 2.6, Михаил (??), 14:32, 23/07/2010 [^] [^^] [^^^] [ответить]  
  • +/
    С кириллицей, судя по движку, все в порядке. А вот что оно со сложным форматированием и таблицами сделает -- вопрос. Виндовый кунейформ ни чего хорошего с таблиц не отдавал, только с простыней текста на отлично справлялся.
     
     
  • 3.12, DocMan (?), 16:43, 23/07/2010 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Суть в том, что PDF (image) преобразуется в PDF (image + текст "поверх" растрового) для возможности полнотекстового поиска. В данном случае распознавание сложной верстки документов не так важно, ИМХО.
     
  • 3.15, DocMan (?), 13:36, 25/07/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Проверил работу WatchOCR "из коробки" на выборке документов (кириллица/латиница) с различного уровня сложностью верстки (от двухколоночного текста, до форм счетов-фактур из 1С). На выходе, как и следовало, появляются PDF в том же виде, что и оригинальный скан. Текст можно выделять и копировать. С кириллицей (с предустановленными настройками дистрибутива) проблемы, Cuneiform не определяет ее, выдавая "06'+ecTBQ C QJPaHRVBHHOQNT B8TBTBBHHOC" вместо "Общество с ограниченной ответственностью" (пример). С распознаванием латиницы тоже не все радужно. Но все это решаемо, интересно было, как оно работает при поставка "как есть". Надеемся, что проекты Cuneiform и WatchOCR будут развиваться.

    P.S. А по поводу "дистр это жирно, нужны скрипты установки", автор над этим работает, во всяком случае .deb пакет на оффсайте есть.

     
  • 2.7, KERNEL_PANIC (ok), 14:33, 23/07/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Вроде как все пучком. Нужно только относительно хорошее разрешение скана и что бы не было художественных шрифтов.
     

  • 1.4, KERNEL_PANIC (ok), 13:54, 23/07/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    При наличии прямых рук и холодной головы это можно на любом дистре сделать.
     
     
  • 2.8, User294 (ok), 14:45, 23/07/2010 [^] [^^] [^^^] [ответить]  
  • +/
    >При наличии прямых рук и холодной головы это можно на любом дистре сделать.

    Да, когда встает вопрос "вам шашечки или ехать" - почему-то вылезает очередной Вася из своего гаража и предлагает собрать вам автомобиль. За всего 2 недели, заметьте. Зато именно такой как вы хотели с точностью до винтика. Вот только если надо было например на самолет - небольшая проблема состоит в том что он две недели ждать не будет.

     

  • 1.5, Анон (?), 14:04, 23/07/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для этих целей.

     
     
  • 2.9, zazik (ok), 14:56, 23/07/2010 [^] [^^] [^^^] [ответить]  
  • +/
    >Вообще, да, ставить для этого отдельный ос жирновато. Реквестирую готовых скриптов для
    >этих целей.

    Скачай дистр и выпили оттуда.

     
  • 2.11, sHaggY_caT (ok), 16:22, 23/07/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Можно и на виртуалку...
     

  • 1.10, анонимиус (?), 15:51, 23/07/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    >Размер iso-образа 654 Мб.

    =O

    >задействован собственный набор скриптов

    Пара строчек на баш?

    Куда катится мир..

     
     
  • 2.13, Аноним (-), 23:41, 23/07/2010 [^] [^^] [^^^] [ответить]  
  • +/
    К одной кнопке
     

  • 1.14, ziceptor (?), 04:19, 24/07/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Отдельная ОСь.. Баш... Это полезная вещь!
    LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов.
     
     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру