23.11.10

Онлайн-сервіси для розпізнавання тексту

Нины розпізнавання тексту можна довірити навіть онлайновим сервісам, переваги яких перед звичайними настільними додатками очевидні - не потрібно витрачатися на дороге програмне забезпечення та витрачати час на установку програми. Нарешті, використовуючи для розпізнавання онлайнові засоби, можна отримати редагований текст з знімка навіть на таких комп'ютерах, де просто немає можливості встановлювати програми, наприклад, на публічному ПК в бібліотеці.

FineReader Online


Сьогодні це додаток можна вважати одним з найкращих варіантів OCR. Причин успішного просування цієї програми дуже багато. Перш за все, це відшліфований алгоритм ідентифікації друкованих символів. Движок самої популярної системи оптичного розпізнавання тексту, FineReader, удосконалювався роками, механізм аналізу зображення поліпшувався від версії до версії. У програму вносилися різні зміни та покращення, які зменшували кількість нерозпізнаних або некоректно певних символів при обробці сканованого зображення. FineReader включає в себе безліч способів і допоміжних інструментів, які дають можливість виконати тонку настройку програми, поліпшити якість вихідного зображення, визначити тип розпізнаються символів, встановити області для обробки і т.д.

Онлайновий сервіс є безкоштовним проектом, який дає можливість користувачам оцінити точність роботи FineReader. Одне з його головних достоїнств - підтримка великої кількості мов (всього є 37 мов). Для того щоб скористатися сервісом, необхідно пройти реєстрацію. Оскільки цей проект носить частково рекламний характер, можливості розпізнавання тексту в ньому істотно обмежені.




По-перше, аналіз зображення відбувається в повністю автоматичному режимі. Користувач може лише вказати мову розпізнавання і включити опцію, яка дозволить отримати посилання на результат розпізнавання на зазначену адресу електронної пошти. По-друге, обсяг файлу, який завантажується на сервер, не повинен перевищувати 10 мегабайт. Але найнеприємніше обмеження - невелика кількість документів, яке можна розпізнати. Зайшовши під одним обліковим записом, можна обробити не більше десяти файлів. Однак і це, погодьтеся, непогано.

FineReader Online може також обробляти тексти, що містять будь-які комбінації підтримуваних мов. При цьому сервіс не дозволяє вибирати більш трьох мов розпізнавання для одного документа. Розробники мотивують це тим, що подібна функція істотно уповільнила б процес розпізнавання тексту. Готовий результат розпізнавання тексту може бути збережений в один з форматів - MS Word (.doc), MS Excel (.xls), PDF, RTF і TXT.

ocrNow!

Британський сервіс, який також використовує в якості системи для розпізнавання тексту FineReader. Уже на етапі реєстрації можна вибрати формат, в якому за замовчуванням будуть збережені дані - RTF, PDF, XLS, XLM, TXT або Web Archive. Змінити формат можна при завантаженні кожного нового файлу. Крім цього, є можливість отримати текст поштою. Варто відзначити, що результати можуть бути запаковані в ZIP-архів, завдяки чому час на завантаження отриманого файлу скоротиться.

Сервіс підтримує завантаження зображень у форматах TIF, PNG і JPG (JPEG), а також PDF. Крім цього, можна завантажити ZIP-архіви, що містять файли підтримуваних типів, і вони будуть розпаковані і оброблені автоматично. ZIP-архів зручний не тільки тим, що дозволяє зменшити розмір файлів, які потрібно завантажити на сервер, але і тим, що завдяки йому можна завантажити декілька файлів за один раз.

ocrNow! працює з шістнадцятьма мовами, в тому числі з документами російською, англійською, французькою, чеською, іспанською, італійською. Вибір мови здійснюється при завантаженні файлу. Навіть якщо не вказати мову, сервіс спробує визначити його автоматично, правда, не виключено, що він помилиться, тому краще все-таки вибрати мову вручну. Варто зауважити, що вибрати можна лише одну мову.

Кожному зареєстрованому користувачу надається два безкоштовнs кредитb, які можна використовувати для розпізнавання двох сторінок формату A4. Якщо необхідно працювати з великою кількістю даних, необхідно купити кредити. Їх вартість залежить від того, скільки кредитів ви вирішите придбати за один раз.

Творці сервісу пропонують спеціальну утиліту, що дозволяє використовувати його разом з Apple iPhone. За допомогою цієї програми можна фотографувати документи, а потім відсилати їх на сервіс і отримувати результати. Безкоштовна версія цієї програми дає можливість обробити 10 фотографій, а комерційний варіант, який знімає це обмеження, обійдеться в 14 дол/

Користувачам, які часто звертаються до послуг сервісу зі свого настільного комп'ютера, пропонується завантажити утиліту Unimessage Solo, призначену для сканування файлів. Особливість цієї програми в тому, що в ній реалізована інтеграція з сервісом ocrNow! Крім цього, створені за її допомогою файли можна завантажити на Facebook.

OnlineOCR.ru

Даний сервіс є комерційним. Для роботи з ним необхідно купувати кредити, кожен кредит - можливість розпізнавання однієї сторінки документа. Однак навіть у демонстраційному режимі з його допомогою можна перекладати невеликі фрагменти тексту.

Сервіс пропонує дуже зручнt завантаження файлів - на сервер можна завантажувати одночасно кілька зображень, упакувавши їх в ZIP-архів. Максимальний розмір файлу - 20 мегабайт, але можна використовувати і файли більшого розміру, однак для отримання такої можливості необхідно зв'язатися з адміністрацією сервісу. В якості вихідного формату графічного файлу можна використовувати TIFF (підтримуються в тому числі і багатосторінкові документи), JPEG / JPG, BMP, PCX, PNG, GIF, PDF.

Якщо за допомогою даного сервісу розпізнається багатосторінковий документ, наприклад, PDF, можна вказати тільки окремі сторінки для розпізнавання. Для цього в настройках розпізнавання необхідно встановити прапорець навпроти "багатосторінковий документ" і в полі для діапазону сторінок вказати необхідні сторінки через кому (або діапазон сторінок через дефіс). Якщо вказати, скажімо, "4,13", сервіс розпізнає тільки четверту й тринадцяту сторінки.

У демонстраційному режимі сервіс OnlineOCR.ru розпізнає не весь текст, а тільки його частину. Усього сервіс підтримує 28 мов, включаючи російську, англійську, білоруську, угорську, голландську, грецьку, датську, іспанську, латвійську та ін. Сервіс дозволяє зберігати файли з результатом розпізнавання у віртуальному робочому кабінеті online, редагувати, відправляти їх поштою і виводити на друк.

NewOCR.com

Проект NewOCR.com не вимагає ні реєстрації, ні додаткових грошових витрат з боку користувача. Сервіс має мінімалістичний інтерфейс, і його настройки зводяться до вибору мови. Якщо завантажене зображення має неправильну орієнтацію, наприклад, повернене в процесі сканування на 90 градусів, у випадаючому меню сервісу можна встановити кут повороту картинки. Якість обробки графічного файлу залишає бажати кращого - кінцевий документ містить численні помилки розпізнавання, тому навряд чи варто використовувати цей сервіс для обробки великої кількості сторінок. Цей недолік дещо пом'якшує та обставина, що проект підтримує роботу з 29 мовами (включаючи російську).

Розпізнавати можна зображення у форматах JPEG, PNG, GIF, BMP, а також багатосторінкові файли TIFF. Розмір файлів не повинен перевищувати п'ять мегабайт, а для багатосторінкових PDF-документів ліміт становить 20 мегабайт. Після обробки відсканованого зображення сервіс продемонструє результат в окремому полі, поряд з копією завантаженого зображення. Розпізнаний текст можна експортувати у формат. Doc або. Txt.

Free-OCR.com

Цей сервіс можна використовувати безкоштовно, причому реєстрація не потрібна. Для захисту від спаму використовується контрольне зображення (Captcha).

Однак, вибравши цей сервіс для обробки своїх файлів, слід враховувати обмеження, які стосуються оброблюваних зображень. Так, розмір завантажуються на сервер файлів обмежений двома мегабайтами. Ще одне обмеження сервісу, яке стосується завантаження, - дозвіл кожного з графічних зображень не має перевищувати 5000 точок по ширині. Крім цього, Free-OCR.com встановлює ліміт на кількість оброблених документів. У годину можна завантажити не більше десяти зображень.

На даний момент сервіс не вміє розпізнавати багатосторінкові документи PDF або TIFF, тому при обробці таких файлів розпізнається тільки перша сторінка. Сервіс дозволяє обробляти сторінки з численними стовпцями тексту. У налаштуваннях Free-OCR.com не можна вибрати більше однієї мови, тому, якщо спробувати розпізнати, наприклад, російський текст з англійськими термінами, помилок буде предостатньо. Загальна кількість підтримуваних мов, які можна вибирати для розпізнавання, досить багато - 29, в тому числі і російська. Якість розпізнавання документів задовільна.

Висновок

Якщо ви користуєтеся подібними засобами лише час від часу, то варто спробувати обійтися повністю безкоштовними сервісами.

1 коментар:

  1. Додайте сервiс http://img2txt.com скоро буде додано iнтерфейс з рiдною мовою)

    ВідповістиВидалити

Related Posts Plugin for WordPress, Blogger...