OCR na stole i v terénu – současné prostředky pro rozpoznávání textu

Optické rozpoznávání znaků OCR (z anglického Optical Character Recognition) představuje technologii umožňující rozpoznání běžného textu v digitálním obrázku. Tato technologie ve spojení se skenerem či kamerou umožňuje digitalizaci vytištěných textů. Skenerem či kamerou je stránka vytištěného textu vyfotografována a v takto získaném digitálním obrázku jsou rozpoznány jednotlivé alfanumerické znaky i jejich rozmístění, čímž vznikne textový ekvivalent původní předlohy. S takto získaným digitálním textem je pak možno pracovat standardním způsobem v textovém editoru, tedy jej ukládat, editovat či formátovat. OCR systémy dnes mohou pracovat pod různými operačními systémy nejen na počítačích, ale též v mobilních zařízeních typu chytrých mobilních telefonů či tabletů.

OCR systémy mají dvě základní složky:

  • Engine – programové jádro, v němž je zakódován algoritmus rozpoznávání textu v obrazové předloze – Engine tak rozhoduje o kvalitě rozpoznaného obsahu.
  • Aplikační rozhraní – určuje způsob práce s OCR aplikací z hlediska jejího ovládání. Aplikační rozhraní tedy v neposlední řadě rozhoduje o její přístupnosti pro odečítače a jiné asistivní technologie v zařízeních, na nichž uživatel pracuje.

Nejpoužívanějšími enginy u nás pravděpodobně jsou:

OCR na stole i v terénu, vpravo lektor Milan Pešák

OCR na stole pro nevidomé

Uživatelé digitálních čtecích zařízení a jiných počítačových sestav používaných takto postiženými lidmi byli dlouhá léta zvyklí pro digitalizaci textů používat software ABBYY FineReader. Tento produkt byl z hlediska potřeb českých uživatelů dlouho nejkvalitnějším, protože uměl dobře pracovat s diakritikou a jeho chybovost v této oblasti byla ve srovnání s ostatními konkurenty zdaleka nejmenší. OCR FineReader byl do počítačových sestav pro osoby se zrakovým postižením instalován jako samostatná aplikace.

Ke změně začalo docházet v souvislosti s JAWSem verze 13, do níž byl poprvé v omezené míře včleněn také systém OCR. Takto bylo možné rozpoznat aktuální ovládací prvek, například grafické tlačítko, obrazové okno se zobrazeným letákem či kusem zobrazeného nečitelného souboru typu .pdf, nebo celou grafickou obrazovku u některých např. instalačních programů. Bylo to něco jiného, než rozpoznávání černotiskových či oskenovaných dokumentů; začaly se tu ukazovat možnosti integrace OCR enginu přímo do odečítače, což rozšířilo možnosti zpřístupnění aplikací nainstalovaných do systému Windows. Další kvalitativní posun přišel s JAWSem 16, který umožnil rozeznat celý „obrázkový“, tedy nečitelný, soubor typu .pdf nebo i dalších typů. Proces integrace OCR do odečítače dovršila verze JAWS 2018, do níž bylo integrováno také samotné skenování včetně ovládání skeneru či speciální dokumentové kamery nebo též rozpoznávání textu v grafickém souboru, který je právě označený v Průzkumníku Windows. Výsledky rozpoznávání se zobrazují v prohlížeči výsledků, který uživatelé JAWSu dobře znají i z jiných funkcí tohoto odečítače. Jeho ovládání je přirozené a naprosto jednoduché, lze v něm používat všechny běžné funkce, jako je označování kopírování atd. Navíc ve srovnání JAWSu 16 se současnou aktuální verzí 2018 udělal velký kvalitativní skok také engine Omnipage, jehož JAWS využívá, což zásadně vylepšilo kvalitu rozpoznávání z hlediska přesnosti a minimalizace chybovosti.

Pro úplnost zde uvedeme klávesové zkratky OCR funkcí integrovaných v odečítači JAWS 2018 (viz nápověda systému JAWS, téma „Rozpoznávání textů“).

  • JAWSKey+MEZERNÍK, O, A. Rozpozná předlohu nasnímanou kamerou nebo skenerem.
  • JAWSKey+MEZERNÍK, O, F. Rozpozná právě označený grafický soubor.
  • JAWSKey+MEZERNÍK, O, D. Rozpozná otevřený dokument PDF.
  • JAWSKey+MEZERNÍK, O, W. Rozpozná aktivní okno aplikace.
  • JAWSKey+MEZERNÍK, O, S. Rozpozná celou obrazovku
  • JAWSKey+MEZERNÍK, O, C. Rozpozná aktuální ovládací prvek, například grafické tlačítko.
  • JAWSKey+MEZERNÍK, O, Q. Zruší probíhající rozpoznávání.
  • JAWSKey+MEZERNÍK, O, SHIFT+LOMÍTKO na anglické klávesnici (neboli Shift+pomlčka na české klávesnici). Přečte krátkou nápovědnou zprávu, která popisuje dostupné příkazy ve skupině Rozpoznávání textu.

Jestliže snadné ovládání OCR integrovaného přímo do odečítače JAWS představuje značnou uživatelskou výhodu a jestliže kvalita rozpoznávání enginu Omnipage v JAWS a FineReader v aplikaci ABBYY Fine Reader je prakticky srovnatelná, je logické položit si otázku, zda je v současné době ještě užitečné využívat pro potřeby nevidomých uživatelů OCR aplikaci FineReader.

ABBYY FineReader, jako profesionální OCR aplikace, má některé funkce, které rozvíjejí možnost práce s černotiskovými dokumenty či grafickými soubory a přesahují možnosti OCR integrovaného do JAWSu. Asi nejvýznamnější je možnost zachování logického členění, stylů a formátování předlohy v rozpoznaném dokumentu. Fine Reader umožňuje skenování či konverze rozpoznaných dokumentů do různých typů souborů, jako například .pdf s možností vyhledávání, Microsoft Word, Microsoft Excel a dalších. Lepších výsledků dosahuje i při rozpoznávání vícejazyčných dokumentů. Za to všechno se ale platí komplikovanějším ovládáním v aplikačním rozhraní, které není stoprocentně zpřístupněno odečítačům. Pracovat s ním lze, ale vyžaduje to hlubší znalosti či zaškolení.

Avšak asi největší výhodou Finereaderu pro nevidomé uživatele je právě jeho schopnost ukládat naskenované dokumenty do .pdf s možností vyhledávání. Názorně a tudiž trochu nepřesně je možno říci, že tento formát pdf souboru uchovává jak obraz původního dokumentu, tak rozpoznaný text. Tato vlastnost umožňuje nevidomým uživatelům vést si vlastní digitální archiv černotiskových dokumentů a tedy v digitální podobě spravovat své písemnosti. Nevidomý člověk tak může uchovávat v jemu dostupné formě různá potvrzení, smlouvy, účty apod. Pokud s nimi potřebuje dále pracovat, např. někomu je poslat, dokument obsahuje obrazovou vrstvu, díky níž se běžným uživatelům zobrazuje jako originál včetně všech podpisů a jiných grafických objektů. Na druhé straně uživatel s odečítačem má snadno a rychle dostupný textový ekvivalent tohoto dokumentu, kde si může snadno připomenout jeho obsah. A to je pro samostatnost a nezávislost nevidomého člověka na pomoci jiných lidí naprosto zásadní.

Mluvící lupy

„Mluvící lupa“ – není to nelogický protimluv? Není, protože v rámci integrace asistivních technologií se i v běžných kamerových lupách objevily moduly umožňující přečíst zobrazovaný text hlasem. Jde o to, že zobrazovaný text je v čtecím režimu kamerových lup elektronicky upravován tak, aby se zvýraznil kontrast, potlačilo se zobrazení kazů papíru a pod., o přebarvování zobrazovaného textu nemluvě. Tyto funkce jsou stále častěji doplňovány také modulem OCR, který ve snímaném obraze rozpozná text. A je-li text rozpoznán, je již snadné nechat hlasovou syntézu, aby jej přečetla. A obtížné pak není ani doplnit základní funkce, které jsme znali již ze starých magnetofonů – posun v čteném textu vpřed či vzad, úpravu hlasitosti či tempa řeči. Na jarní Agoře 2018 jsme společně s Milanem Pešákem tyto funkce ukazovali na stolní lupě ClearView C Speech a na přenosné kamerové lupě s dotykovým displejem Compact 6 HD – obě lupy jsou z produkce nizozemské firmy Optelec.

Do kategorie mluvících lup můžeme zahrnout i kamerové lupy, které se připojují do portu USB v počítači. V počítači, přesněji v podpůrné aplikaci pro podporu kamerové lupy, pak běží některý ze standardních OCR enginů, o nichž jsme mluvili v úvodu. Toto řešení je mnohem flexibilnější a nabízí mnohem více a kvalitnějších uživatelských funkcí než jednoúčelové hlasové čtečky. Využívají jej například kamerová lupa ClearNote s aplikací Viewdio firmy Spektra a systém Image Reader firmy AiSquared.

Honza na workshopu OCR na stole i v terénu

Jednoúčelové čtečky pro nevidomé

Jednoúčelové čtečky pro nevidomé se na trhu objevují již více než 25 let. Tou první více rozšířenou v ČR byla čtečka Sunrise od stejného výrobce, který uvedl na trh legendární Euréku A4. Kvalita OCR enginu v této čtečce však nebyla pro rozpoznávání diakritiky v českých textech dostatečně vysoká a spolu s dalšími vlastnostmi tohoto zařízení (ne příliš srozumitelná hlasová syntéza, hmotnost, způsob ovládání, cena atd.) způsobila, že si zařízení příliš velkou oblibu nezískalo. Vývoj však šel dál, skenery nahradily kvalitní malé a rychlé dokumentové kamery a tak se na trhu objevily jednoúčelové čtečky vyšších generací, z nichž dnes je asi nejkvalitnější a nejrozšířenější čtečka ClearReader+. Největšími přednostmi této čtečky jsou kvalitní kamera 13Mpix s automatickým ostřením pro kvalitní rozpoznávání i silných knih, připojení externího monitoru či televize HDMI a hlavně jednoduché a logické ovládání na úrovni dřívějších kazetových magnetofonů. To je velkým přínosem zejména pro ty občany s těžkým zrakovým postižením, pro něž je ovládání počítače se všemi jeho funkcemi příliš složité a namáhavé. Tato složitost je od využívání moderní techniky odrazuje. Jednoduché čtečky jim naopak mohou oživit domácí knihovnu, která již dávno zapadla prachem. Mohou si přečíst knihy či časopisy dle svého výběru, korespondenci nebo třeba příbalové letáky k lékům.

Mobilní rozpoznávání – OCR v terénu

Jak jsme zmínili v úvodu článku, OCR aplikace pronikly také do mobilních zařízení, chytrých telefonů a tabletů. Nabízené aplikace je třeba posuzovat z hlediska kvality, neboť ta je velmi různorodá, dále podle toho, zda k svému fungování potřebují on-line datové připojení k specializovaným webovým serverům, které zajišťují konverzi digitálního obrázku (fotky) na řetězec textových znaků, nebo toto rozpoznávání probíhá autonomně, přímo v mobilním zařízení.

V současné době nejrozšířenější, neboť nejkvalitnější a nejpropracovanější, aplikací pro mobilní rozpoznávání tištěných a obrazových dokumentů v systému iOS je zřejmě aplikace KNFB Reader. Její výhodou je kvalitní OCR engine a jednoduché, plně přístupné ovládání v češtině. Rozpoznávání probíhá autonomně, není třeba být připojen k internetu. V nejnovějších verzích KNFB reader zvládá také rozpoznávání textů v obrazových/grafických souborech. Rozpoznané texty lze ukládat, sdílet a tedy editovat, posílat jiným uživatelům atd. Podrobnější popis aplikace i jejího ovládání lze najít v článkcích KNFB Reader a chytrý mobil jako čtečka tištěných textů pro zrakově postiženéKNFB Reader – čtečka tištěných předloh v mobilu, proto nebudeme opakovat, co již bylo napsáno. Zde se omezíme na několik poznámek k praktickému použití této i dalších mobilních aplikací pro rozpoznání tištěných textů.

O kvalitě rozpoznávání ve značné míře rozhoduje kvalita snímací kamery / fotoaparátu v mobilním zařízení. Moderní fotoaparáty opatřené funkcí stabilizace obrazu dávají podstatně kvalitnější výsledky než fotoaparáty starších typů. Proto má i pro nevidomého člověka význam kvalita fotoaparátu. Protože to na první pohled nebývá zřejmé, doporučujeme tuto skutečnost připomenout např. v žádosti o příspěvek na kompenzační pomůcku. Vždyť obecné mínění logicky říká: „Na co by byl nevidomému člověku kvalitní fotoaparát…!“

Druhým doporučením je minimalizovat faktor chvění a nepřesností plynoucích z držení mobilního zařízení při fotografování předlohy v rukou a dotyků při ovládání zařízení. K tomu mohou napomoci různé stativy a držáky telefonu nebo externí klávesnice. Umístíme-li mobilní zařízení do držáku nebo na pevnou plochu do pomocného stativu, jakým je např. ScanJig, nemusíme při každém otočení stránky či výměně předlohy opakovaně zaměřovat zorné pole mobilního zařízení. Jestliže je přitom snímání ovládáno na dálku z externí klávesnice nebo zařízením typu EasyLink či Rivo, pak se při fotografování mobilu nedotýkáme a z připravené polohy jej tedy nevychýlíme, což zlepšuje kvalitu digitální fotografie a tedy i rozpoznaného textu.

Aplikace KNFB Reader samozřejmě není jedinou OCR aplikací dostupnou v mobilních zařízeních. Při zvažování, jakou aplikaci si vybrat, budete jistě přihlížet k ceně aplikací. Aplikace KNFB Reader je placená; v App Store, případně v Google Store jsou k dispozici i jiné, bezplatné aplikace. Je však třeba si v jednotlivých případech ověřit, zda spolehlivě rozpoznají i český text s diakritikou, ovládání aplikace s anglickým rozhraním pro většinu uživatelů nepředstavuje zásadní problém. Je také třeba vědět, zda aplikace k rozpoznávání potřebuje on-line datové připojení; všichni ti, kdo využívají k psaní textů diktování je však zřejmě mají, a spotřeba dat při rozpoznávání obrazových dokumentů není dramaticky odlišná.



ABBYY FineReaderAgoraClearNoteClearReader+ClearView C SpeechCompact 6 HDImage ReaderJAWSKNFB ReaderOmnipageSpektraViewdio


Břetislav Verner
Jmenuji se Břetislav Verner. S nevidomými lidmi spolupracuji od počátku 80. let minulého století, kdy jsem vedl jejich pracovní tým v podniku Meta. Celý život mě zajímá fyzika, matematika a vše, co se týká IT a asistivních technologií. Ve volném...