AI Content Describer – umelá inteligencia pre NVDA

Popis obrázkov prostredníctvom AI je trendom najmä v mobilných aplikáciách. Pre čítač NVDA máme k dispozícii zatiaľ len doplnok s názvom AI Content Describer. Ako sa s ním pracuje?

Na uvedenie doplnku do funkčného stavu budete potrebovať používateľské skúsenosti a trošku trpezlivosti. Za postup ďakujem spoluautorovi tohto článku, môjmu kamarátovi a kolegovi Lukášovi Hosnedlovi, ktorý okrem toho, že je odborníkom na prístupnosť, je nadšencom aj do hier a autorom blogu 4Sense Gaming.

Inštalácia a spustenie

AI Content Describer nainštalujete buď z oficiálneho repozitára doplnkov pre NVDA, alebo od verzie 2023.2 z Katalógu s doplnkami – NVDA > Nástroje > Katalóg s doplnkami. Detailný postup inštalácie doplnkov nájdete napríklad v mojom predchádzajúcom článku Ako na dotykové ovládanie pomocou čítača NVDA.

Aby doplnok správne fungoval, je potrebné získať API kľúč a predplatiť si akoby kredit, z ktorého sa pri každom rozpoznaní určitá čiastka strhne.

Secret API Key

  • Otvoríte si v prehliadači web platform.openai.com a tu kliknete na tlačidlo Login.
  • Ponúkne vám viacero možností prihlásenia. Stránka je dostatočne prístupná, všetky dôležité tlačidlá a formulárové polia majú zrozumiteľné popisy a dajú sa ovládať z klávesnice.
    • Pokiaľ chcete, môžete kliknúť na tlačidlo Continue with Google, respektíve Microsoft alebo Apple. Tým pádom sa k platforme OpenAI budete prihlasovať svojým používateľským účtom u daného poskytovateľa. Samozrejme, je otázkou osobnej preferencie každého používateľa, kto dá väčší dôraz na pohodlie a kto na súkromie. Všetky varianty sú v každom prípade rovnako bezpečné.
    • Ak ste sa rozhodli prihlasovať svojím účtom u niektorého zo svetových technologických gigantov, budete musieť iba potvrdiť svoju totožnosť (zadaním hesla alebo pomocou dvojfaktorovej autentifikácie) a povoliť aplikácii OpenAI prístupové práva. Tento postup sa pochopiteľne líši podľa zvoleného typu účtu, ktorým ste sa rozhodli prihlasovať. Ale v princípe je pri všetkých typoch účtov podobný.
    • Pri klasickom prihlásení e-mailom a heslom záleží na tom, či ste si v minulosti už vytvorili používateľský účet priamo v OpenAI napríklad kvôli ChatGPT. Pokiaľ áno, stačí do príslušného poľa vyplniť svoj e-mail a aktivovať tlačidlo s popisom Continue bez názvu niektorej externej spoločnosti. Na ďalšej stránke potom podobným spôsobom vyplníte a potvrdíte ešte svoje heslo. Ak v OpenAI účet nemáte, stačí kliknúť na odkaz Sign up a vyplniť a potvrdiť prístupným spôsobom registračný formulár.
  • V ďalšom kroku by ste sa mali dostať na stránku s názvom Overview – OpenAI API (https://platform.openai.com/docs/overview). Tu kliknete na odkaz API keys.
  • Na otvorenej stránke aktivujete tlačidlo Create new secret key.
    V dialógu, ktorý sa objaví, môžete do políčka Name uviesť nejaký názov, prostredníctvom ktorého budete rozlišovať účel API kľúča (Lukáš vo svojom prípade vyplnil „NVDA image describer“). Prepínač Permissions ponecháte v predvolenej polohe All. Nakoniec kliknete na tlačidlo Create secret key.
  • Ďalej sa objaví stránka s políčkom iba na čítanie, v ktorom máte svoj novo vytvorený API kľúč. Je potrebné ho skopírovať do schránky. Najjednoduchšie to dosiahnete aktivovaním tlačidla Copy hneď pod týmto poľom.
  • Skopírovaný kľúč potom vložíte do poľa OpenAI API key v nastaveniach doplnku AI Content Describer: Ponuka NVDA > Možnosti > Nastavenia > záložka AI Content Describer > prvé editačné pole v záložke. Nakoniec na stránke API Keys – OpenAI API kliknete na tlačidlo Done.

Kúpa kreditu pre doplnok

Ako som spomenula vyššie, aby doplnok správne fungoval, je potrebné si zakúpiť „kredit“, z ktorého sa pri každom úspešnom, ale aj neúspešnom pokuse o rozpoznanie a opis obrázka strhne určitá čiastka. Doplnok bude fungovať, kým budete mať dostatok kreditu.

  • Na webe OpenAI API sa presuňte na stránku Usage. Tu uvidíte skôr neprístupný graf financií, ktoré ste na účet vložili v minulosti, resp. kredit, ktorý ste si kúpili. Ďalej tu nájdete výšku zostávajúceho kreditu a jeho platnosť. Prístupnejším spôsobom tieto informácie zistíte v prvej tabuľke na stránke.
  • Pri dokupovaní kreditu kliknete na stránke Usage na odkaz Increase limit > Buy credits.
    • Tu uvidíte pod nadpisom Pay as you go zrozumiteľne uvedené, koľko kreditu vám ešte zostáva.
    • Ak kupujete kredit prvý raz, čo budete musieť urobiť bezprostredne po získaní API kľúča, aby doplnok AI Content Describer mohol fungovať, aktivujete tlačidlo Add payment method, pokiaľ je dostupné. Ak nie je, najprv aktivujete odkaz Add or change payment method, až potom sa objaví príslušné tlačidlo.
    • V záverečnom dialogu už budete do klasického formulára s prístupnými poľami zadávať údaje svojej platobnej karty. Okrem platobných údajov je potrebné povinne a pravdivo vyplniť ešte pole Name on card, inak sa môže stať (v závislosti na vašej banke a jej interných procesoch), že vám kartu pre túto platbu neschváli.
    • Ostatné osobné údaje (adresu atď.) môžete vyplniť v podstate ľubovoľným textom. Ako píše Lukáš: „Můžete zde být i kreativní a vyjádřit vyplněnými údaji, co si myslíte o tom, že tato platební brána jich chce sbírat tolik, pokud chcete. Pro mě osobně je to docela oblíbená forma zábavy a rebelie.“
  • Na stránke Billing overview, na ktorú sa dostanete odkazom Buy credits, si následne môžete cez tlačidlo Enable autorecharge prípadne nastaviť automatické dokupovanie kreditu o preddefinovanú čiastku, ak sa priblížite k jeho vyčerpaniu. Ak budete chcieť v budúcnosti kredit dokupovať radšej ručne a už ste predtým pridali nejakú platobnú metódu a aspoň raz si úspěšne kúpili kredit, bude stačiť kliknúť na tlačidlo Add to credit balance.

Nastavenia AI Content Describer

Po inštalácii je vhodné pozrieť si nastavenia doplnku cez NVDA > Možnosti > Nastavenia > Ai Content Describer.

  • OpenAI API key – tu vložíte pri inštalácii získaný API kľúč , postup je vyššie.
  • Prompt – pokyn, na základe ktorého doplnok popíše obrázok. Je možné ho z angličtiny prepísať do slovenčiny, potom dostanete priamo opis v slovenskom jazyku. Po reštarte NVDA však prompt bude opäť v angličtine.
  • Reset prompt to default – týmto vrátite prompt do pôvodnej podoby, ako bol pri inštalácii.
  • Maximum tokens – vhodné je nastaviť aspoň 1000. Tým zabezpečíte, že odpoveď od AI nebude odseknutá, pretože pri doplnkoch tohto typu nemôžete klásť doplňujúce otázky.
  • Open each result in browseable dialog – pomocou tohto začiarkavacieho políčka určujete, či sa popis obrázku otvorí v dialógovom okne, ktoré si môžete prezerať. Odporúčam vzhľadom na rozsiahlosť popisu.
  • Remember/cache descriptions of each item to save API quota – zapamätanie / uloženie popisu každej položky do vyrovnávacej pamäte, aby sa ušetrila kvóta API – toto políčko je vhodné začiarknuť.
  • Seconds to wait for a response before timing out – koľko sekúnd má doplnok čakať pred tým, ako uplynie časový limit a popis bude neúspešný – vhodné je nastaviť aspoň 30 sekúnd a aj tento limit je často krátky.
  • Optimize images for size, may speed up detection in some situations (experimental) – experimentálna funkcia, kedy sa AI Content Describer pokúsi optimalizovať veľkosť obrázka, čo môže zrýchliť popis.

Ako to funguje

V podstate je veľmi jednoduché s doplnkom pracovať. Po nainštalovaní, sprevádzkovaní a nastavení stačí stlačiť skratku NVDA+SHIFT+I a z kontextovej ponuky vybrať jednu možnosť:

  • Entire screen – popis celej obrazovky,
  • Current focus – aktuálne zameranie,
  • Navigator object – navigačný objekt, využijete, ak sa potrebujete pohybovať pomocou objektovej navigácie.

Výsledok popisu sa otvorí v dialógu, kde si popis môžete prezerať a pracovať s textom štandardným spôsobom.

Nižšie uvádzam rozdiely v popise po zvolení jednotlivých položiek. Pre popis použijem pracovnú plochu môjho počítača.

Entire screen – celá obrazovka

Tento obrázok zobrazuje plochu počítača s operačným systémom Windows. Pracovná plocha má množstvo ikon roztrúsených po obrazovke, ktoré predstavujú kombináciu softvérových aplikácií a pomôcok z rôznych kategórií, ako sú prehliadače (napr. Firefox, Chrome), prehrávače médií (napr. VLC media player, Audacity), produktivita a kancelária. aplikácie (napr. Google Meet, Tabuľky, PowerPoint, Excel, Word), nástroje na správu súborov (napr. Total Commander, WinRAR), komunikačné platformy (napr. Zoom, AnyDesk, Thunderbird) a rôzne ďalšie vrátane antivírusového softvéru (napr. ESET Ochrana pri platbách), aplikácia podcast (Podcast Grover), utilita pre vzdialenú plochu (AnyDesk) a služba zdieľania súborov (OneDrive).

Niekoľko ikon je označených v iných jazykoch ako v angličtine, čo znamená viacjazyčné používateľské nastavenie alebo aplikácie špecifické pre miestne nastavenie. Panel úloh v spodnej časti obrazovky zobrazuje pripnuté aplikácie, ponuku Štart, funkciu vyhľadávania a systémovú lištu s časom, dátumom, stavom siete a ďalšími systémovými ikonami. Dátum na systémovej lište ukazuje „28. 2. 2024“ a hodiny ukazujú, že čas je 12:00. Zdá sa, že systém používa prispôsobenú farbu panela úloh a predvolené čierne pozadie pracovnej plochy.

Rozlíšenie obrazovky sa zdá byť široké, pravdepodobne 1920 x 1080 alebo vyššie, ako naznačuje pomer strán obrazu.

Jedinú výhradu mám proti tomu, že by ikony boli roztrúsené. No dovoľ, AI! Moje ikony sú pekne poukladané v mriežke ešte aj podľa abecedy. 😊

Current focus – aktuálne zameranie

Kurzor je na ikonke prehliadača Google Chrome.

Obrázok je malá ikona pre webový prehliadač Google Chrome. Je to štvorec so zaoblenými rohmi so štylizovaným znázornením loga Chrome v strede. Logo pozostáva z modrého kruhu s menším bielym kruhom v strede, ktorý je obklopený červeným, žltým a zeleným vírom, ktorý sa otáča okolo modrej a pripomína točiaci sa alebo obiehajúci efekt. Pod logom je malý tieň, ktorý dodáva pocit hĺbky. Ikona má prerušovaný okraj, čo naznačuje, že ide o voliteľný prvok rozhrania, prípadne skratku na pracovnej ploche alebo tlačidlo v používateľskom rozhraní.

Navigator object – navigačný objekt

Kurzor ostal stále na Google Chrome, ale navigačný fokus som premiestnila na VLC media player.

Na obrázku je ikona prehrávača médií VLC. Pozostáva z bieleho a oranžového dopravného kužeľa s modrou šípkou smerujúcou nahor na pravej strane. Pod kužeľom je čiernym písmom text „VLC media player“. Tento obrázok sa zvyčajne používa ako ikona skratky na pracovnej ploche na otvorenie programu VLC, čo je populárny, bezplatný a otvorený prehrávač médií, ktorý dokáže prehrávať rôzne formáty zvuku a videa.

Záver

AI Content Describer je užitočný doplnok, ktorý sprostredkuje opis obrázkov pomocou umelej inteligencie. Samozrejme, vždy je potrebné brať ohľad na to, že si AI môže vymýšľať a ak je to možné, v každom prípade je lepšie uprednostniť popis obrázkov od „živej inteligencie“, teda človeka. Aby ste si urobili predstavu o grafike, to ale úplne a plnohodnotne stačí.


Článek původně vyšel na webu technologiebezzraku.sk.



AIAI Content DescriberNVDA


Michaela Dlhá
Volám sa Michaela Dlhá. Som prakticky nevidiaca. Asistenčné technológie využívam už od základnej školy. V súčasnosti som zamestnaná v Únii nevidiacich a slabozrakých Slovenska. Skúšaniu a testovaniu hardwaru a softwaru z hľadiska prístupnosti sa venujem už asi 10 rokov, ale...