Be My AI – nejen popis obrázků, ale i univerzální kompenzační pomůcka? – 2. část
Poté, co jsem si ověřila schopnosti Be My AI v popisování obrázků (viz Proč nová funkce Be My AI zcela vede mezi aplikacemi na popis obrázků? – 1. část), napadlo mě ji vyzkoušet i v každodenních situacích, kdy si neporadíme bez zrakové kontroly. Níže přináším další výsledky, a to Jak si Be My AI poradila v roli vidícího asistenta.
Situace 1: Varná konvice

Na obrázku je elektrická konvice umístěná na kuchyňské lince. Konvice je bílá se stříbrným vrškem a má bílou rukojeť. Základna konvice je stříbrná a má tlačítka s nastavením teploty. Je zde pět tlačítek uspořádaných do půlkruhu, označených zleva doprava jako 60 stupňů Celsia, 80 stupňů Celsia, 90 stupňů Celsia, 100 stupňů celsia a udržet teplé. Vpravo je také tlačítko pro zapnutí a vypnutí. Tlačítko 80 stupňů a 100 stupňů je osvětleno modrým světlem a tlačítko zapnutí a vypnutí červeným světlem. Konvice se zdá být v provozu, protože světla svítí.
Hodnocení: V tomto případě je popis velice detailní. Všechny informace se zdají správné, až na to, že by mělo být osvětleno pouze tlačítko 100 stupňů a tlačítko pro spuštění. Funkce jednoho tlačítka je tedy označena chybně a tím pádem může dojít k nesprávné interpretaci uživatelem. Na Be My AI tedy nemůžeme spoléhat stoprocentně. Pro získání základní představy o čistě vizuálním rozhraní spotřebiče však poslouží dobře.
Situace 2: Rozpoznávání barev

Na obrázku je postel se světle béžovým povlečením. Na posteli leží 4 ponožky – z leva pár světle hnědých ponožek a následně pár černých ponožek. Ponožky jsou kotníkové.
Já: Které ponožky patří k sobě?
Be My AI: Ponožky, které patří k sobě, jsou uspořádány vedle sebe. První dvě ponožky zleva jsou světle hnědé barvy a tvoří pár. Ponožky vedle jsou černé barvy a také tvoří pár.
Hodnocení: Be My AI správně dokázala popsat polohu i barvu ponožek. Zde se velice dobře osvědčila funkce „zeptat se více,“ která nám umožňuje dále s Be My AI interagovat a zjišťovat více informací o snímku. K obdobnému úkolu jsem se Be My AI pokoušela použít vícekrát a musím přiznat, že v tomto případě sice aplikace uspěla na jedničku, v případě, že např. ponožek potřebuji už rozpoznat více najednou, aplikace zcela selhala. I zde se osvědčilo tvrzení z minulého případu, a to nespoléhat na rozpoznaný obsah stoprocentně.
Situace 3: Rozpoznání vizuálních informací na ciferníku

Na obrázku je ruka držící analogový budík. Hodiny mají kulatý stříbrný rám. Ciferník je bílý s černými číslicemi a zeleným podkreslením. Čísla jsou ve tradičním stylu – od 1 do 12. Uprostřed ciferníku je napsána značka budíku MHM. Hodinová a minutová ručička je černá a je zde také stříbrná ručička budíku. Čas na hodinách se zdá být okolo 10:09. V pozadí je pravděpodobně místnost se dřevěnou podlahou a červeným kobercem.
Hodnocení: V tomto případě sice Be My AI hezky popsala budík jako takový a prostředí, ve kterém se nachází, čas však již interpretovala zcela chybně.
Situace 4: Příchozí obálky

Na této fotografii vidím ruku, která drží bílou obálku. Obálka je zavřená a nemá na sobě žádné nápisy. V pozadí je vidět kousek dřevěné podlahy a červený koberec.
Já: Je na obálce něco napsáno?
Be My AI: Na obálce není napsáno nic. Je zcela prázdná.

Já: Toto je druhá strana obálky. Je něco napsáno tam?
Be My AI: Ano, na druhé straně obálky je napsáno modrým inkoustem Sousboří Pavlína a pod tím je malá kresba, která vypadá jako květina.
Hodnocení: Be My AI i v této situaci spíše uspěla. První strana obálky je skutečně prázdná. Na druhé straně obálky je ručně perem napsáno Soušková Pavlína. Písmo není úplně úhledné, a tak mě velmi příjemně překvapilo, že umělá inteligence dokázala rozpoznat správně alespoň část příjmení a celé křestní jméno. Rozpoznání tištěného textu jako takového také většinou probíhá dobře.
Závěrem
Be My AI je určitě inovativním nástrojem pro popis obrázků. Vzhledem k tomu, že se jedná o pouhou betaverzi věřím, že se po jejím oficiálním zveřejnění v komunitě zrakově postižených rozšíří. Do budoucna vidím v nástrojích stavějících na schopnostech umělé inteligence, jako je ChatGPT, obrovský potenciál. Nemůžu se zbavit dojmu, že kdyby se tato funkce integrovala např. do nativních aplikací operačních systémů pro práci s fotografiemi a do aplikací sociálních sítí jako je Instagram, Facebook nebo WhatsApp, zcela by to změnilo uživatelský zážitek z jejich používání. A vzhledem k tomu, jakou rychlostí se umělá inteligence rozvíjí, nebála bych se říct, že by kromě obrázků mohla být za pár let schopná např popisovat i videa nebo okolí v reálném čase.
Na druhou stranu bych si však stále na schopnosti umělé inteligence nevsadila při zásadních úkonech a v případech, kdy vyžaduji stoprocentní jistotu správnosti rozpoznané situace (viz případ špatně rozpoznaných hodin, špatná interpretace významu tlačítka atd.). Velice se však těším na to, jakou budoucnost pro nás umělá inteligence přinese.


