Proč nová funkce Be My AI zcela vede mezi aplikacemi na popis obrázků? – 1. část

Tuhle novou funkci aplikace Be My Eyes mám zpřístupněnou asi týden a jediné, co můžu zatím říct je, že se nám na poli kompenzačních pomůcek podařil další obrovský pokrok. Jak to funguje? Do aplikace nahrajete obrázek nebo něco vlastního vyfotíte a umělá inteligence vám jej popíše. Pokud se trochu orientujete ve světě kompenzačních pomůcek a aplikací pro nevidomé, tak vás něco takového asi zas až tak nezaskočí, protože tyto funkce v různé kvalitě už jsou s námi několik let. Popis obrázků nebo rozpoznávání předmětů umožňuje dlouhodobě již např aplikace Tap Tap See, Seeing AI, Envision nebo rovnou pomůcky typu Orcam My Eye apod). Základní popis poskytuje dokonce i samotný Facebook nebo Instagram a v podstatě i většina odečítačů obrazovky jako je NVDA, Jaws nebo VoiceOver. .

V čem je tedy funkce Be My AI jiná a inovativní? K rozpoznávání obrázků využívá chat GPT, o kterém spousta z vás již pravděpodobně slyšela. I když se názory na kompetenci a schopnost chatu GPT jako takového liší a přiznávám, že má i své mouchy, v případě jeho využití pro účely popisů obrázků jde o zcela unikátní řešení.

Pro ilustraci si tedy zkusme porovnat, jak si Be My AI poradí s popisem vybraných obrázků oproti jiným dostupným aplikacím. Následně si pak ukážeme, zda Be My AI obstojí i v každodenních praktických situacíH.

Pozn: Obrázky jsou vybrány tak, aby byly co nejrozmanitější a obsahovaly i složitější prvky na rozpoznání. Funkce Be My AI, která je zatím v beta verzi vždy popis poskytuje nejprve v angličtině. Proto jsem popis přeložila pro lepší srozumitelnost do češtiny. Na vyžádání dokáže Be My AI popis také přeložit samostatně, čeština v tomto případě však nezní úplně nejlépe.

Obrázek 1

Be My AI: Na fotografii je mladá žena, která prochází prostorem, který vypadá jako stanice metra. Používá bílou hůl s červenou špičkou, což naznačuje, že má zrakové postižení. Má na sobě zelenou prošívanou bundu, černé kalhoty a hnědé boty. Také má na zádech batoh. Stanice metra je rušná, na obrázku jdou vidět další osoby. Nad ženou je cedule s nápisem Linie U1 a šipkou, která ukazuje směrem, kterým žena jde. Na zdi za ní se nacházejí fotografie a plakáty. Na podlaze je vodící linie, kterou následuje svojí holí.

Seeing AI: Scéna: Pravděpodobně osoba procházející ve stanici metra. Osoba: 31 letá žena s blond vlasy, která se zdá být neutrální.

Envision AI: Obrázek se nepodařilo identifikovat. Rozpoznán byl pouze text Linie U1.

Tap Tap See: Na snímku je žena v zelené bundě a šedých kalhotách držící vycházkovou hůl.

Hodnocení: Be My AI je v tomto případě až na detaily přesná. Dokáže správně popsat vzhled osoby i prostředí, interpretuje správně, že žena používá bílou hůl a že má tím pádem zrakové postižení. Dokonce dokáže rozpoznat vodicí linie, které slouží k orientaci nevidomých. Správně byl rozpoznán i text, avšak šipka, která na ceduli je, směřuje ve skutečnosti opačným směrem, než kterým žena jde. Ostatní aplikace pouze zhruba popíší osobu a její vzhled, Seeing AI správně určila i prostředí – stanice metra. Tap Tap see si  neporadila s interpretací bílé hole a považuje ji za hůl vycházkovou.

Obrázek 2

Be my AI: Na obrázku je muž, který se dotýká hmatového modelu katedrály. Model je umístěn na kamenném podstavci na ulici. Muž má na sobě sluneční brýle, modrou bundu a hnědou tašku. Sklání se nad modelem a oběma rukama na něj sahá, aby prozkoumal jeho strukturu. Model je velmi detailní, vyrobený z bronzu a představuje gotickou katedrálu s vysokou věží.  Na podstavci je rovněž cedule s textem, ale z obrázku není patrné, co na ní je napsáno. V pozadí je vidět část velké kamenné budovy, pravděpodobně samotné katedrály, kterou model zobrazuje a dále pak ulice s procházejícími lidmi a obchody. Počasí se zdá být příjemné a slunečné.

Seeing AI: Pravděpodobně osoba stojící vedle sochy.

Envision:  Obrázek se nepodařilo rozpoznat

Tap Tap See: Na snímku je muž v modré bundě stojící vedle sochy během dne.

Hodnocení: Popis Be My AI je v tomto případě až neuvěřitelně přesný, správně byly určeny naprosto všechny detaily, včetně odhadu, že se v případě kamenné budovy jedná o samotnou katedrálu. Ostatní aplikace si s problémem vůbec neporadily, jelikož model katedrály interpretovaly jako sochu.

Obrázek 3

Be My AI: Na obrázku je žena, která stojí v parku před Eiffelovou věží v pozadí. Žena má na sobě bílou čepici, sluneční brýle, bílé tričko a černé široké kalhoty a zelené tenisky. Má vzhůru vztyčenou pravou ruku a snaží se vytvořit iluzi, že se dotýká špičky Eiffelovy věže.  Železná konstrukce  Eiffelovy věže se tyčí na pozadí. Obloha je částečně zamračená. V parku je několik lidí, kteří sedí nebo leží na trávě. Cestu k Eiffelově věži lemují vysoké upravené stromy. Atmosféra se zdá uvolněná a příjemná.

Seeing AI: Scéna: Osoba pózující před kovovou věží.  Osoba: 35 letá žena v klobouku, která vypadá neutrálně.

Tap tap see: Na snímku je žena v bílé košili a černé sukni stojící na poli před Eiffelovou věží během dne

Hodnocení: S tímto snímkem si opět Be My AI poradila velice dobře. Správně interpretovala nataženou ruku jako optickou iluzi. Ve skutečnosti se sice jednak jedná o ruku levou, která navíc věž spíše podpírá, než by se dotýkala její špičky, jde však v kontextu snímku o maličkost. Dobrých výsledků dosáhla i aplikace Tap Tap See, která rozpoznala jak Eiffelovu věž, tak osobu a okolí.

Obrázek 4

Be My AI: Fotografie zobrazuje klidnou a malebnou scénu řeky, ve které se zrcadlí okolí. Na pravé straně řeky je okouzlující komplex budov s kombinací architektonických stylů. Budovy mají střechy z červenými taškami a jedna z budov má věž s hodinami. Jsou obklopeny bujnou zelení a dalšími menšími budovami s dřevěnými prvky. Na levé straně řeky je hustý les s několika druhy stromů  a jejich zelené listí se odráží ve vodě. Obloha je jasná s odstíny světle modré, což naznačuje krásný a slunečný den. V pravém dolním rohu obrázku plave po řece kachna. Celková atmosféra obrázku je klidná.

Seeing AI: Vodní plocha s budovami a stromy vedle ní.

Tap Tap See: Na snímku je bílá a hnědá betonová budova poblíž zelených stromů a jezera během dne.

Hodnocení: V případě tohoto snímku žádná z aplikací nepochybila, každá se však zaměřila na jiné detaily snímku. Be My AI však snímek dokázala popsat velice detailně a bez jediného zaváhání. Navíc k popisu používá i emocionálně zabarvená slova, která dokáží lépe vystihnout atmosféru na obrázku.

Obrázek 5

Be My AI: Obrázek byl pořízen z okna letadla. Pohled je nad mraky, které vypadají hustě a měkce. Připomínají hebkou bavlněnou deku. Slunce svítí jasně na světle modré obloze a odráží se od křídla letadla, které je částečně viditelné v levém dolním rohu obrázku. Na pravé straně je také viditelný pravý lem okna letadla. Celkový dojem z obrázku je klidný a mírumilovný, jako byste plachtili nad mořem mraků.

Seeing AI: Pravděpodobně okno letadla s mraky dole.

Tap Tap See: Na snímku je modrá obloha a bílé mraky během dne.

Hodnocení: V případě tohoto snímku na plné čáře opět vítězí Be My AI, která snímek popsala s naprostou přesností a citem pro detail. Velice kladně hodnotím i snahu snímek popsat pomocí přirovnání – jako byste plachtili nad mořem mraků.

Celkové zhodnocení a pohled do budoucna

Z ilustračních popisů vyplývá, že na přesnost a originalitu popisu Be My AI zatím žádná další aplikace nedosahuje ani zdaleka. A troufnu si říct, že někdy jsou popisy umělé inteligence lepší, než ty lidské. Poprvé od doby, co jsem ztratila schopnost vidět fotografie tak můžu říct, že jsem našla adekvátní alternativu k zrakovému vnímání obrázků.

Navíc nejde čistě jen o samotný popis. Be My AI také umožňuje doptat se na jakékoliv další informace o obrázku, jako je např. výraz jednotlivých osob, atmosféra obrázku nebo jakékoliv další detaily. Be My AI dokáže k popisům používat obrazný jazyk, používat metafory nebo podle barev např. vystihnout atmosféru snímku a interpretovat význam gest. Pokud se tento nástroj nebo nástroje fungující na podobném principu do budoucna uchytí, věřím, že lidem se zrakovým postižením velice usnadní přístup k vizuálním informacím.



Be My AIBe My Eyes


Pavlína Soušková
Jmenuji se Pavlína Soušková. V 5 letech mi byla diagnostikována Stargardtova nemoc, což je juvenilní forma makulární degenerace. Ve zkratce to znamená, že postupně přicházím o zrak a v současné době jsem prakticky nevidomá. Mám jenom malé procento periferního vidění,...