Plaud Note: záznamník, tvořič zápisů a druhý mozek i pro nás nevidomé
O záznamníku s umělou inteligencí Plaud jste pravděpodobně už slyšeli. Existují čtyři různé generace, přičemž plně přístupná je zatím jen ta první. Protože zařízení aktivně používám a v komunitě zrakově postižených se o něm stále málo ví – nejen u nás, ale i ve světě, rád vás s ním seznámím.
Plaud používám na různé věci, od diktování textu (jako tento článek) až přes zápisy z porad, nebo generování architektonických návrhů z brainstormingů. Ale takové to rychlé udělání si poznámky je taky moc fajn.
Jedním z důvodů, proč se o něm nemluví častěji, je, že přístupnost není vždy dotažená k plné spokojenosti. Jsem ale v kontaktu přímo s vedoucím vývoje aplikace Plaud, takže se (snad) začíná blýskat na lepší časy.
No ale s trochou cviku a trpělivosti se dá s Plaudem pracovat i teď, a to je dobře, protože je to opravdu skvělý nástroj. V této recenzi se podíváme na to, co Plaud umí, jak funguje a jak ho využít naplno.
Co je vlastně Plaud?
Plaud je zařízení i platforma zároveň. V nejpřístupnější verzi – Plaud Note, tedy úplně první generaci – jde o velmi tenkou hliníkovou destičku přibližně ve velikosti kreditní karty, tlustou zhruba 2 mm. Na destičce je fyzický přepínač. Ano, skutečně mechanický přepínač – a je to skvělé. Slouží ke změně dvou režimů: běžného nahrávání (schůzky, diktování, cokoli) a nahrávání telefonních hovorů z mobilu.
Kromě přepínače je na destičce ještě jedno fyzické tlačítko. Bohužel v novějších generacích ho nahradil dotykový senzor nebo dokonce displej, proto říkám, že plně přístupná je pro nevidomé hlavně první generace Plaud Note.
Jak nahrávání funguje
Ovládání je jednoduché. Podržíte tlačítko asi vteřinu – zařízení zavibruje delším, hmatatelným impulsem a začne nahrávat. Pokud chcete v průběhu něco označit, krátkým stiskem vložíte značku, potvrzenou krátkou vibrací. Ukončení probíhá opět držením tlačítka na vteřinu; dvě krátké vibrace za sebou oznámí konec.
Plaud umí nahrávat i telefonní hovor, aniž by to musela podporovat aplikace v telefonu. Stojí za tím chytré řešení kombinující fyziku a filtraci signálu. Samotná destička to v základu nedělá přes Bluetooth – je potřeba zachytit zvuk při držení telefonu u ucha, tedy bez hlasitého odposlechu. Inženýři v Plaud vyřešili problém pouzdrem, které připnete na iPhone; díky MagSafe drží pevně. V balení je i univerzální MagSafe kroužek pro jiné než Apple telefony. Pouzdro je tvarované tak, aby v kombinaci s destičkou a miniaturními kovovými trubičkami uvnitř zachytávalo vibrace. Zvuk je série vibrací a Plaud toho využívá: přesná vzdálenost mezi spodním okrajem destičky a zády telefonu vede vibrace z těla telefonu do trubiček v Plaudu. Výsledek není „podcastová“ kvalita, ale pro rozpoznání řeči, pokud mluvčí nemumlá, to bohatě stačí.
Od nahrávky k textu
Zvukový záznam se přenese přes Bluetooth do aplikace. S trochou cviku lze využít režim Fast Transfer, který propojí zařízení s mobilem přes Wi‑Fi. Pokud jste trpěliví, tak těch 32KB které bluetooth podporuje vám bude stačit. Datový tok je malý, takže i hodinový záznam se přenese, jen to chvíli trvá.
Záznam se v aplikaci synchronizuje se servery, které provedou několik kroků: přesnou transkripci textu a současně vytvoří interní semantické značky (například smích nebo odklonění od tématu). Kdo se dostane k surovým datům – ukázky jsou na stránkách vývojářské komunity Plaud – uvidí, že těch interních značek je opravdu hodně. Právě to je rozdíl oproti konkurenčním službám, které jen tupě přepíšou text a teprve pak se snaží z toho „něco vyčíst“ pomocí AI. Tady je kontextu tolik, že umělá inteligence má výrazně více vstupů a má s čím pracovat. Ostatní „kouzlo“ se odehrává v aplikaci a na serverech Plaud, které jsou dobře zabezpečené, takže soukromí a bezpečnost nejsou problém.
V rámci Plaudu si uděláte účet (lze se přihlásit i přes Apple a Google) a pak používáte takzvaný Plaud Private cloud sync, který je opravdu jenom váš a ani Plaud nemá jeho obsah. Tam se vše ukládá, zpracovává a automaticky navazuje, což je teprve ta správná jízda.
Plaud přistupuje k umělé inteligenci jinak než třeba Claude, Gemini nebo ChatGPT. Pro rozpoznání řeči využívá sice taky modely OpenAI (např. Whisper), práce s obsahem ale funguje na specializované platformě, takže výsledky bývají skvělé.
Aplikace a její funkce
Mobilní aplikace existuje pro iOS i Android, desktopová pro macOS a Windows. Desktop navíc, kromě funkcí souvisejících s Plaud Private Sync Cloudem, umožňuje napojení na Teams, Zoom, Webex a nově i WhatsApp. Teoreticky tak můžete nahrávat jakékoli jednání, schůzku či telefonický rozhovor. V této recenzi ale zůstanu u funkcí mobilní aplikace a webu: něco si nahrát a získat nejlepší možný výstup.
Samotná aplikace není složitá, ale kvůli drobným chybám v přístupnosti si na její rozhraní budete muset zvyknout. Dole jsou dvě karty, bohužel špatně popsané: levá zobrazuje přehled záznamů, pravá nastavení, správu účtu a další funkce. Tlačítka jsou na tom z hlediska popisu o něco lépe. Hlavní práce se odehrává vlevo, kde jsou záznamy v seznamu a lze je filtrovat – například jen hovory, jen schůzky v Teams, nebo výpisy podle zařízení (Plaud Note versus novější Plaud Pin).
Po otevření záznamu se dostanete na jeho detail, kde AI automaticky analyzuje obsah a pokusí se vytvořit shrnutí. V angličtině, němčině či španělštině funguje tzv. Adaptive Summary (adaptivní shrnutí) skvěle. V češtině to ale občas zabolí – typické automatické shrnutí může nevinnou domácí debatu absurdně označit například jako „spor o to, kdo líp kváká, který vyústil v osobní útok“. Není to to, co od shrnutí konverzace čekáte, zvlášť když šlo o něco úplně jiného.
Nastupuje umělá inteligence
Samotný přepis řeči na text je jen začátek – skutečné kouzlo Plaudu se odehrává v okamžiku, kdy do hry vstoupí umělá inteligence a dobře napsaná šablona. Právě proto je klíčové naučit se pracovat se šablonami (Templates). Šablony jsou v podstatě strukturované prompty pro AI – a jako u každého promptu platí, že čím lépe ho napíšete, tím lepší výstup dostanete. Plaud nabízí řadu vestavěných šablon, třeba „Meeting Secretary“ (schůzková sekrétářka) vám umí udělat z porady krásný souhrn i s úkoly a vším kolem., Šablona je v angličtině, ale její výstup bude samozřejmě v češtině, jen struktura zůstane anglická, takže klasické czechglish. Skutečná síla ale tkví ve tvorbě vlastních šablon, kde si přesně definujete, co má AI s přepisem udělat.
Mám pro sebe několik základních šablon. Jedna se jmenuje „Diktování textu do článku“. Třeba tento článek vlastně povídám do Plaudu při chůzi po cestě ze snídaně domů a šablona z nich sestaví formální text podle mých preferencí a ten pak už jen upravím. Jiná šablona mi z nahrávky schůzky připraví plně formátovaný a strukturovaný zápis z jednání. První pokusy byly slabé, ale po poctivém hodnocení, učení a iterativním ladění promptů v šablonách lze dosáhnout výborných výsledků.
A to je podstata celého Plaudu: bohatá surová data z nahrávky plus chytrý prompt v šabloně rovná se výstup, který byste ručně skládali mnohem déle.
Kdykoli se mohu vrátit ke zvukové nahrávce – v mobilní aplikaci to funguje skvěle: když ťuknu na konkrétní místo ve shrnutí nebo přímo v přepisu, začne se přehrávat odpovídající část zvuku. Když se vygenerované shrnutí nepovede, jeho ruční oprava je dost harakiri a s VoiceOverem je to vlastně skoro nemožné, nejlepší je klepnout na „Add“ u výstupů a vybrat jinou šablonu, případně nechat přepis proběhnout znovu se stejnou šablonou.
Rozpoznávání mluvčích a další skryté funkce
Velkou výhodou je rozpoznávání jednotlivých mluvčích. V nastavení správy účtu je dole skrytá funkce „Synchronizace pojmenovaných mluvčích napříč účtem“ (Sync Named Speakers). Jakmile si v kontextovém menu (More Options → Name Speakers) pojmenujete mluvčí, jejich hlasy se budou automaticky označovat všude, kde se v nahrávkách objeví. Je to nesmírně užitečné, Plaud to ale málo propaguje a to je fakt škoda. První schůzky jsem to dělal ručně a to fakt nechcete. Teprve kvůli této recenzi jsem procházel nastavení do hloubky a funkci našel.
Podobných užitečných, ale nenápadných možností je víc. Třeba „Merge“ – spojení více záznamů do jednoho. Hodí se, když máte několik krátkých poznámek, chcete je nejdřív sloučit a pak je prohnat šablonou. Bohužel je to snad jediná funkce, která není přístupná: provádí se pouze gestem švihnutí doleva v seznamu nahrávek a kontextové menu je nepřístupné. Tady budou muset vývojáři zabrat.
Přístupnost pro nevidomé
No a když už jsme u té přístupnosti? Přístupnost aplikace je uspokojivá, ale ne dokonalá. Základní funkce jsou dostupné, ale rozhraní by si zasloužilo lepší popisky. Někdy se nevyhnete ručnímu „prohledávání“ obrazovky prstem. Například dostat se gesty VoiceOveru na tlačítko More Options v detailu záznamu je pro někoho skoro olympijský výkon a ne všichni se probojují přes kvalifikaci až do finále. Jakmile si ale zvyknete, že je vždy vpravo nahoře, prstová paměť pomůže. Já na cestách používám klávesnici RIVO, tam je to trochu boj. Vývojáři však na připomínky k přístupnosti reagují, spolupráce teprve začala, ale z první výměny mailů je vidět, že je to opravdu zajímá.
K čemu je to dobré
Kombinace surových dat (nejen přepis textu), identifikovaných mluvčích a možností prakticky libovolných promptů pro AI dává téměř neomezené využití. Kromě diktování článků a psaní či shrnutí rychlých poznámek stačí podržet tlačítko, nahrát, opět podržet a zařízení vše zpracuje. Zápisy ze schůzek jsou dnes díky správně identifikovaným mluvčím a poctivému hodnocení výstupů AI velmi kvalitní. Dokážou vytvořit strukturovaný zápis včetně úkolů a často i identifikovat, kdo má co udělat a do kdy – pokud na schůzce mluvíte dostatečně jasně.
Proč jednoúčelové zařízení, a ne jen telefon?
Nabízí se oprávněná otázka: proč si kupovat další hardware, když telefon má mikrofon, diktafon i přístup k řadě aplikací? Na iPhonu můžete nahrát hlas přes Diktafon a rozpoznat ho ve VoicePen, diktovat přes Whisperflow nebo kombinovat další nástroje. Cest je víc a některé z nich fungují dobře. Ale nejsou tak jednoduché a přímočaré.
Jenže v praxi je rozdíl obrovský. Telefon musíte odemknout, najít aplikaci, spustit nahrávání – a mezitím vám uteče první věta. S Plaudem podržíte fyzické tlačítko na destičce, která je pořád připnutá na telefonu v pouzdru, ucítíte vibraci a nahráváte. Na konci totéž. Žádné odemykání, žádné hledání, žádné přepínání aplikací. Tohle jednoduché gesto, dostupné kdykoli a odkudkoli, dělá z nahrávání tak přirozenou věc, že ho začnete používat v situacích, kdy byste dříve telefon ani nevytáhli. A jakmile máte nahrávku, Plaud ji díky bohatým interním značkám a vlastním šablonám zpracuje do výstupu, na který byste potřebovali řetězit několik různých aplikací.
Právě tahle kombinace – nenápadný hardware vždy po ruce a inteligentní platforma na pozadí – je něco, co pouhým telefonem zatím snadno nenahradíte. A upřímně řečeno, je to nesmírně návykové. Pokud si navíc vyhrajete se šablonami, výrazně tím zvýšíte produktivitu.
