Jak vytvořit audio podcast z vašich textů automaticky pomocí AI

💡 Firemní workshopy o umělé inteligenci - pojďme se zamyslet nad tím, jak se vaší firmy dotkne AI a jak se na to připravit!

Patrick Zandl · 28. listopad 2024

Jak vytvořit audio podcast z vašich textů automaticky pomocí AI

Umělá inteligence přinesla řadu úžasných nástrojů pro analýzu dat. Jednou z forem výstupu takové analýzy může být i hlasová podcast. Představíme si tři nástroje, do nichž můžete nasypat své podklady, nechat si vygenerovat hlasový výstup - a ten si pak nahrát do mobilu a poslouchat jej za běhání či v autě.

Google NotebookML

Prvním projektem je NotebookML - služba společnosti Google, kterou bychom mohli nazvat “zakladatel žánru”. Projekt byl původně představen v roce 2023 pod názvem “Project Tailwind”. Na jeho vývoji se podílel populární vědecký autor Steven Johnson a produktová manažerka Raiza Martin.

Základem služby NotebookML je možnost nahrát do ní dokumenty ke zkoumanému tématu v několika formátech: od PDF, přes Google Docs a Slides až po webové stránky. Následně služba vygeneruje sadu doporučených dotazů ke zkoumání těchto dokumentů a můžete samozřejmě pokládat vlastní dotazy. Dotazy jsou zodpovídány pomocí AI z dokumentů, které jste do služby nahráli. Můžete si nechat vygenerovat nejrůznější souhrny, analýzy, můžete nechat službu porovnat dokumenty proti sobě. Je to zkrátka super záležitost, pokud potřebujete analyzovat podkladové materiály za účelem studia, přípravy firemních podkladů a dalších prací, kde potřebujete pracovat s větším množstvím materiálů.

Google NotebookML pracovní rozhraní

Naprosto úžasnou z této služby ale dělá funkce Audio Overviews - Audio Přehledy. Přehledy vám totiž vygenerují souhrn jako hlasový podcast, ve kterém dva moderátoři vedou rozhovor na bázi podkladů, které jste jim poskytli. Rozhovor si můžete přizpůsobit klasicky tím, že dopředu řeknete, na co se má rozhovor zaměřit a také jakou má mít délku. Zda pár minut do půl hodiny či delší.

Přehledy jsou naprosto fenomenální funkce. NotebookML do nich opravdu vybírá zajímavé věci z materiálů, zvuk je velmi dobře udělaný a rozhovor vypadá naprosto přirozeně. Dokonce jsou v něm taková ta přitakávání a různé odmlky, které jej dělají naprosto přirozeným. Co je podstatná nevýhoda: dobře to funguje jen v angličtině, do jiného jazyka se Přehledy ani oficiálně nedají přepnout. Lze to sice obejít, pokud se vyznáte v promptování AI, ale kvůli použitému modelu Gemini 1.5 není český výstup nijak zvláště kvalitní, zní dosti všeslovansky. Jelikož ale NotebookML byl v září 2024 převeden na oficiální Google produkt a dokonce je zařazen v nabídce pro firmy, dá se předpokládat, že se v nějaké dohledné době přejde na jazykové modely s lepší podporou češtiny. A pak budou i Přehledy v češtině kvalitnější. Takže vám ani nebudu říkat, jak to máte ohackovat, občas se tím hackováním přes prompt jazyky pomíchají a nestojí moc za to česky Přehledy používat…

Jelikož se v Institutu Pí zabýváme optimalizací státní správy, jeden z materiálů, které jsme si nechávali pomocí NotebookML zpracovávat, jsou postupy oprav komunikací. Vygeneroval jsem k tomu dva Audiopřehledy, můžete si je porovnat:

Elevenlabs GenFM

Služba GenFM je čerstvou listopadovou novinkou společnosti Elevenlabs zabývající se hlasovými službami na bázi AI. Pokud něco se strojově generovaným hlasem chcete podnikat, rozhodně si nabídku Elevenlabs projděte, jsou hodně daleko a nabízejí například schopnost dubbovat video včetně synchronizace pohybu rtů.

Pro nás je ale teď důležitá služba GenFM, která zatím funguje jen v mobilních aplikacích (v listopadu 2024 byla jen v iOS, pro Android se chystá), nemá webové rozhraní, což ji zatím dost limituje. Ale s ohledem na to, že je stará doslova pár hodin a Elevenlabs jsou dosti agilní, se dá čekat, že služba se bude rychle posouvat.

Služba opět funguje vcelku jednoduše. Nahrajete do ní dokument, můžete ho také ofotit, dát odkaz na článek nebo na Youtube video - a po stisku GenFM tlačítka je vám vygenerován podcast, v němž se dva moderátoři baví o tématu.

Elevenlabs GenFM na iOS

Oproti NotebookML jde o citelně jednodušší službu. Výstup nemůžete prakticky nijak přizpůsobovat, kromě toho, že si můžete vybrat hlasy a písmo zobrazovaného textu. Co je ale podstatné: služba díky backendu Elevenlabs funguje výborně i v češtině. Sice není podcast zdaleka tak přirozený, jako v NotebookML, ale je poslouchatelný - a pokud si přejete, je v češtině nebo v dalším z cca 30 jazyků.

Co je momentálně velká nevýhoda, je nemožnost soubor nějak uložit nebo někomu nasdílet. Jistě, v nabídce aplikace je Export Audio, ale ta vás přehodí na web, kde nic takového možné není. Snad se to rychle doplní.

Na web se vygeneruje jen náhled v omezené délce 1 min 11 vteřin, celý podcast od někoho jiného si musíte zobrazit v mobilní aplikaci Elevenlabs Reader. Ale dva příklady si tedy dejme:

Superpodcast

Třetí službou je Superpodcast, menší nezávislá služba umožňující nahrát dokumenty v několika formátech a zadat k nim upřesňující prompt, na co se má vygenerovaný podcast zaměřit. V nabídce podpory je i čeština, bohužel v době psaní článku se podcasty negenerovaly, takže vám český podcast nemohu zalinkovat - doplním později. Anglické podcasty jsou dobře nahrané, zvuk a jeho tok subjektivně lepší, než Elevenlabs a horší, než NotebookML, ale jsou dosti na jedno brdo, což ruší, když jich posloucháte více za sebou.

Superpodcast umožňuje dost nastavení, je v tom příjemnější, než oba výše zmíněné nástroje, ale momentálně je služba dost přetížená.

Doporučení

Používání služby NotebookML vám výrazně doporučuji, pokud potřebujete analyzovat nějaké množství dokumentů. Služba je momentálně zdarma a práce s ní je proti jiným podobným službám příjemná a svižná. Google navíc slibuje, že dokumenty do ní nahrané nepoužívá pro trénink AI.

NotebookML pro vás momentálně bude skvělým rozhraním do studia nějakého tématu a pro věci typu bakalářka, disertace, firemní studie či analýza, je to naprosto nepostradatelný nástroj. Můžete jej také využít pro přípravu podklad na schůzku nebo třeba pro přípravu materiálů na sociální sítě.

Audio Přehled je momentálně asi funkce navíc, protože bez kvalitního českého hlasu to v angličtině příliš nevyužijete.

GenFM chybí možnost audiosoubory exportovat, ale je to nadějné - zatím spíše pro osobní použití. A Superpodcast zatím spíše slíbil…

Chcete tyto články emailem?

Twitter, Facebook, Opravit 📃