Victor Riparbelli - Stane se z nás poslední generace, která bude umět číst a psát? (přepis přednášky)

💡 Firemní workshopy o umělé inteligenci - pojďme se zamyslet nad tím, jak se vaší firmy dotkne AI a jak se na to připravit!

Patrick Zandl · 1. březen 2025

Victor Riparbelli - Stane se z nás poslední generace, která bude umět číst a psát? (přepis přednášky)
Rychlé shrnutí článku
  • Riparbelli předpovídá konec dominance textu díky intuitivnějším formám komunikace s AI.
  • Internet a nové technologie změnily tvorbu i konzumaci obsahu, včetně hudby a her.
  • Synthesia.ai vyvíjí AI avatary pro komunikaci, vzdělávání a prodej v mnoha jazycích.
  • AI umožní rychlou a levnou tvorbu personalizovaného videoobsahu, měnící vzdělávání a zábavu.

Přepis přednášky podnikatele Victora Riparbelliho s názvem „Will AI Make Us the Last Generation to Read and Write?“ na konferenci TED Talk 19. října 2024.

Přednáška se zabývá tím, jak by umělá inteligence mohla změnit lidskou komunikaci a potenciálně učinit tradiční gramotnost pro budoucí generace zastaralou.

Kdo je Victor Riparbelli? Zakladatel a CEO významné firmy podnikající v AI Synthesia.ai a jeden z nejvlivnějších lidí v oblasti AI.

Konec čtení a psaní, jak je známe

VICTOR RIPARBELLI: Vaši vnuci budou poslední generací, která bude číst a psát. Vím, že to zní divně, téměř nemyslitelně. Text je všude kolem nás. Používáme ho stokrát denně a prorůstá do struktury našeho každodenního života. Ale dnes budu tvrdit, že neúnavná snaha lidstva o lepší způsoby předávání myšlenek a uchovávání znalostí nekončí u textu.

Myslím, že stojíme na úsvitu nové éry komunikace s využitím umělé inteligence. A myslím si, že budoucí generace budou text pomalu nahrazovat intuitivnějšími formami komunikace, jako je zvuk, video a nakonec i imerzivní technologie. A myslím, že jednoho dne se budeme na čtení a psaní dívat jako na historické artefakty, podobně jako na papyrové svitky, hieroglyfy nebo jeskynní malby.

Nechápejte mě špatně, já čtu rád. To není osobní msta vůči textu. K mým nejmilejším vzpomínkám patří procházky po místní knihovně v Kodani, kterou tady vidíte za mnou, vybírání nejrůznějších knih, většinou sci-fi, vracení se domů, abych si je přečetl a mohl se tam zase vrátit a vybrat si další sadu vzrušujících knih ke čtení. Rád jsem se ztrácel v těchto světech, které byly jiné než fyzický svět kolem mě.

Internet všechno změnil

A to se samozřejmě jen umocnilo, když jsem asi v deseti letech objevil internet, který mi otevřel zcela nový svět myšlenek, hudby a lidí. Informace na internetu však byly zdarma a já na vlastní oči viděl, jak technologie nezměnila jen distribuci obsahu, ale i obsah samotný. Rozdíl mezi živým fórem a knihou je obrovský, že? Blog a noviny a tak dále.

V hudbě, která je mou velkou mimopracovní vášní, jsem viděl, jak softwarové nástroje, samplování a bicí automaty daly vzniknout zcela novým žánrům, které předtím nebyly možné. A nejen to, všichni lidé na celém světě, kteří vytvářeli novou, vzrušující hudbu, se o ni mohli podělit se světem bez prostředníků v podobě vydavatelství.

Videohry, které jsem hrál, se připojily k internetu. Vytvářeli jste komunity s lidmi z celého světa, které jste neznali. Alespoň tak si to mysleli moji rodiče. Svůj první podnik jsem založil ve třinácti letech ve hře World of Warcraft. Bylo nás 50 lidí, kteří jsme společně zabíjeli draky online, a později jsem v životě zjistil, že to vlastně není tak odlišné od vedení startupu.

Od her k umělé inteligenci

A právě tyto první roky mého života podnítily můj celoživotní zájem o média a technologie, o to, jak mění způsob, jakým tvoříme, konzumujeme, hrajeme a komunikujeme. A v roce 2016 jsem objevil výzkumnou práci s názvem Face-to-Face od profesora Matthiase Miesnera a jeho týmu. Sestrojili systém, který pomocí neuronových sítí dokázal vytvořit opravdu, ale opravdu fotorealistické video.

A když jsem to viděl poprvé, měl jsem pocit, že jsem viděl kouzlo. A byl jsem přesvědčen, že za deset let budete moci vytvořit hollywoodský film ze své ložnice, aniž byste potřebovali cokoli jiného než jen svou představivost. To bude za tři roky a myslím, že to skutečně vydrží.

Nemohl jsem tuhle myšlenku dostat z hlavy a nakonec jsem spolu s Matthiasem a Ludusem a Steffenem, mými spoluzakladateli, založil společnost Synthesia, která se zabývá umělou inteligencí ve videu. A to byl opravdu způsob, jak skloubit můj zájem o média, technologie a sci-fi. Společnost jsme založili s vizí, že z každého člověka na světě uděláme hollywoodského režiséra.

A i když je to rozhodně stále velmi vzrušující vize, postupem času jsme si uvědomili, že jakkoli jsou hollywoodské filmy generované umělou inteligencí vzrušující, je to jen špička ledovce. Skutečně vzrušující potenciál těchto technologií spočívá v tom, že umožní oživit ve videu a zvuku každý jednotlivý obsah, od textových zpráv přes romány až po nudné firemní školicí materiály.

Vývoj lidské komunikace

Než si však povíme více o videu, pojďme si povědět něco o textu. Text je původním způsobem komprese lidské komunikace. Své myšlenky a znalosti kódujeme do symbolů, které mohou přenášet význam napříč časem a prostorem. Nebylo tomu tak vždy. Před tisíci lety text neexistoval a jediným způsobem, jak sdílet informace, byla ústní komunikace.

V roce 1500 př. n. l. byla vynalezena první abeceda, která v podstatě převzala tyto velmi složité systémy psaní a zjednodušila je na pouhých několik znaků, čímž položila základy moderní společnosti, kterou známe dnes. V roce 1440 vynalezl Gutenberg knihtisk a poprvé v historii jsme mohli masově produkovat psaný obsah. Trvalo až do poloviny 20. století, než se čtení stalo masovou záležitostí a lidé se pomalu stávali gramotnými.

Omezení textu

Pokud se přesuneme do dnešní doby, text je všudypřítomný a žít život bez schopnosti číst a psát je nemožné. Ale jakkoli je text skvělý, je to nedokonalá technologie. Je velmi efektivní a škálovatelná. Ale je to velmi, velmi ztrátová metoda komprese informací. Postrádá všechny nuance a dodatečné informace, které získáme, když s někým mluvíme v reálném životě. Váš tón hlasu, řeč těla, místo, kde se nacházíte, všechny tyto věci jsou pro toto sdělení důležité, že?

Text lze interpretovat milionem různých způsobů v závislosti na příjemci. Je to dobrá, nebo špatná zpráva? To je velmi těžké říct, že? Ale vynalezli jsme emotikony, abychom to trochu vylepšili. Ale ani emodži nejsou dokonalé. Lidé stále diskutují o tom, zda je tento smajlík šťastný. Je snad naštvaný? Chystá se vás zabít? Debata pokračuje.

Síla vizuální komunikace

A když se zamyslíte nad vizuální komunikací, tohle je obrázek. Všem vám trvalo pár vteřin, než jste se na tento obrázek podívali a pochopili ho, že? Je to velmi intuitivní způsob konzumace informací. Co kdybych se s vámi místo toho podělil o tento textový popis obrázku? Trvalo by vám 30 sekund, než byste si ho přečetli? Vysoké kognitivní zatížení, abyste tyto kousky symbolů vzali a v mysli z nich vytvořili obraz, že? A i kdybych vám dal 30 stránek popisu, vždycky byste si představili jiný obraz, než jaký právě teď vidíte za mnou.

Jakmile přidáme časový rozměr, jako je tomu u videa, tento problém se masivně prohloubí. Není tedy až tak zvláštní, že od vynálezu textu inovujeme směrem k bohatším a intuitivnějším způsobům výměny informací. Vynalezli jsme rádio, televizi, internet, VR, sociální média a nyní umělou inteligenci.

Vzestup videa a zvuku

V roce 2024 je zcela zřejmé, že se lidé chtějí dívat a poslouchat. Pokud se podíváte na digitální ekonomiku, nejrychleji rostoucí sociální sítí je TikTok. Je také nejrychleji rostoucím vyhledávačem, což je velmi zajímavé. Video a zvuk jsou všude v aplikacích, které používáme. V aplikaci WhatsApp posíláme hlasové poznámky. Nyní jsme v seznamovacích aplikacích. Když nakupujeme, sledujeme produktová videa.

A moje teze je, že čím více konzumujeme video, tím více nás nudí text. A musím říct, že to platí i pro mě, přestože rád čtu. Když se učím něco nového, obvykle začnu na YouTube, na TikToku nebo poslouchám podcast. A jen když mě něco opravdu, ale opravdu zajímá, tak si udělám hodiny času na to, abych si přečetla dvousetstránkovou knihu. Už mi to prostě tolik nestojí za to.

A mnozí z vás to nejspíš cítí stejně. Chcete se učit hudební teorii z dlouhé knihy, nebo z videa na YouTube, které má zvuk? Chcete cestou do práce poslouchat zprávy v podcastu nebo si někde složit ten fyzický list papíru? Většina lidí to tak cítí.

Vina moderní konzumace médií

Všichni však máme tento pocit viny. Alespoň já ji mám. Cítím se provinile, když se dívám na videa a když poslouchám podcasty, místo abych vzal do ruky starou dobrou knihu. Když k tomu slyšíte komentáře, mladí lidé se už nedokážou soustředit. Potřebují neustálé dávky dopaminu z laciného obsahu, který projíždějí v aplikacích na sociálních sítích. Už nevycházejí ze svého pokoje. Přesně to samé říkají rodiče už 200 let.

Mám jeden výsadní nápad. Co když jsme všichni jen unavení z příliš hutných a pomalých informací? Knihy s příliš mnoha stránkami. Novinové články s výplní. Co když začneme být mnohem citlivější na kvalitu a stručnost obsahu, který konzumujeme, protože nyní máme nekonečný výběr? Co když se současná generace dětí dokáže učit a vstřebávat informace mnohem rychleji díky technologiím, ne jim navzdory? Je problém v nás, nebo v textu?

Stále ještě hodně čteme, že? Jen čteme každý den z mnoha různých zdrojů, nejen z knihy a novin. Čteme v aplikacích pro zasílání zpráv a na sociálních sítích.

A náš blog. Posloucháme dlouhé podcasty. Velmi se to rozrůstá, že? Ale stále máme představu, že knihy jsou v jistém smyslu morálně nadřazené. A i když vám přednáším, stále to velmi silně pociťuji. Nevím, proč tomu tak je. Nechám to na někom jiném, aby to prozkoumal. Ale rozhodně je velmi zajímavé, jak psychologicky přisuzujeme větší hodnotu psanému slovu.

Ekonomika tvorby obsahu

Proč je tedy tolik informací stále textových, když ve skutečnosti dáváme přednost videu? Je to docela jednoduché. Odpovědí jsou náklady. Náklady v čase a náklady v penězích. Dnes si musíme vybrat mezi rychlostí a rozsahem textu nebo přesností a angažovaností videoobsahu.

A tak je zde základní ekonomická motivace, kdy se do video a audio formátů převádí pouze obsah a myšlenky a znalosti, které považujeme za dostatečně důležité. A tak to v zábavním průmyslu znamená, že dostáváme spíše Rychle a zběsile 278 než avantgardní filmy od studentů filmových škol. Ve firemním světě to znamená, že reklama na Super Bowl je video, ale video o požární bezpečnosti je dlouhý, nudný dokument.

Jak umělá inteligence změní tvorbu obsahu

A to se brzy změní ve velkém, velkém stylu. Umělá inteligence tuto rovnici zcela změní. Díky AI můžeme získat jak rychlost, tak rozsah, přesnost a angažovanost. AI dokáže digitálně vytvářet vysoce fotorealistický obsah. Počítače se mohou naučit, jak vypadá svět, a mohou ho replikovat a remixovat do úžasných detailů.

Tím se spustí nová vlna kreativity. A nebude řízena Hollywoodem. Budou ji pohánět youtubeři a mladí lidé se skvělými nápady, kteří tyto nástroje využijí a budou vyprávět úžasné příběhy.

Avataři s umělou inteligencí a digitální lidé

Ve společnosti Cynthesia se zaměřujeme na avatary AI, digitální lidi, kteří zní a vypadají jako my. Mohou být dokonce námi, pokud si vytvoříte svůj klon. Dnes už naši avataři komunikují s miliony lidí každý den. Učí školní předměty, nastupují do restaurací, poskytují zdravotní poradenství a prodávají produkty ve více než 130 různých jazycích. A začínají být opravdu dobří. Velmi brzy je bude velmi obtížné odlišit od reality.

„Dobrý den. Jsem Alex, osobní avatar. Jsem tak nadšený a šťastný, že jsem tady. Vidíte, jak výrazný jsem a slyšíte, jak přirozeně zním? Není to skvělé? Zatím se měj. Doufám, že se brzy uvidíme.“

Toto video je kompletně vytvořeno umělou inteligencí. Já jsem Alex. Stále neví, kdy přestat mluvit.

S těmito technologiemi tedy můžeme vytvořit cokoli, aniž bychom potřebovali kamery. Můžeme přivést k životu své představy bez tradičních bariér v podobě dovedností a nákladů.

Demokratizace tvorby videa

Co je však na všech těchto nových technologiích ještě zajímavější, je to, že díky nim bude vytváření obsahu nesmírně snadné pro kohokoli. Už jsme viděli, jak klávesnice a počítače z nás všech udělaly spisovatele. Viděli jsme, jak PowerPoint z nás všech udělal designéry. A s umělou inteligencí se každý bude moci stát režisérem a vytvářet videa hollywoodské kvality, aniž by k tomu potřeboval jakékoli školení, jako to vidíte tady za mnou.

V Zendidě jsme už z více než milionu lidí udělali tvůrce videí a je opravdu zábavné sledovat, o čem všem lidé natáčejí videa, ale nemusí se ptát svého šéfa, protože se prostě mohou přihlásit a natáčet videa sami.

Výzkum preferencí při učení

Proč lidé natáčejí videa? Zatím to není příliš prozkoumaná oblast, ale spolupracujeme s UCL v Londýně, abychom zjistili, jak se učíme jinak s videem a videem s umělou inteligencí než s textem. Provedli jsme studii se 400 účastníky. Stále probíhá. Výsledky plánujeme zveřejnit někdy v příštím roce, ale máme opravdu zajímavé první poznatky.

Když se lidí prostě zeptáte, zda se raději učíte pomocí videa s umělou inteligencí, nebo pomocí textu, výsledky jsou docela překvapivé. Až 77 % lidí se raději učí prostřednictvím videa.

Mimo tradiční mediální formáty

Rychlejší a jednodušší tvorba obsahu tak bude mít transformační význam. Ale s novými technologiemi vždy vymýšlíme nové mediální formáty. A právě teď je většina obsahu vytvářeného umělou inteligencí tím, čemu říkám překlenovací žánr. Používáme ho k vytváření starých formátů pomocí nových technologií. Stejně jako první webové stránky vypadaly jako noviny na obrazovce, jsou dnes videa s umělou inteligencí lineární. Mají začátek a konec. V podstatě napodobují to, co můžeme zaznamenat fyzickou kamerou.

Jakmile zkombinujeme AI videa s uvažovacími systémy, jako jsou jazykové modely, odemkneme zcela nový typ médií, která budou interaktivní a personalizovaná. Budou schopna přemýšlet, vyprávět a personalizovat obsah za nás.

Budoucnost personalizovaného učení a zábavy

Pokud se učíte hudební teorii, budete mít k dispozici asistenta, který zná úroveň vašich dovedností, zná váš hudební vkus a podle toho sestaví učební plán. Všechny vaše děti možná budeme mít ve škole jejich oblíbené celebrity, které je budou učit matematiku. A budou to dělat v kontextu, který je pro vaše dítě zajímavý. Třeba to bude fotbal nebo sci-fi nebo cokoli jiného. Vzdělávání bude díky těmto novým systémům umělé inteligence nabitější. Zábava se změní. Bude se utvářet podle diváků a okolního světa.

Pravděpodobně budeme mít interaktivní filmy. Budeme mít televizní seriály, které nikdy neskončí. Zní to divně, ale v mnoha ohledech je právě tohle kanál sociálních médií, že? Je to prostě konec příběhu. Váš kanál TikTok je také nekonečný proud personalizovaného obsahu určeného právě pro vás.

A když to zkombinujeme s novými formami, jako je rozšířená realita, virtuální realita, rozhraní mozek-počítač, budou se média stále více podobat skutečnému životu. Možná budeme v budoucnu předávat zprávy svým přátelům jen prostřednictvím myšlenek. A naše schránka nebude textová. Budou to videa všech vašich přátel a avatarů vašich příbuzných s umělou inteligencí, kteří s vámi budou mluvit. Zní to divně, ale myslím, že to není tak daleko. A slibuji vám, že vaše video o požární bezpečnosti v práci bude v nedaleké budoucnosti spielbergovským mistrovským dílem.

Etické a filozofické otázky

Tyto technologie otevírají Pandořinu skříňku otázek. Jsou tu otázky etické, politické, designové i komerční. A v těchto otázkách se dnes mnoho řečníků podělilo o skvělé názory.

Nechám vás tu s několika provokativními otázkami. Záleží vám na tom, zda je náš obsah generován umělou inteligencí, nebo ne? Záleží vám na tom, když se ve filmu používají speciální efekty nebo zelené plátno? Není nám jedno, že herci v reklamách jsou placeni za to, aby hráli někoho jiného a propagovali produkty, o kterých pravděpodobně nikdy neslyšeli?

Záleží nám na tom, zda jsou herci skuteční, nebo generovaní? Jste fanoušky Harryho Pottera nebo Daniela Radcliffa? Záleží na tom, že Daniel Radcliffe existuje ve skutečném světě? Pravděpodobně se s ním nikdy nesetkáte, že? A co Mickey Mouse nebo postavičky z Pixaru? Můžeme k nim něco cítit, přestože jsou vytvořeny umělou inteligencí?

Budeme důvěřovat agentům s umělou inteligencí, nebo budete stále chtít zavolat do call centra a mluvit s člověkem? Mohou nás bavit počítače, které spolu komunikují? Chtěli byste hrát s počítači, hrát fotbal nebo šachy proti sobě? Možná ne.

Závěr

Budoucnost je před námi, a i když mnohé z toho zní jako sci-fi, ve skutečnosti není tak daleko. A je na nás všech v této místnosti a ve společnosti, abychom se postarali o to, že vybudujeme opravdu úžasnou budoucnost. Myslím, že na to máme technologie a myslím, že na to máme lidi.

Děkuji vám.

Poznámka na závěr: nesouhlasím s Riparbellim, že by uživatelé plošně dávali přednost videoobsahu. Videoobsah je velmi řídké médium, poměr informací k nutné délce konzumace je nevýhodný oproti psanému textu. Pro náročnější informace je psaný text stále výhodnější, než video, video se hodí pro povrchnější informovanost. Což ale neznamená, že nesouhlasím v hlavní myšlence, že video se začne stávat stále významnějším způsobem informovanosti…

Chcete tyto články emailem?

Twitter, Facebook, Opravit 📃