Ed Newton-Rex - Jak modely umělé inteligence kradou tvůrčí práci - a co s tím

💡 Firemní workshopy o umělé inteligenci - pojďme se zamyslet nad tím, jak se vaší firmy dotkne AI a jak se na to připravit!

Patrick Zandl · 1. březen 2025

Ed Newton-Rex - Jak modely umělé inteligence kradou tvůrčí práci - a co s tím
Rychlé shrnutí článku
  • AI modely trénují na tvůrčí práci bez licence, což je nespravedlivé.
  • Licencování tréninkových dat AI je možné a buduje lepší ekosystém.
  • Nelicencované učení AI konkuruje tvůrcům a snižuje poptávku po práci.
  • Fairly Trained certifikuje AI společnosti, které licencují tréninková data.

Toto je přepis a překlad přednášky Eda Newton-Rexe s názvem Jak modely umělé inteligence kradou tvůrčí práci - a co s tím? z konference TEDx v říjnu 2024.

Kdo je Ed Newton-Rex? Bývalý viceprezident Stability AI (rezignoval právě na protest proti vykrádání tvůrčích děl prostřednictvím AI), skladatel hudby. Zde má web.

Technologie a vize generativní umělé inteligence je úžasná, ale krádež práce světových tvůrců při jejím vytváření nikoli. Existují tři klíčové věci, které společnosti zabývající se umělou inteligencí potřebují k vytvoření svých modelů, tři klíčové zdroje: lidé, výpočetní technika a data. Tedy inženýry, kteří modely vytvářejí, grafické procesory, na nichž probíhá proces trénování, a data, na nichž se modely trénují. Společnosti zabývající se umělou inteligencí vynakládají obrovské částky na první dva zdroje, někdy milion dolarů na inženýra a až miliardu dolarů na model, ale očekávají, že třetí zdroj, tréninková data, získají zdarma.

V současné době mnoho společností zabývajících se umělou inteligencí trénuje na tvůrčí práci, za kterou nezaplatily, a dokonce ani nepožádaly o povolení k jejímu použití. To je nespravedlivé a neudržitelné. Pokud však tréninková data přenastavíme a budeme jim poskytovat licence, můžeme vybudovat lepší generativní ekosystém AI, který bude fungovat pro všechny - jak pro samotné společnosti zabývající se AI, tak pro tvůrce, bez jejichž práce by tyto modely neexistovaly.

Většina společností zabývajících se umělou inteligencí dnes většinu svých tréninkových dat nelicencuje. Používají webové scrapery, aby našly, stáhly a trénovaly na co největším množství obsahu, který se jim podaří shromáždit. Často jsou dost tajnůstkářské ohledně toho, na čem trénují, ale je jasné, že trénování na autorsky chráněných dílech bez licence je rozšířené. Když například nadace Milla Foundation zkoumala 47 velkých jazykových modelů vydaných v letech 2019 až 2023, zjistila, že 64 % z nich bylo částečně vyškoleno na Common Crawl, datové sadě, která obsahuje díla chráněná autorským právem, jako jsou novinové články z významných publikací, a dalších 21 % neprozradilo dostatek informací, aby se to dalo poznat tak jako tak. Trénování na dílech chráněných autorským právem bez licence se rychle stalo standardem ve velké části odvětví generativní umělé inteligence.

Ale toto učení - toto učení bez licence na tvůrčí dílo - má vážné negativní důsledky pro lidi, kteří za tímto dílem stojí. A to z prostého důvodu, že generativní umělá inteligence konkuruje svým tréninkovým datům. To není příběh, který společnosti zabývající se umělou inteligencí rády líčí. Rádi mluvíme o demokratizaci, o tom, že umožníme více lidem být kreativní, ale skutečnost, že AI konkuruje svým tréninkovým datům, je nevyhnutelná.

Velký jazykový model vycvičený na krátkých příbězích může vytvořit konkurenční krátké příběhy. Obrazový model vycvičený na stockových obrázcích může vytvořit konkurenční stockové obrázky. Hudební model umělé inteligence vycvičený na hudbě, která je licencována pro televizní pořady, může vytvořit konkurenční hudbu, která bude licencována pro televizní pořady. Tyto modely, jakkoli nedokonalé, jsou tak rychlé a snadno použitelné, že je tato konkurence nevyhnutelná.

A není to jen teoretické. Generativní umělá inteligence je stále ještě poměrně nová, ale již nyní jsme svědky přesně takových efektů, jaké lze očekávat ve světě, v němž generativní umělá inteligence konkuruje svým tréninkovým datům. Například známý filmař Ram Galvama nedávno prohlásil, že bude ve všech svých projektech v budoucnu používat hudbu z umělé inteligence. Skutečně se objevilo několik zpráv o tom, že lidé začínají poslouchat hudbu AI namísto hudby produkované lidmi, a nedávno se píseň AI dostala na 48. místo německé hitparády. Ve všech těchto případech hudba AI konkuruje skladbám, na kterých byla vyškolena.

Nebo si vezměte Kelly McKernan. Kelly je umělkyně z Nashvillu. Deset let si vydělávala dost peněz prodejem svých děl; umění bylo jejím příjmem na plný úvazek. Ale v roce 2022 byl soubor dat, který obsahoval jejich díla, použit k trénování populárního obrazového modelu AI. Jejich jméno bylo jedním z mnoha, které používalo obrovské množství lidí k vytváření umění ve stylu konkrétních lidských umělců. Kelly příjem se téměř přes noc snížil o 33 %. Ilustrátoři po celém světě hlásí podobné příběhy - jsou převálcováni modely umělé inteligence, o kterých mají důvod se domnívat, že byly vycvičeny na jejich práci.

Platforma pro volnou tvorbu Upwork napsala bílou knihu, v níž se zabývala dopady, které na trhu práce zaznamenala generativní umělá inteligence. Podívali se na to, jak se od zavedení ChatGPT změnily nabídky práce na jejich platformě, a zjistili přesně to, co se dalo očekávat: generativní AI snížila poptávku po úkolech psaní na volné noze o 8 %, což se zvýší na 18 %, pokud se podíváte pouze na to, co označují jako úkoly „nižší hodnoty“. Takže výchozí data, která máme k dispozici, plus jednotlivé příběhy, které slyšíme, se shodují s logickým předpokladem: generativní AI konkuruje práci, na které je vyškolena. Je tak rychlá a snadno použitelná, že je to nevyhnutelné. A konkuruje lidem, kteří za touto prací stojí.

Tvůrci nyní tvrdí, že toto učení je nezákonné. Právní rámec autorských práv poskytuje tvůrcům výhradní právo na autorizaci kopií jejich díla a trénink umělé inteligence zahrnuje kopírování. Zde v USA mnoho společností zabývajících se umělou inteligencí argumentuje tím, že učení umělé inteligence spadá pod výjimku z autorského práva pro spravedlivé užití, která umožňuje nelicencované kopírování za omezeného souboru okolností, jako je například vytváření parodií na dílo. Tvůrci a držitelé práv s tím důrazně nesouhlasí a tvrdí, že tuto úzkou výjimku nelze v žádném případě použít k legitimizaci masového využívání tvůrčího díla za účelem vytvoření automatizované konkurence tohoto díla. A aby bylo jasno, zcela s nimi souhlasím.

Tato otázka samozřejmě dosud nebyla soudně prověřena a v současné době probíhá asi 30 soudních sporů podaných držiteli práv proti společnostem zabývajícím se umělou inteligencí, které pomohou tuto otázku vyřešit. Bude to však trvat dlouho a tvůrci nyní trpí tím, co považují za nespravedlivou konkurenci.

Proto navrhují řešení, které se používalo a fungovalo již dříve: udělování licencí. Pokud chce komerční subjekt použít dílo chráněné autorským právem, ať už pro výrobu zboží, výrobu nebo budování streamovací služby, poskytne si licenci na toto dílo.

Společnosti zabývající se umělou inteligencí mají nyní spoustu důvodů, proč by se to na ně nemělo vztahovat. Existuje právní výjimka pro spravedlivé užití, kterou jsem již zmínil. Existuje také argument, že když lidé mohou trénovat na díle chráněném autorským právem bez licence, měla by to mít umělá inteligence dovoleno také. Toto tvrzení je však velmi těžko zdůvodnitelné. Umělci se od sebe navzájem učí už po staletí. Když tvoříte, očekáváte, že se od vás ostatní budou učit. Učíte se z řady zdrojů, od jiných umění přes učebnice až po lekce, z nichž většinu jste zaplatili vy nebo někdo jiný, čímž podporujete celý ekosystém.

V generativní umělé inteligenci komerční subjekty v hodnotě milionů nebo miliard dolarů seškrabávají co nejvíce obsahu, často proti vůli tvůrců, bez placení, přičemž cestou vytvářejí několik kopií (které podléhají autorskému právu), aby vytvořily vysoce škálovatelnou konkurenci tomu, co kopírují - tak škálovatelnou, že existují generátory obrázků s umělou inteligencí, které podle odhadů vytvářejí 2,5 milionu obrázků denně, a generátory písní s umělou inteligencí, které produkují 10 písní za sekundu. Tvrdit, že lidské učení a trénink AI jsou stejné a mělo by se s nimi zacházet stejně, je absurdní.

Společnosti zabývající se umělou inteligencí také tvrdí, že licencování jejich tréninkových dat by bylo nepraktické. Tvrdí, že používají tolik tréninkových dat, že jednotlivé platby každému tvůrci, který za daty stojí, by byly malé. To však platí pro mnoho trhů s licencemi na obsah; tvůrci chtějí dostat zaplaceno, i když jsou platby malé.

Společnosti zabývající se umělou inteligencí také tvrdí, že jednoduše používají příliš mnoho dat na to, aby bylo licencování vůbec proveditelné. Tomu je však stále těžší věřit ve světě, v němž existuje taková škála datových souborů, k nimž lze získat přístup s povolením. Můžete si licencovat data od mediálních společností - jen za poslední rok bylo uzavřeno 27 velkých dohod mezi společnostmi zabývajícími se umělou inteligencí a držiteli práv, a to nemluvím o těch menších, o kterých se neinformuje. Existují tržiště tréninkových dat, kde můžete získat další data. Můžete je rozšířit o data, která jsou veřejnou doménou - to znamená, že na ně neexistují žádná autorská práva - jako například soubor dat Common Corpus s 500 miliardami slov. Můžete to dále rozšířit o syntetická data, tj. data, která vytvořil sám model umělé inteligence a na která obvykle neexistují žádná autorská práva.

Pokud tedy chcete vytvořit svůj model, aniž byste porušili autorská práva, máte k dispozici více možností. Nejpádnějším důkazem toho, že je možné licencovat všechna data, je však skutečnost, že to již dělá více společností. Vím to, protože jsem to sám udělal. Více než deset let pracuji v oblasti, které dnes říkáme generativní umělá inteligence, a loni v září můj tým ve společnosti Stability AI vydal hudební model umělé inteligence, který se trénoval na licencované hudbě. Totéž udělala řada dalších společností.

A já jsem založil Fairly Trained, abych na tuto skutečnost upozornil. A tyto společnosti? Fairly Trained je nezisková organizace, která certifikuje společnosti zabývající se generativní umělou inteligencí, které netrénují na autorsky chráněných dílech bez licence. Spustili jsme ji letos v lednu a certifikovali jsme už 18 společností.

Tyto společnosti přistupují k licencování svých tréninkových dat různě. Máme hlasový model AI, který je trénován na jednotlivých hlasech, na které má licenci. Máme hudební model AI, který si licencoval více než 40 hudebních katalogů. Máme velký jazykový model, který je vycvičen pouze na datech ve veřejné doméně, většinou z vládních dokumentů a záznamů. Máme společnosti, které za svá data zaplatily předem. Máme společnosti, které se dělí o své příjmy s poskytovateli dat. Neexistuje jediná odpověď na přesná specifika toho, jak má některá z těchto licenčních dohod fungovat. Krása licencování spočívá v tom, že se obě strany mohou sejít a vymyslet, co jim bude vyhovovat. A to se děje stále častěji.

Nyní uslyšíte, že požadavek na licencování tréninkových dat nějak dusí inovace, že jsou to jen velké společnosti zabývající se umělou inteligencí, které si mohou dovolit tyto obrovské počáteční licenční poplatky. Ve skutečnosti jsou to ale menší startupy, které se obtěžují licencovat všechna svá data, a často tak činí bez vysokých počátečních licenčních poplatků, ale s využitím modelů, jako jsou podíly na příjmech.

A licencování tréninkových dat má ještě jednu významnou výhodu. Všechna tato učení na základě autorských práv nutí vydavatele uzavírat přístup ke svému obsahu. Iniciativa Data Provenance Initiative se zabývala 14 000 webovými stránkami běžně používanými v tréninkových sadách AI a zjistila, že v průběhu jediného roku při pohledu pouze na domény s nejvyšší hodnotou pro trénink AI vzrostl počet těch, které byly omezeny prostřednictvím robots.txt nebo podmínek služby, ze 3 % na 20 až 33 %. Web se postupně uzavírá kvůli nelicencovanému učení. To je nyní špatné pro nové modely umělé inteligence, pro nové účastníky trhu, ale také pro všechny - výzkumníky, spotřebitele a další -, kteří z otevřeného internetu těží.

Nemělo by nás překvapit, že se široká veřejnost neshodne se společnostmi zabývajícími se umělou inteligencí na tom, na čem mohou trénovat své modely. V jednom z dubnových průzkumů Institutu pro politiku umělé inteligence (AI Policy Institute) byli lidé dotazováni na společnou politiku společností zabývajících se umělou inteligencí, která spočívá v trénování na veřejně dostupných datech. Jedná se o data, která jsou otevřeně dostupná online, což samozřejmě zahrnuje spoustu děl chráněných autorskými právy, jako jsou zpravodajské články a často pirátská média. Šedesát procent lidí uvedlo, že by to nemělo být povoleno, oproti pouhým 19 %, kteří uvedli, že by to povoleno být mělo.

Stejný průzkum se dále ptal, zda by společnosti zabývající se umělou inteligencí měly poskytovatelům dat vyplácet kompenzace: 74 % respondentů odpovědělo, že ano, a pouze 9 % odpovědělo, že ne. Znovu a znovu, když se veřejnosti ptáme na tyto otázky, ukazuje se, že podporuje požadavky týkající se povolení a plateb a odmítá představu, že když je něco veřejně dostupné, dělá to z toho nějakým způsobem férovou hru.

A lidé, kteří vytvářejí umění, jež společnost konzumuje, to cítí stejně. Dnes jsme vydali prohlášení o tréninku umělé inteligence, krátký, jednoduchý otevřený dopis, který jednoduše zní: „Nelicencované používání tvůrčích děl pro trénink generativní umělé inteligence je velkou a nespravedlivou hrozbou pro živobytí lidí, kteří za těmito díly stojí, a nesmí být povoleno.“ Tento dopis již podepsalo 11 000 a více tvůrců z celého světa, včetně autorů oceněných Nobelovou cenou, herců oceněných Oscarem a skladatelů oceněných Oscarem. A pokud s tímto názorem souhlasíte, vyzývám vás, abyste jej podepsali ještě dnes na stránkách AITrainingStatement.org.

Z tohoto a jemu podobných předchozích prohlášení je naprosto zřejmé, že tito umělci, tito tvůrci, považují nelicencované učení svých děl generativními modely umělé inteligence za naprosto nespravedlivé a potenciálně katastrofální pro jejich profese. Pokud jste tedy zastánci nelicencovaného tréninku umělé inteligence, nezapomeňte, že lidé, kteří napsali hudbu, kterou posloucháte, a knihy, které čtete, s tím pravděpodobně nesouhlasí.

Kam nás to tedy zavede? No, právě teď mnoho světových umělců, spisovatelů, hudebníků a tvůrců generativní AI přímo nenávidí. A z jejich vlastních slov víme, že jedním z důvodů je to, že trénujeme na jejich práci, aniž bychom se jich zeptali.

Ale nemusí to tak být. Odvětví umělé inteligence a kreativní průmysl mohou být - a měly by být - vzájemně prospěšné. Aby však tento vzájemně prospěšný vztah mohl vzniknout, musíme vycházet z pozice respektu k hodnotě děl, na kterých se školí, a k právům lidí, kteří je vytvořili.

Netvrdím, že by se měl zastavit veškerý vývoj umělé inteligence. Netvrdím, že by umělá inteligence neměla existovat. Tvrdím jen, že prostředky použité k vytvoření generativní UI by měly být zaplaceny. Licencování je tvrdá práce. Krátkodobě vás to zpomalí, ale nakonec dosáhnete úplně stejného cíle - modelů, které budou stejně schopné, stejně výkonné - a dosáhnete toho, aniž byste nutili světové vydavatele, aby se chytali za nos a ničili komunity, a aniž byste proti sobě poštvali světové tvůrce.

Doufám tedy, že více společností zabývajících se umělou inteligencí bude následovat příkladu těch, které jsme certifikovali ve společnosti Fairly Trained, a budou licencovat všechna svá tréninková data. Doufám, že zaměstnanci těchto společností to budou vyžadovat od svých zaměstnavatelů. A doufám, že každý, kdo používá generativní umělou inteligenci, se bude ptát, na čem byly trénovány jeho oblíbené modely.

Existuje budoucnost, ve které mohou generativní umělá inteligence a lidská kreativita koexistovat - nejen v míru, ale i v symbióze. Začátek byl těžký, ale ještě není pozdě změnit směr.

Děkuji za pozornost.

Chcete tyto články emailem?

Twitter, Facebook, Opravit 📃