Projekt OpenEuroLLM vznikl jako evropská iniciativa pro vývoj otevřených velkých jazykových modelů (LLM) s cílem posílit technologickou suverenitu a konkurenceschopnost Evropy v oblasti umělé inteligence. To jsou takové ty úřední vyjádření. Oficiálně byl zahájen 1. února 2025 a cílem je vytvořit modely pokrývající všechny oficiální jazyky EU a další evropské jazyky. Má také zajistit soulad s evropským AI Actem.
Projekt dostal do vínku 37 milionů Euro od Evropské komise, což se může zdát málo. Dostaneme se k té částce později.
Iniciativy OpenEuroLLM se účastní celkem 20 evropských institucí, firem a výpočetních center. Mezi hlavní účastníky patří: Výzkumné instituce a univerzity
- Univerzita Karlova (Česká republika) - koordinátor projektu
- Technická univerzita v Eindhovenu (Nizozemsko) Společnosti
- Aleph Alpha (Německo)
- AMD Silo AI (Finsko) - spoluvedoucí projektu
- Lights On (Francie) Výpočetní centra
- CSC (Finsko)
- Barcelona Supercomputing Center (Španělsko)
Další účastníci
- Instituce z Francie, Nizozemska, Německa, Švédska, Norska a Itálie
Projekt také spolupracuje s open-source a open-science komunitami jako LAION, open-sci a OpenML. Koordinátorem projektu je Jan Hajič z Univerzity Karlovy a spoluvedoucím je Peter Sarlin z AMD Silo AI.
A to jsou v podstatě všechny oficiální informace, které byly oznámeny. Zní to jako recept na katastrofu, dvacet institucí bez drába, který by nad nimi mohl práskat bičem a velmi limitované eurounijní financování na trhu, kde se běžně utrácejí spíše stovky milionů, než malé desítky.
Není to ale úplně tak.
Co ty peníze? Není to málo?
Především úplně zapadlo, že EU hodlá „mobilizovat“ až 200 miliard euro na investice do AI, především do „AI gigafactories“, což jsou datová centra naplněná stovkou tisíc AI procesorů. Informaci na konferenci oznámila Ursula von der Leyen. Těch třicet milionů pro OpenEuroLLM má být jen na rozjezd a základní organizaci. Protože už je mnoho hotovo.
Většina účastníků OpenEuroLLM totiž již byla zapojena do samostatného programu nazvaného High Performance Language Technologies (HPLT), který byl zahájen před dvěma lety s rozpočtem 6 milionů EUR. Původní návrh počítal s tím, že HPLT vytvoří AI model, ale pak projekt ChatGPT společnosti OpenAI změnil situaci v oblasti umělé inteligence a HPLT se zaměřil na vytvoření vysoce kvalitního souboru dat, který lze použít k trénování vícejazyčných modelů. Datová sada HPLT se v současné době “čistí” od chyb a bude tvořit základ práce OpenEuroLLM.
Podobně vznikla celá řada nutných prerekvizit, jako je třeba superpočítačové datové centrum v Barceloně, takže je na čem stavět. V Evropě jsou tři z deseti nejrychlejších superpočítačů a právě se zprovozňuje JUPITER, první evropský exascalový superpočítač. Řada univerzit a výzkumných pracovišť již mnoho práce odvedla na vývoji velkých multimodálních modelů i zvyšování spolehlivosti AI. Projekt OpenGPT-X, financovaný německou vládou, vyvinul model Teuken-7B trénovaný ve 24 evropských jazycích. Iniciativa Occiglot, vedená německými výzkumnými institucemi, vyvíjí open-source jazykové modely pro evropské jazyky. Pak tu máme výzkumné projekty Vision koordinovaný Leidenskou univerzitou, dublinský Forsee nebo třeba irský AI4Europe. Zjednodušeně řečeno, je na čem stavět.
Do toho je zde partnerství s komerčními firmami. Výslovně zmíněné jsou tři, přičemž o významu německého Aleph Alpha jsme si již něco řekli. A co finské AMD Silo AI? Dnes je to přední soukromá AI laboratoř, která vytvořila open-source multilingvální modely Poro a Viking zaměřené na skandinávské jazyky. Silo AI dále vyvinulo platformu SiloGen pro vytváření a nasazování zákaznických LLM a integraci s firemními aplikacemi. A má svůj vlastní Silo Operating System umožňující rychlé uvádění AI nástrojů do praxe. A francouzský LightsOn? Firma se sice zaměřuje na adaptivní osvětlovací systémy a energeticky efektivní řešení, používá v nich ale AI. Sama si vytvořila velmi efektivní model Alfred a se svým nástrojem Paradigm se zaměřuje na generativní AI pro podniky. Před měsíce představilo také agenta Lunious Lynx zaměřeného na zpracování dokumentů.
Jenže postavit funkční LLM není možné tak, že dáte na hromadu zdrojáky, které vznikly někde na univerzitách a „spojíte je gumičkou“. Je to tvrdý vývoj a testování, něco zcela jiného, než na co jsou akademická pracoviště zvyklá. Asi i proto je tu jako „spoluvedoucí“ projektu Peter Sarlin z AMD Silo AI. Sarlin Silo AI spoluzakládal, dlouhá léta firmě šéfoval a vloni ji dovedl k prodeji procesorovému gigantu AMD za 665 milionů dolarů. Je uznávaným odborníkem na AI, dnes je profesorem na finské Aalto University, kde se specializuje na strojové učení a umělou inteligenci.
Varování v podobě projektu OpenWebSearch
Nejčastěji zpochybňovaný je organizační model, jímž EU podporuje své projekty. Může se vývoj LLM pod eurounijní taktovkou podařit? Máme jeden poměrně čerstvý a podobný příklad - evropský vyhledávač OpenWebSearch.EU, který měl zajistit to samé, co evropský AI projekt, tedy nezávislost na cizích online službách a naplnění eurounijních požadavků.
Projekt byl oficiálně zahájen v září 2022 konsorciem čtrnácti výzkumných institucí. Cílem bylo vyvinout Open Web Index (OWI) – otevřený index webového obsahu – a infrastrukturu OWSAI pro analýzu a vyhledávání. Projekt se počítal, jak bývá tradicí, na čtyři roky, pričemž doteď se neudálo nic viditelného, kromě organizace sympozia o vyhledávání. Teprve v polovině letošního roku má dojít k dokončení otevřeného indexu webového obsahu a pilotní verze OWSAI ověřující provoz v reálném prostředí. Projekt má skončit za rok, v únoru 2026, ale už nyní se počítá s jeho prodloužením, protože k nasazení má dojít spíše po roce 2027, tedy pět let od zahájení projektu. A to je, řekněme si upřímně, příšerný výsledek, který ukazuje, co všechno je na oficiálních EU projektech špatně. Tak například jen hledání firem, které by hostovaly infrastrukturu, se řešilo půl roku, protože šlo o několika kolový výběr. Ve skutečnosti jde o vcelku komoditní službu, jejíž objednávku by Sam Altman podepsal při přestupu z privatejetu do firemní limuzíny. Chyběl tah na branku, chybělo zaujetí, zodpovědnost tlačená nervozními akcionáři, nechyběly ani znalosti, ani vize. Chyběla pružná produkce.
EU vyhledávač získal 9,5 milionů Euro a ve skutečnosti sloužil k financování výzkumných tužeb jednotlivých pracovišť, než že by si od něj někdo něco praktického sliboval. Bylo zcela nejasné, jak by mohl porazit vyhledávače jako Google. A s ohledem na to, jak prudce se žene vyhledávání informací v AI je dost možné, že k termínu komerčního nasazení někdy kolem roku 2030 už bude takový vyhledávač úplně mimo hru.
Jenže s LLM je to jinak
Bude OpenEuroLLM podobný projekt „do ztracena“? V evropském LLM projektu už je řada věcí jinak. Zatímco OpenWebSearch.EU se soukromých firem spíše štítil a jel po univerzitní lince, OpenEuroLLM již hlavní evropské AI firmy integruje a zainteresovává. S čestnou výjimkou Mistralu - a proč, to se neví. Projekt má také své jasné šéfy (tedy dva, ale i to je zlepšení) a je také podstatně lépe zainvestován.
Mezi LLM a vyhledávačem je navíc obrovský rozdíl. Vyhledávač se uživatelé naučí používat podle jeho adresy a pak funguje uživatelský konzervativismus. Dokud jsou uživatelé rozumně spokojeni, používají tento vyhledávač.
Jenže LLM je podkladová služba, infrastruktura. Ve skutečnosti, když používáte ChatGPT, používáte jej zpravidla přes webové rozhraní, které se teprve napojuje na vlastní model. A velkou část peněz získávají provozovatelé modelů právě od firem, které si nechtějí provozovat své LLM a model si pronajímají přes API rozhraní. U webového vyhledávání takový přístup je spíše výjimkou, u LLM naopak je zcela běžný, protože provozování LLM je dost náročné a navíc jej lze podstatně šířeji přizpůsobovat, než výstup z vyhledávače, z něhož byste udělali jen jiný vyhledávač.
Takže když chcete vytvořit službu, která používá umělou inteligenci, zaplatíte si za přístup k API a platíte za každý jednotlivý dotaz podle ceníku. Když vám některá služba nevyhovuje, nebo je drahá, přehodíte API. A když se s tím chcete trápit ještě méně, použijete služby jako Openrouter.ai, které vám umožní přes jedno API používat nejrůznější LLM jen změnou jména ve volání. Dokonce můžete službě říct, že má použít LLM, které je momentálně nejlevnější.
A to je to, co je podstatné. Pokud na trh přijde nové LLM, tak není potřeba přemlouvat jednotlivé uživatele, ale poskytovatele velkých služeb. Například ani Perplexity nemá vlastní LLM, pouze vrstvu nad LLM Anthropicu či OpenAI (a nově i Deepseeku). Změna na LLM trhu je mnohem dynamičtější a proto také byl příchod DeepSeeku takovým nárazem. Najednou k němu všichni masivně přepínali své služby, protože byl výrazně levnější.
Jedinou pobídkou k přechodu ale nemusí být jen cena. Může tím být také splnění nároků místního trh a to nemusí být jen regulace, to může být i kvalitní podpora jazyka. Podpora češtiny patří v LLM tradičně mezi lepší, ale taková finština to už komplikované má. Pokud by dodavatel služby měl k dispozici LLM napasované na evropské poměry jak legislativně, tak jazykově a za rozumných technických i cenových podmínek, pravděpodobně by mu dal přednost.
Co jsou klíčové parametry pro evropské LLM?
- datová suverenita, čili umístění dat na serverech v evropských datacentrech, což je například nutný (a oprávněný) předpoklad pro všechny služby napojené na stát a úřady
- podpora GDPR
- podpora evropských jazyků
- důvěra státních institucí i firem v řešení
Proto se mi zdá, že pokud se podaří vcelku rychle nabídnout obstojně vyladěný eurounijní LLM model respektující výše uvedené parametry, může to být „no-brainer“ varianta pro řadu, firem, podobně jako se právě v Číně Apple dohodlo s Alibabou a bude používat její model. Tím Apple vyhoví čínské regulaci a také se rychle dostane k dostatečně kvalitnímu LLM.
A tak se může snadno stát, že svět se rozdělí na tři umělé inteligence: americkou, eurounijní a čínskou. Budou to tři zahrádky, nově ne ohražené patenty, jako tomu bývalo dříve, ale regulačními předpisy, které nebude jednoduché ani pohodlné naplnit pro firmy podnikající mimo tyto útvary. Je to to, co chceme?