Google Bard v češtině

💡 Firemní workshopy o umělé inteligenci - pojďme se zamyslet nad tím, jak se vaší firmy dotkne AI a jak se na to připravit!

Patrick Zandl · 16. červenec 2023

Největší frmol je znovu v oblasti umělé inteligence. Tak především Google spustil svůj jazykový model Bard v dalších čtyřiceti jazycích, tentokráte včetně češtiny. Bard má být samozřejmě lepší, než ChatGPT, především má být vycvičený na desetinásobném objemu dat. Umí pracovat s obrázky, vytvořit kód v programovacím jazyce, postupně se propojuje do dalších Google služeb, jako je výstup strukturovaných dat do Tabulek nebo Google Lens (zatím jen v angličtině).

Zásadní odlišnost jsou data a jejich aktuálnost. ChatGPT je vycvičen pomocí datové sady textů převzatých z běžného procházení internetu, knih, článků, dokumentů, Wikipedie a internetu. Jeho zdroje jsou však omezeny do roku 2021 a dotazování se ChatGPT na informace o světových událostech povede k neaktuálním odpovědím.

Na druhou stranu Bard přebírá data z celého internetu v reálném čase. Podle Google Bard čerpá odpovědi z 50 % z dialogů na veřejných fórech, 12,5 % z korpusu C4, dále 12,5 % z veřejných dokumentů, 12,5 % z Wikipedie a po 6,25 % z anglických a neanglických dokumentů.

U toho korpusu C4 se na chvíli zastavme. Je velmi důležité, jak se AI dozví to, co nám posléze předkládá. Nejprve se ovšem patří omluva, on ten korpus C4 to není striktně vzato korpus, ale databáze materiálů, z níž si umělá inteligence teprve něco jako korpus vytváří, ale nenapadlo mě příhodnější české slovo. Korpus C4 vytvořil Google pro trénování umělé inteligence a narozdíl od OpenAI tak poměrně přesně říká, čím umělou inteligenci naplnil. C4 obsahuje patnáct milionů webových serverů, přičemž už první tři servery, ze kterých pochází nejvíce tokenů, tedy záznamů, si zaslouží pozornost. Na prvním místě je web Patents společnosti Google, který obsahuje texty patentů vydaných po celém světě, na druhém nepřekvapivě Wikipedia bezplatná online encyklopedie, a na třetím u nás asi málo známý web Scribd, digitální knihovna materiálů, textů a prezentací nahrávaných uživateli, takový Youtube pro texty a prezentace. Na seznamu se umístilo také několik desítek webů s pirátskými knihami včetně webu B-ok.org na pozici 190, který mezi tím americké ministerstvo spravedlnosti zrušilo. Velmi podrobně problematiku analyzuje článek v The Washington Post.

Asi nejvýraznější výhodou v českém prostředí je ovšem cena. Bard je zdarma, zatímco ChatGPT 4 stojí dvacet dolarů měsíčně v podobě tarifu ChatGPT Plus. Zdarma je u ChatGPT jen starší verze. Jenže to společnost OpenAI promptně vyřešila tím, že zdarma nabízí již onu čtvrtou verzi ChatGPT, i když bez pluginů a s možností menšího provozu. Což ovšem není velké omezení.

Zatím si musíte oba modely osahat, neboť vývoj je prudký. Osobně se mi zdál Bard poněkud plovoucí v osobách a rodech, v češtině si zkrátka není tak jistý, jako v angličtině a také ve tvorbě zdrojového kódu mi nepřišel tak dobrý. S aktuálností dat si dříve uměl ChatGPT poradit propojením s Bingem, které před pár dny bylo zrušeno, protože touto integrací lidé obcházeli placení za Plus verzi. To se ale záhy zase jistě změní.


Chcete tyto články emailem?

Twitter, Facebook, Opravit 📃