Představte si, že diktujete důležitý pracovní email do telefonu.
Všechno jde skvěle, dokud se na konci vašeho textu neobjeví: „Titulky
vytvořil JohnyX.“ Vítejte ve světě halucinací Whisperu, systému pro
převod řeči na text od OpenAI, který pohání přepis řeči v tisících
aplikací, od ChatGPT přes webové služby až po automatické
titulkování videí.
Duchové v tichu
Pokud jste někdy používali hlasové funkce ChatGPT nebo aplikací
založených na Whisperu, možná jste si všimli podivného jevu. Ve chvílích
ticha nebo slabého šumu systém občas „slyší“ věci, které tam ve
skutečnosti nejsou. Někdy je to nevinné „Titulky vytvořil JohnyX“, jindy
mysteriózní odkazy na webové stránky jako „hamskey.com“ nebo
„www.northstarit.co.uk“. A někdy se objeví i celé věty v různých
jazycích, od ruštiny přes čínštinu až po latin.
Připomeňme si důležité okamžiky vývoje AI nástrojů, jak jsme je
viděli my, Evropané, od prvních chatbotů, až po plnohodnotné asistenty
v telefonech a aplikacích, které dnes ovlivňují každodenní život.
OpenAI před pár dny vypustil do světa novou funkci ChatGPT – hledání
na webu. Média okamžitě začala psát o konci Googlu. Pravda je ale, jako
obvykle, někde jinde. ChatGPT Search totiž není ani tak náhrada Googlu, jako
spíš nový způsob, jak získávat informace z internetu. Pojďme se
podívat, v čem je jiný, kdy se hodí použít ho místo klasického
vyhledávače, a kdy je lepší zůstat u starého dobrého Googlu.
Jak se to používá?
V okně pro psaní zprávy najdete nový přepínač search –
když ho zapnete, ChatGPT začne automaticky používat internet pro odpovědi
na vaše dotazy. Je to vlastně totéž, jako když jste dříve ručně napsali
„použij internet“ do dotazu. Takže přímo v přepínači rozdíl není.
Rozdíl je v nástroji, který má ChatGPT pro přístup k internetu interně
k dispozici. Ten je výrazně mocnější.
Novinkou je také postranní panel, ve kterém přehledně zobrazuje odkazy
na všechny zdroje, které ChatGPT při sestavování odpovědi (asi?) použil.
Není to jen obyčejný seznam – ke každému odkazu vidíte krátkou ukázku
obsahu a můžete si ho rozkliknout. OpenAI si dává záležet na tom, aby bylo
vždy jasné, odkud která informace pochází, takže více zvýrazňuje
citační butonky. To je důležité hlavně proto, abyste mohli snadno
ověřit, jestli si nevymýšlí.
JakešGPT se stal hitem a spousta z vás se ptá, jak vlastně vznikl.
Pojďme se podívat komunistovi na zoubek. Jde o tři samostatné kousky
skládačky: generátor textu, syntetický hlas a deepfake video. Každý vznikl
zvlášť a pak se spojily v jeden celek.
Klonování soudruhova intelektu
JakešGPT
je příkladem tzv. „custom GPT“ (nebo také „GPTs“ či „Model
GPT“) – vlastní verze ChatGPT se speciálním promptem. Vytvářet
vlastní GPT můžou jen platící uživatelé (kliknutím sem), ale používat je může
každý – proto si i JakešeGPT může vyzkoušet úplně kdokoliv. Můžete
mu buď poslat text, který předělá do svého charakteristického stylu, nebo
si s ním prostě povídat jako se soudruhem tajemníkem.
Je to překvapivě jednoduché. Stačí například využít službu Rask AI, která se specializuje na
předabování videí. Celý proces je vlastně hračka – nahraješ video,
vybereš jeden z 60 dostupných jazyků a necháš technologii pracovat a pak
se stane zázrak: postavy ve videu mluví svými původními hlasy a
zachovávají osobitou dikci, jen v jiném jazyce. A co je skvělé –
původní hudba i zvukové efekty zůstanou nedotčené.
Dlouho jste si o to psali, no tak vám to teda řeknu. Udělali jsme takový
ten, no, jazykový model, jak se tomu říká. JakešGPT
se to jmenuje. A von ten model vezme ten váš text, prostě, a udělá
z něj takovej ten projev, jak jsem já mluvil na těch schůzích,
že jo.
Já vám řeknu, není to jednoduchý proces, páč ten jazyk, to není jenom
tak, že člověk něco řekne a je to. To musí mít tu formu, tu kulturu
projevu, jak se říká. A tenhle model, von to udělá tak, že to zní jako
já, i když já to samozřejmě nejsem, to je jasný.
No a proč jsme to udělali? Páč lidé si to přáli, že jo. Voni
říkali – udělejte něco takovýho, co by mluvilo jak soudruh Jakeš. No
tak jsme to udělali.
Umělé inteligence pro klonování hlasů nejsou zatím tak dokonalé, jako
třeba generátory obrázků. Určitě se to brzy změní, nejspíš
s masivnějším příchodem videí generovaných pomocí AI. Ale prozatím
nečekej zázraky.
Napodobit hlas někoho jiného totiž neznamená jen napodobit jeho
specifickou barvu, ale i způsob
řeči, parazitní slovíčka, dýchání a já nevím co ještě. Až
uměligence vystřihne Leoše Suchařípu, tak smeknu. Ale letos ještě bude
mít Petr Jablonský co jíst.
Viktor Janiš loni v DVTV vysvětloval, jak
propastný je rozdíl mezi překladem od profesionála a výtvorem AI. Své
postřehy shrnul
i na Facebooku, kde výstižně popisuje, že překlad není pouhé
hledání ve slovníku, ale složitá socio-lingvistická operace. Že jde
o přesazení textu i s celým „kořenovým balem“ kultury – tisíců
konceptů, asociací a idiomů, které jsou v jednom jazyce samozřejmé, ale
v druhém mohou být zcela nesrozumitelné.
Překladatel musí neustále řešit komplexní problémy na pomezí dvou
kultur a činit stovky sofistikovaných rozhodnutí. A proto je Viktor Janiš
velmi skeptický k tomu, že by AI mohla takovou operaci zvládnout.
Má naprostou pravdu. Překladatel je umělec a psycholog a stratég. Ale na
rozdíl od Viktora jsem naprosto přesvědčený, že tohle AI zvládne.
Představte si, že byste mohli vytvořit hollywoodský trhák jen pomocí
textu a pár kliknutí myší. Zní to jako sci-fi? Dlouho nebude. AI
generátory videí mění pravidla hry ve filmovém průmyslu. Pojďme se
podívat, jak tahle technologie funguje a co všechno dokáže.
Už dnes si každý může za večer vytvořit podobný videoklip:
Klip jsem vytvořil při prvním setkání s generátory videí. Chtěl jsem
je rychle vyzkoušet a zjistit, co dokážou. Strávil jsem tím jen chvilku a
jel vždy na první dobrou. Všechny ty „glitche“ jsem v klipu nechal
schválně – ukazují, jak na tom tato technologie momentálně je. Je to
takový malý dokument o současných možnostech a limitech AI
generátorů videí.
Představte si, že máte kamaráda, který mluví jako Shakespeare, ale
neumí spočítat, kolik je 7 + 8. Přesně tak se chovají dnešní jazykové
modely umělé inteligence jako ChatGPT. Dokážou psát básně, vysvětlovat
vtipy a vést filosofické debaty, ale když dojde na počty, najednou jsou
v koncích. Proč tomu tak je? A je šance, že se to někdy změní?
Matematika je pro AI
překvapivě oříšek
Pokud jste někdy zkoušeli použít ChatGPT jako kalkulačku, nejspíš jste
si všimli, že to není zrovna jeho silná stránka. A není v tom sám –
podobné problémy mají i další jazykové modely jako Claude od Anthropicu,
Gemini od Googlu nebo Llama od Mety. Všechny tyto AI mají potíže
i s úlohami, které by zvládl průměrný páťák. Přitom paradoxně
zvládají složité slovní úlohy z přijímaček na vysokou školu. Jak je
možné, že umělá inteligence, která dokáže pomalu napsat divadelní hru,
se zamotá do jednoduchého početního příkladu?