Ema mele maso aneb proč je to složitější než jen statistika

Možná jste to už slyšeli. Že jazykové modely, jako je ChatGPT, jsou jako chytré prediktivní klávesnice známé z mobilních telefonů, které na základě statistiky předpovídají nejpravděpodobnější další slovo. Ehm… Ve skutečnosti je to mnohem zajímavější – a také složitější. Pojďme to rozebrat.

Když statistika slov nestačí

Zkuste si představit, že byste chtěli vytvořit vlastní prediktivní klávesnici. Projdete velké množství textu a vytvoříte statistiky, jak často po sobě která slova následují. Zjistíte z nich například, že za slovy Ema a mele nejčastěji následuje slovo maso. Výborně, váš model funguje!

Jenže co se stane, když budeme chtít napovídat delší sekvence slov? I s ohromným množstvím dat – třeba celým internetem – narazíme na zásadní problém: počet možných kombinací slov roste exponenciálně s každým dalším slovem. Data se tak stávají řídká, což znamená, že mnoho kombinací slov v tréninkových datech najdeme jen málo nebo vůbec.

O jak dlouhých sekvencích mluvím? Už při pěti nebo šesti po sobě jdoucích slovech začne mít statistika problémy. Model přestane správně odhadovat, jaké slovo by mělo následovat.

Možná si říkáte, že 5 slov je přeci šíleně málo. Zkuste si experiment! Do Googlu zadejte tyto dvě slova, v uvozovkách, aby vyhledávač hledal přesně tuto frázi. Pravděpodobně dostanete odpověď: Žádné výsledky nebyly nalezeny. A to Google prohledává celý internet, včetně milionů knih, článků a dokumentů. A my hledáme pouze dvě běžná slova! Tento jednoduchý experiment ukazuje, jak rychle narazíme na limity statistického modelu. Abychom mohli rozhodnout, jaké třetí slovo bude následovat, na to nemáme data.

Pokud by jazykové modely fungovaly pouze na základě statistických dat z dříve viděných sekvencí slov, čelily by stejnému problému. Ale zadejte stejnou frázi do ChatGPT – model bude schopen na ni plynule navázat, ať už diskusí o fyzice, nebo třeba o sci-fi konceptu takového vesmíru.

Transformery: Revoluce v porozumění jazyku

Co se tu děje? Jazykové modely nejsou omezeny jen na pravděpodobnost výskytu slovních sekvencí. Dokáží vytvářet smysluplné věty, i když přesně takovou kombinaci slov nikdy neviděly.

Klíčem k tomuto pokročilému chování je architektura zvaná transformer (ano, to je to „T“ ve zkratce GPT). Co dělá transformery tak výjimečné? Přinášejí do hry něco, co jednoduché modely, které berou v úvahu jen několik posledních slov (odborně se jim říká n-gramy) nedokážou: schopnost zohlednit dlouhý kontext. Díky mechanismu zvanému self-attention model analyzuje, která slova v celé větě či textu jsou pro aktuální význam nejdůležitější.

Jak to funguje v praxi? Podívejme se na příklad: „Četl jsem článek o technologiích, co mi doporučil kamarád. Moc mě zaujal.“

Na první pohled je vše jasné. Ale zamysleme se: Co mě zaujalo? Je to „kamarád“ nebo „článek“? Jednoduchý model by tyto vztahy nedokázal správně určit. Díky self-attention ale model ví, že „zaujal“ se vztahuje k článku, a ne kamarádovi nebo technologiím. I když jsou slova článek a zaujal v různých větách a dál od sebe, model pochopí, jaký vztah mezi nimi existuje.

„Fajn, to je zajímavé, ale stále to nevysvětluje, jak si model poradí s kombinacemi slov, které nikdy předtím neviděl.“ Trik je v tom, že transformery pracují s vnitřními reprezentacemi slov. Každé slovo je převedeno na řadu čísel, která zachycují jeho význam a vztahy k jiným slovům. Díky tomu model chápe širší souvislosti a dokáže vytvářet nové kombinace, i když se s nimi dříve nesetkal.

Velmi sofistikovaná statistika

Představa, že jazykové modely fungují jen jako statistika slov, je značně zjednodušující. Jak jsme si ukázali, ani s ohromným množstvím dat nelze pokrýt všechny možné kombinace a statistické modely tak narážejí na své limity.

Díky transformerům a jejich „kouzelné“ self-attention umí:

Analyzovat komplexní vztahy mezi slovy v celém textu
Udržet dlouhodobý kontext a správně přiřazovat významy
Generovat smysluplné odpovědi i na zcela nové kombinace slov

Tyto schopnosti umožňují modelům vytvářet texty, které se blíží lidské úrovni. Jasně, pořád nemají vědomí ani emoce a rozumí jazyku jinak než my. Ale to, co umí, je samo o sobě pozoruhodné. Už dnes by dokázaly napsat mnohem lepší závěr tohoto článku než já.