ChatGPT očima Stephena Wolframa

Jak funguje ChatGPT uvnitř popsal v podrobném článku (dnes dokonce knize) Stephen Wolfram, tvůrce úžasných matematických projektů. Baví mě, že jeho povídání je zhusta protkáno podobnými větami:

Proč se sčítají tyto dvě hodnoty? Nemyslím si, že by v tom byla nějaká zvláštní věda. Jde jen o to, že se zkoušely různé věci, a tohle je jedna z těch, které se zdají být funkční.

Každá z hlav pracuje nezávisle na různých částech hodnot ve vkládaném vektoru. A ano, neznáme žádný konkrétní důvod, proč je dobré takto vstup rozdělit nebo co jednotlivé části znamenají; je to prostě jedna z těch věcí, které se ukázaly jako funkční.
Je těžké pochopit, co tato vrstva dělá.
Co určuje tuto strukturu? Nakonec je to pravděpodobně nějaké „neuronové síťové kódování“ vlastností lidského jazyka. Jaké vlastnosti to mohou být, však zatím není známo.
Nakonec je však pozoruhodné, že všechny tyto operace – jakkoli jsou jednotlivě jednoduché – dokážou dohromady odvést tak dobrou „lidskou“ práci při generování textu.
Je třeba znovu zdůraznit, že (alespoň pokud víme) neexistuje žádný konečný teoretický důvod, proč by něco takového mělo fungovat.
Tohle musíme považovat za potenciálně překvapivý vědecký objev: že v neuronové síti, jako je ChatGPT, je nějakým způsobem možné zachytit podstatu toho, co lidský mozek dokáže při generování jazyka.
Některé texty byly při tréninku podány několikrát, některé pouze jednou. Nějakým způsobem však z textu, který vidělo, „dostalo, co potřebovalo“.
Zjišťujeme, že ano, je to tam složité a nerozumíme tomu, ale nakonec to produkuje rozpoznatelný lidský jazyk.