ChatGPT očima Stephena Wolframa

Jak funguje ChatGPT uvnitř popsal v podrobném článku (dnes dokonce knize) Stephen Wolfram, tvůrce úžasných matematických projektů. Baví mě, že jeho povídání je zhusta protkáno podobnými větami:

  • Proč se sčítají tyto dvě hodnoty? Nemyslím si, že by v tom byla nějaká zvláštní věda. Jde jen o to, že se zkoušely různé věci, a tohle je jedna z těch, které se zdají být funkční.
  • Každá z hlav pracuje nezávisle na různých částech hodnot ve vkládaném vektoru. A ano, neznáme žádný konkrétní důvod, proč je dobré takto vstup rozdělit nebo co jednotlivé části znamenají; je to prostě jedna z těch věcí, které se ukázaly jako funkční.
  • Je těžké pochopit, co tato vrstva dělá.
  • Co určuje tuto strukturu? Nakonec je to pravděpodobně nějaké „neuronové síťové kódování“ vlastností lidského jazyka. Jaké vlastnosti to mohou být, však zatím není známo.
  • Nakonec je však pozoruhodné, že všechny tyto operace – jakkoli jsou jednotlivě jednoduché – dokážou dohromady odvést tak dobrou „lidskou“ práci při generování textu.
  • Je třeba znovu zdůraznit, že (alespoň pokud víme) neexistuje žádný konečný teoretický důvod, proč by něco takového mělo fungovat.
  • Tohle musíme považovat za potenciálně překvapivý vědecký objev: že v neuronové síti, jako je ChatGPT, je nějakým způsobem možné zachytit podstatu toho, co lidský mozek dokáže při generování jazyka.
  • Některé texty byly při tréninku podány několikrát, některé pouze jednou. Nějakým způsobem však z textu, který vidělo, „dostalo, co potřebovalo“.
  • Zjišťujeme, že ano, je to tam složité a nerozumíme tomu, ale nakonec to produkuje rozpoznatelný lidský jazyk.