Všechno, co potřebujete vědět o DeepSeek, ale báli jste se zeptat
Minulý týden způsobil čínský startup DeepSeek [dý psík]
rozruch v technologickém světě. Představil nové AI modely, které
kombinují vysokou efektivitu s otevřeným přístupem. Následná panika na
trhu vedla k propadu akcií technologických firem včetně
Nvidie. Kolem DeepSeeku se okamžitě strhl neuvěřitelný humbuk, ale bohužel
téměř vše, co se můžete na internetu dočíst, je překroucené. Tento
článek se pokusí uvést věci na pravou míru a plně vás zasvětit.
DeepSeek přišel se dvěma významnými jazykovými modely. První model představuje průlom v efektivitě trénování a provozu velkých jazykových modelů. Druhý pak prokázal, že dokáže konkurovat nejnovějšímu modelu „o1“ od OpenAI v oblasti logického uvažování, což byla dosud doména pouze nejpokročilejších západních laboratoří.
![](https://www.umeligence.cz/media/4bb17cd417.webp)
Nejde však jen o samotné modely. DeepSeek ukázal, že i přes americké sankce na nejvýkonnější čipy lze dosáhnout špičkových výsledků pomocí chytřejší optimalizace. Navíc se rozhodli své modely sdílet jako open source (tedy si je každý může stáhnout a provozovat u sebe), což je v přímém kontrastu s trendem uzavřenosti u západních společností.
Skutečně Číňané dokázali vyrobit špičkovou AI za dvacetinu běžné ceny?
Toto tvrzení, které se šíří médii, je zcela zavádějící. DeepSeek skutečně oznámil, že finální fáze tréninku jejich hlavního modelu stála 5.576 milionu dolarů, ale je klíčové pochopit, co toto číslo znamená. Jde pouze o náklady za provoz serverů při finálním běhu trénování, nezahrnuje předchozí výzkum, experimenty, vývoj, hardware a další náklady. Je to jako srovnávat cenu filmové pásky s celkovými náklady na natočení filmu.
Navíc s čím tuto částku srovnávat? O nákladech na trénování modelů OpenAI nejsou k dispozici žádné veřejné informace. Trénink modelu Claude 3.5 Sonnet stál podle vyjádření CEO Anthropicu několik desítek milionů dolarů. Navíc podle jeho odhadu se efektivita trénování AI zvyšuje za rok přibližně 4× (tedy za stejnou cenu lze vytrénovat 4× výkonnější model). DeepSeek tedy spíše než revoluci představuje očekávaný bod na této křivce.
Je to opravdu náhoda, že DeepSeek způsobil poprask právě teď?
Tedy v době inaugurace prezidenta Trumpa a když se mluví o uvalení obrovských cel na AI procesory? Ne, není v tom žádná konspirace ani záměrné načasování. Ve skutečnosti DeepSeek zveřejnil většinu svých klíčových inovací už dříve – informace o jejich optimalizacích vyšly už před půl rokem s předchozím modelem, údaje o nákladech na trénink byly publikovány před měsícem.
Teorie o tom, že DeepSeek záměrně vydal model R1 v pátek při zavírání burzy, aby do pondělí způsobil pád akcií, je nesmysl. DeepSeek R1 byl ve skutečnosti vydán v pondělí 20. ledna a významný propad akcií nastal až o týden později.
Mimochodem, nyní byly vydány další dva významné čínské jazykové modely – Qwen 2.5 od Alibaby a Kimi 1.5 od Moonshot AI, přičemž Moonshot AI tvrdí, že jejich model dosahuje stejné úrovně jako OpenAI v oblasti matematiky, programování a multimodálního uvažování. Přesto tyto modely zůstaly ve stínu dění okolo DeepSeeku.
Proč se propadly akcie Nvidie? Je to začátek konce jejich AI impéria?
Propad akcií Nvidie byl součástí širšího otřesu na technologickém trhu – DeepSeekův úspěch zasáhl celý AI sektor včetně společností jako OpenAI, Google a Anthropic. Je to však spíše příklad přehnané tržní reakce než odraz reálné situace. Je důležité si uvědomit, že i DeepSeek používá pro trénování a provoz svých modelů právě hardware od Nvidie.
Paradoxně, jak se AI stává efektivnější a dostupnější, celková poptávka po výpočetním výkonu může ještě růst kvůli novým způsobům využití. Tento jev, známý jako Jevonsův paradox, naznačuje, že lepší efektivita často vede k většímu celkovému využití technologie, ne menšímu.
Jak obešli americké sankce na čipy?
DeepSeek sankce neobešel – používá akcelerátory Nvidia H800, které jsou kvůli embargu výrazně ořezané oproti výkonnějším H100, hlavně v rychlosti práce s pamětí. Místo hledání cest, jak zákaz obejít, se zaměřili na maximální optimalizaci dostupného hardware – tedy jak získat co nejlepší výkon i z akcelerátorů s omezenou šířkou pásma.
To znamenalo jít až na úroveň nízkoúrovňového programování grafických karet a optimalizovat každý aspekt výpočtů. To, co vypadalo jako nevýhoda, se ukázalo jako hnací motor pokroku. Omezení je donutila přehodnotit základní přístupy k učení AI modelů a najít chytřejší způsoby využití dostupného vybavení.
Je ovšem důležité poznamenat, že přesné údaje o použitém vybavení a skutečných nákladech nelze nezávisle ověřit.
Můžu si teď trénovat vlastní ChatGPT doma?
Ne, to je stále zcela mimo dosah běžných uživatelů. Pro představu – Meta nedávno učila svůj model Llama 3.1 na sestavě 16 384 nejvýkonnějších akcelerátorů Nvidia H100 po dobu 54 dní. Každý takový akcelerátor stojí jako menší byt a spotřebuje energie jako výkonný přímotop. K tomu potřebovali úložiště dat o velikosti 240 000 terabajtů.
Dobrá, to byl příklad společnosti Meta. Ale co DeepSeek, o kterém je řeč? Ten má údajně k dispozici přes 50 000 akcelerátorů Nvidia v hodnotě kolem miliardy dolarů. To je výbava, která je naprosto mimo možnosti jednotlivců či malých firem (mimochodem vlastní hardware nemá dokonce ani OpenAI). DeepSeek sice dokázal snížit některé náklady na trénink, ale stále se bavíme o infrastruktuře, kterou si může dovolit pouze velká technologická společnost.
![](https://www.umeligence.cz/media/b09dd1586a.webp)
A co provozování hotového modelu – zvládne to můj herní počítač?
Je třeba zdůraznit, že malé verze modelů DeepSeeku nejsou v žádném případě méně náročné na provoz než jiné open source modely. Ačkoliv se internetem šíří nadšené články o tom, jak různí uživatelé rozběhali DeepSeek na svých domácích počítačích, ve skutečnosti šlo totéž udělat i s předchozími open source modely – hardwarové nároky zůstávají stejné. Nedošlo k žádnému průlomu v oblasti náročnosti provozu na běžném hardware.
Pro představu, opravdu malé nejořezanější verze modelů potřebují aspoň 8 GB video paměti, spíš 24 GB nebo mnohem více. Běžné herní karty mají většinou jen 8–12 GB.
Je DeepSeek skutečně lepší než konkurence?
Na tuto otázku můžeme odpovědět konkrétně podle jednotlivých oblastí. DeepSeek nabízí dva hlavní modely – základní model V3 (podobně jako GPT-4 u OpenAI) a specializovaný model R1 zaměřený na logické uvažování (podobně jako model o1 u OpenAI).
Model V3 dosahuje podobného výkonu jako americké modely staré 7–10 měsíců. V některých specifických testech (například MATH-500) sice překonává i nejnovější modely OpenAI, ale v klíčových oblastech jako je programování nebo schopnost konverzace zůstává výrazně pozadu za modely jako Claude.
Model R1 se kvalitativně vyrovná modelu o1 od OpenAI v oblasti logického uvažování. Je však unikátní v tom, že jako první otevřeně zobrazuje uživatelům své myšlenkové postupy. To byl jeden z hlavních důvodů, proč vzbudil takovou pozornost.
Klíčovou výhodou DeepSeeku tedy není ani tak absolutní výkon, jako spíš poměr výkon/cena a otevřenost jejich přístupu.
Jak to DeepSeek dokázal? V čem je jejich přístup jiný?
DeepSeek dosáhl průlomu kombinací několika klíčových inovací. První je jejich systém „expertů“ (MoE), který aktivuje pouze ty části modelu, které jsou potřeba pro konkrétní úkol. Představte si to jako tým specialistů – když řešíte matematický problém, probudí se matematik, když píšete báseň, probudí se básník. Tuto techniku používají i jiní (například francouzský Mistral), ale DeepSeek významně vylepšil způsob, jak tyto experty trénovat a koordinovat.
Druhá klíčová inovace je DeepSeekMLA (multi-head latent attention), která dramaticky snižuje paměťovou náročnost modelu. Každé slovo nebo token v kontextu normálně potřebuje vlastní místo v paměti – DeepSeek přišel se způsobem, jak tyto informace efektivně komprimovat bez ztráty kvality.
Třetí inovací je jejich přístup k predikci více tokenů najednou během tréninku. Místo zpracování jednoho slova po druhém dokáže model předvídat více slov najednou, což významně zrychluje proces učení. Je to jako rozdíl mezi čtením slovo po slově a čtením celých vět najednou.
Navíc se DeepSeek mohl díky destilaci učit od nejlepších modelů jako GPT-4 nebo Claude, což významně urychlilo jejich vývoj. Je to jako mít skvělého učitele – nemusíte objevovat znalosti od nuly, ale můžete stavět na tom, co už učitel umí.
Není nebezpečné, že tuto technologii vyvíjí Čína?
Tato otázka má dvě roviny. První se týká samotného modelu – DeepSeek jej vydává jako open source, což znamená, že si ho můžete stáhnout a provozovat zcela samostatně na vlastním hardware. Vaše data tak zůstávají plně pod vaší kontrolou. Je to výrazný rozdíl oproti západním společnostem jako OpenAI, které své modely přísně střeží a nutí uživatele posílat data do jejich služeb.
Druhá rovina se týká používání DeepSeeku přes webové rozhraní nebo API. Tady je potřeba říct věci na rovinu – podle čínských zákonů má vláda přístup ke všem datům, která procházejí čínskými servery. Cokoli tedy pošlete do webové verze DeepSeeku nebo jiné čínské AI služby, je potřeba považovat za data dostupná čínské vládě.
Je pravda, že čínské AI modely cenzurují obsah?
Je důležité rozlišovat mezi samotným modelem a službou, která jej využívá. Když používáte webovou verzi DeepSeeku nebo jiných čínských AI služeb, narazíte na další vrstvu – moderátora obsahu, který filtruje otázky o citlivých tématech jako jsou události na náměstí Nebeského klidu nebo Tibet. To ale není vlastnost samotného modelu, je to přidaná vrstva kontroly při jeho provozování jako služby.
Základní model DeepSeeku, který si můžete stáhnout a spustit sami, je teoreticky necenzurovaný. Praxe je však složitější. Komunita uživatelů reportuje rozdílné zkušenosti – někteří potvrzují silnou cenzuru i v lokálně běžících modelech, jiní reportují, že jejich instance odpovídají i na citlivá témata. Je důležité poznamenat, že i když je model open source, byl trénován v Číně a může obsahovat určité předpojatosti nebo omezení zabudované přímo v tréninkovém procesu.
![](https://www.umeligence.cz/media/808bf1ad65.webp)
Proč je důležité, že DeepSeek zvolil open source?
Ironií je, že průlom v otevřenosti AI přichází z Číny, zatímco západní společnosti se uzavírají. OpenAI, která začínala s příslibem otevřenosti už ve svém názvu, postupně své modely uzavřela kvůli bezpečnosti.
Jak vysvětlil CEO DeepSeeku Liang Wenfeng, open source je pro ně strategickou výhodou. Přitahuje talenty, kterým dává možnost skutečně porozumět technologii a přispívat k jejímu rozvoji. Vytváří komunitu a ekosystém, který může být cennější než dočasná technologická výhoda.
Klíčový přínos DeepSeeku je především v transparentnosti procesu uvažování AI. Zatímco OpenAI u svého modelu o1 záměrně skrývá postup uvažování, DeepSeek ho otevřeně zobrazuje a sdílí. Tato otevřenost je důležitá pro výzkum. Jelikož kvalitní data o tom, jak AI systémy „přemýšlí“, se prakticky nedají jinak získat, dá se očekávat, že díky této otevřenosti se schopnost systematického uvažování brzy rozšíří i do dalších AI modelů.
Lze použít DeepSeek jako základ pro vlastní model?
Teoreticky ano, ale je to velmi „špinavý“ přístup. Hlavním důvodem je, že nemáme přesné informace o datech, na kterých byl model trénován. To vytváří významné riziko – nevíte, jaké předpojatosti nebo nežádoucí vzorce chování si model osvojil během původního tréninku.
Dokonce do modelů lze během tréningu „zapéct“ speciální chování, které se aktivuje při určitých vstupech. Takové chování je extrémně obtížné odstranit, a to i v případě, že přesně víte, co hledáte.
Co znamenají různé verze modelů DeepSeek a jak se liší?
DeepSeek nabízí celou rodinu AI modelů různých velikostí. Na vrcholu stojí DeepSeek V3 s 671 miliardami parametrů, který používá systém „expertů“ – v každém okamžiku aktivuje jen ty části (asi 37 miliard parametrů), které skutečně potřebuje.
Pro praktické použití nabízí DeepSeek řadu menších modelů od 70 miliard až po pouhé 1.5 miliardy parametrů. Tyto modely jsou vytvořené pomocí destilace z velkého modelu a většina z nich je založena buď na architektuře Llama 3.1 od Meta nebo Qwen 2.5 od Alibaby. Díky tomu je lze provozovat ve stejném prostředí a s využitím stejných optimalizací jako tyto populární open-source modely.
V čem je unikátní přístup DeepSeeku k uvažování?
Zatímco běžné AI modely často jen „hádají“ odpovědi na základě toho, co se naučily, DeepSeek vyvinul systém pro systematické řešení problémů krok za krokem. Běžně se u jazykových modelů používá technika zvaná „řetěz myšlenek“ (chain of thought, CoT), kdy modelu přímo řekneme, aby „myslel nahlas“ a rozložil problém na jednotlivé kroky.
DeepSeek R1 je naopak speciálně trénovaný na systematické uvažování pomocí posilovaného učení. Model automaticky rozkládá problémy na kroky, aniž by mu to někdo musel říkat. A co je unikátní – jako první model aktivně zobrazuje uživatelům své myšlenkové postupy, což vedlo k velkému zájmu veřejnosti. Podle testů to vede k přesnějším výsledkům zejména u matematiky a logických úloh, ale za cenu pomalejší generace odpovědí.
Co je zajímavého na tréninkovém procesu modelu R1?
DeepSeek použil při vývoji R1 několik inovativních přístupů k tréninku. Nejprve model „nastartovali“ pomocí několika tisíc příkladů strukturovaného uvažování (tzv. Cold start data), aby získal základní schopnost systematicky řešit problémy. Teprve pak následoval hlavní trénink pomocí posilovaného učení.
Během tohoto procesu se objevilo nečekané emergentní chování – model v jednu chvíli sám od sebe přerušil své uvažování slovy „Počkat, počkat. To je aha moment, který musím označit“ a následně přehodnotil své původní řešení problému. Tento „aha moment“ naznačuje, že model dokáže nejen mechanicky aplikovat naučené postupy, ale také kriticky přehodnotit své vlastní uvažování.
Zajímavé je i to, co při vývoji R1 nefungovalo – například použití Process Reward Model (PRM) nebo Monte Carlo Tree Search (MCTS). To ukazuje, že ne všechny teoreticky slibné přístupy se v praxi osvědčí.
Jaký je rozdíl mezi používáním API, webového rozhraní a lokálního nasazení?
DeepSeek lze využívat třemi hlavními způsoby, každý s vlastními výhodami i omezeními. Webové rozhraní na chat.deepseak.com je nejjednodušší cestou – stačí se přihlásit a začít používat. Data však procházejí čínskými servery a podléhají tamní legislativě i cenzuře. Je zde přidaná vrstva moderace obsahu, která filtruje citlivá témata. Webové rozhraní je vhodné především pro běžné dotazy a experimentování.
API přístup nabízí podobnou funkcionalitu jako web, ale umožňuje integraci do vlastních aplikací. Bezpečnostní rizika jsou stejná – data stále procházejí čínskými servery. Cenově je API výrazně výhodnější než konkurenční služby, DeepSeek účtuje přibližně $2 za milion tokenů (oproti $60 u některých západních poskytovatelů).
Lokální nasazení poskytuje nejvyšší míru kontroly a soukromí, protože data neopouštějí vaši infrastrukturu. Není zde žádná dodatečná cenzura ani moderace obsahu. Vyžaduje však vlastní hardware a technické znalosti pro instalaci a údržbu. Výhodou je jednorázová investice bez dalších poplatků za využití (krom elektřiny).
…no a to je vše. Nyní již víte úplně všechno.